所有應用軟件之中带斑,數據庫可能是最復雜的席噩。
MySQL的手冊有3000多頁模捂,PostgreSQL的手冊有2000多頁捶朵,Oracle的手冊更是比它們相加還要厚。
但是狂男,自己寫一個最簡單的數據庫综看,做起來并不難。關鍵在于理解其中的原理
一 數據以文本形式保存
第一步岖食,就是將所要保存的數據红碑,寫入文本文件。這個文本文件就是你的數據庫泡垃。
為了方便讀取析珊,數據必須分成記錄,每一條記錄的長度規(guī)定為等長蔑穴。比如忠寻,假定每條記錄的長度是800字節(jié),那么第5條記錄的開始位置就在3200字節(jié)存和。
大多數時候奕剃,我們不知道某一條記錄在第幾個位置,只知道主鍵(primary key)的值捐腿。這時為了讀取數據纵朋,可以一條條比對記錄。但是這樣做效率太低茄袖,實際應用中操软,數據庫往往采用B樹(B-tree)格式儲存數據。
二 什么是B樹
要理解B樹绞佩,必須從二叉查找樹(Binary search tree)講起:
二叉查找樹是一種查找效率非常高的數據結構寺鸥,它有三個特點:
(1)每個節(jié)點最多只有兩個子樹。
(2)左子樹都為小于父節(jié)點的值品山,右子樹都為大于父節(jié)點的值胆建。
(3)在n個節(jié)點中找到目標值肘交,一般只需要log(n)次比較笆载。
二叉查找樹的結構不適合數據庫,因為它的查找效率與層數相關。越處在下層的數據,就需要越多次比較。極端情況下咽笼,n個數據需要n次比較才能找到目標值媳纬。對于數據庫來說其监,每進入一層米死,就要從硬盤讀取一次數據物喷,這非常致命,因為硬盤的讀取時間遠遠大于數據處理時間卓练,數據庫讀取硬盤的次數越少越好。
B樹是對二叉查找樹的改進拴测。它的設計思想是务荆,將相關數據盡量集中在一起,以便一次讀取多個數據,減少硬盤操作次數盅惜。
B樹的特點也有三個井佑。
(1)一個節(jié)點可以容納多個值蝶防。比如上圖中,最多的一個節(jié)點容納了4個值明吩。
(2)除非數據已經填滿间学,否則不會增加新的層。也就是說印荔,B樹追求"層"越少越好低葫。
(3)子節(jié)點中的值,與父節(jié)點中的值仍律,有嚴格的大小對應關系嘿悬。一般來說,如果父節(jié)點有a個值水泉,那么就有a+1個子節(jié)點善涨。比如上圖中,父節(jié)點有兩個值(7和16)草则,就對應三個子節(jié)點钢拧,第一個子節(jié)點都是小于7的值,最后一個子節(jié)點都是大于16的值炕横,中間的子節(jié)點就是7和16之間的值源内。
這種數據結構,非常有利于減少讀取硬盤的次數份殿。假定一個節(jié)點可以容納100個值膜钓,那么3層的B樹可以容納100萬個數據,如果換成二叉查找樹卿嘲,則需要20層呻此!假定操作系統(tǒng)一次讀取一個節(jié)點,并且根節(jié)點保留在內存中腔寡,那么B樹在100萬個數據中查找目標值,只需要讀取兩次硬盤掌唾。
三 索引
數據庫以B樹格式儲存放前,只解決了按照"主鍵"查找數據的問題。如果想查找其他字段糯彬,就需要建立索引(index)凭语。
所謂索引,就是以某個字段為關鍵字的B樹文件撩扒。假定有一張"雇員表"似扔,包含了員工號(主鍵)和姓名兩個字段吨些。可以對姓名建立索引文件炒辉,該文件以B樹格式對姓名進行儲存豪墅,每個姓名后面是其在數據庫中的位置(即第幾條記錄)。查找姓名的時候黔寇,先從索引中找到對應第幾條記錄偶器,然后再從表格中讀取。
這種索引查找方法缝裤,叫做"索引順序存取方法"(Indexed Sequential Access Method)屏轰,縮寫為ISAM。它已經有多種實現(xiàn)(比如C-ISAM庫和D-ISAM庫)憋飞,只要使用這些代碼庫霎苗,就能自己寫一個最簡單的數據庫。
四 高級功能
部署了最基本的數據存乳蛔觥(包括索引)以后唁盏,還可以實現(xiàn)一些高級功能。
(1)SQL語言是數據庫通用操作語言瘤睹,所以需要一個SQL解析器升敲,將SQL命令解析為對應的ISAM操作。
(2)數據庫連接(join)是指數據庫的兩張表通過"外鍵"轰传,建立連接關系驴党。你需要對這種操作進行優(yōu)化。
(3)數據庫事務(transaction)是指批量進行一系列數據庫操作获茬,只要有一步不成功港庄,整個操作都不成功。所以需要有一個"操作日志"恕曲,以便失敗時對操作進行回滾鹏氧。
(4)備份機制:保存數據庫的副本。
(5)遠程操作:使得用戶可以在不同的機器上佩谣,通過TCP/IP協(xié)議操作數據庫把还。