吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么我們需要分布式數據庫

數據分析與開發 ? 來源:多顆糖 ? 作者:多顆糖 ? 2021-09-06 10:37 ? 次閱讀

數據庫領域圖靈獎獲得者 Jim Gray 說過:“所有的存儲系統最終都會演變成數據庫系統。(All storage systems will eventually evolve to be database systems.)”

數據庫系統經過幾十年演進后,分布式數據庫在近幾年發展如火如荼,國內外出現了很多分布式數據庫創業公司,為什么分布式數據庫開始流行?在計算機歷史上出現過數百個數據庫系統,為什么我們需要分布式數據庫?

為何走向分布式數據庫

讓我們追溯數據庫發展歷史,看看分布式數據庫為何出現。

1960 年代:第一個數據庫

1961 年,Charles Bachman 等人設計了第一個計算機數據庫管理系統(DBMS),這個網狀模型(Network model)的數據庫被稱為 IDS(Integrated Data Store)。隨后不久,IBM 在 1968 年開發了層次模型(hierarchical model)的數據庫 IMS(Information Management System)。這兩個數據庫都是實驗性的先行者。

無論是網狀模型還是層次模型,最開始的數據庫都非常難用,沒有很多我們如今習慣的東西:

沒有表,更沒有 SQL;

數據粗暴存儲,不得不通過指針遍歷整個數據結構來進行查詢;

邏輯層和物理層并不分離,沒有獨立的模式(schema),要增加屬性,必須重新加載全部的數據然后轉存;

最初的數據庫沒有獨立存儲數據,沒有任何抽象,這導致開發者需要耗費大量精力來使用。

1970 年代:關系型數據庫

到了20世紀70年代,IBM 的研究員 Edgar Frank Codd 看到他周圍的程序員每天花費大量時間處理查詢、改變模式和思考如何存儲數據,于是他創造了今天眾所周知的關系模型。

關系模型建立之后,IBM 開啟了著名的 System R 進行專項研究,該項目是第一個實現 SQL 和事務的 DBMS。System R 的設計對后來各類數據庫產生了積極的影響。

關系模型擺脫了查詢和數據存儲之間的緊密耦合,查詢獨立于存儲,數據庫可以自由地在幕后進行優化,程序員無需知道背后的存儲方式,只需要通過 SQL 與數據庫進行交互,這對于開發者非常友好。

1978 年 Oracle 發布,點燃了商業數據庫的導火線。

20世紀末:走向成熟

接下來的幾十年里,數據庫進入成長期,一步步走向成熟。早期的層次模型和網狀模型消失了,關系型數據庫成為主流。SQL 成為數據庫標準查詢語言,直到今天我們仍然在使用。

數據庫商業化也越來越完善,同時開始出現如 PostgreSQL 和 MySQL 等開源數據庫。由于大型商業數據庫非常昂貴,一些互聯網企業開始使用 MySQL 等開源數據庫作為替代方案。

2000 年代:NoSQL

21 世紀伊始,互聯網走向繁榮,突然間許多公司需要支持越來越多的用戶,并且必須 24 * 7 不間斷運行服務,為此互聯網公司不得不在多臺計算機上復制(replication)和分片(shard)存儲他們的數據。

分片存儲即將表按照某個關鍵字拆分成多個分片,例如按照年進行拆分,2000 年的數據存儲在第一臺機器上,2001 年的數據存儲在第二臺機器上,以此類推。這通常由數據庫管理員來完成。同時為了讓應用程序不修改代碼、無感知地讀寫分片數據,必須要將一個中間件放到這些分片前面,將應用程序原本的 SQL 轉換為支持分片的 SQL。如下圖所示。

當然,這類方案也有一些缺點,例如:

不支持跨分片事務;

重新分片是困難的,會成為數據庫管理員的噩夢;

Google 等公司如此分片存儲數據庫,目的是不惜一切代價來獲得可擴展性,因為他們需要構建越來越大的應用,服務越來越多的用戶。這些事情都是為了追求可擴展性。

為此,這些公司還開發了 NoSQL,不惜放棄了關系模型,放棄了事務,放棄了數據一致性保證(有的 NoSQL 只保證最終一致性)。

前文提到,20世紀70年代 Edgar Frank Codd 為了減輕開發人員心智負擔而設計了關系型數據庫,而 NoSQL 解決了應用程序所需的可擴展性,但又好似退回到了以前,程序員又要面臨 NoSQL 功能不足的問題——也就是 Jim Gray 所說的:“所有的存儲系統最終都會演變成數據庫系統。”

2010 年代:分布式數據庫

為什么要構建分布式數據庫呢?通過歷史發展分析應該相當清楚了,現有的數據庫解決方案給開發者和管理員帶來了過重的負擔。當你開始一個新的大項目,選擇一個單點數據庫會犧牲掉未來的可擴展性,選擇一個 NoSQL 又會讓開發者承受額外的負擔來解決問題,并且可能不支持事務等優秀的功能。

分布式數據庫試圖結合兩者優點,構建成為兩全其美的系統:既能支持完整的關系模型,又能提供高可擴展性和可用性。分布式數據庫常被稱為 NewSQL 或 Distributed SQL——無論怎么稱呼,都指那些在多臺機器運行的數據庫。

這不是說 NoSQL 是完全沒用的,事實上人們在 NoSQL 上構建了許多成功的系統,但這要困難得多。Google 的分布式數據庫 Spanner 論文中有一句話:

We believe it is better to have application programmers deal with performance problems due to overuse of transactions as bottlenecks arise, rather than always coding around the lack of transactions.

翻譯過來就是:“我們認為最好讓應用程序開發者來解決因過度使用事務而導致的性能問題,而不是讓開發者總是圍繞著缺少事務編寫代碼。”

也就是說,事務是否會造成性能影響的應該由業務開發者來考慮,而作為一個數據庫必須提供事務機制,來滿足各種應用常見的需求。

Spanner 論文發表后,開始涌現出許多優秀的開源分布式數據庫,其中具有代表性的有:CockroachDB、TiDB、YugabyteDB 和最近開源的 OceanBase 等等。

通過回顧數據庫歷史進程,我們知道了為什么出現分布式數據庫,現在我們要關注如何實現分布式數據庫。

如何實現分布式數據庫

分布式數據庫我們關注:

數據如何在機器上分布;

數據副本如何保持一致性;

如何支持 SQL;

分布式事務如何實現;

當然,本文只會簡述分布式數據庫的簡單原理,許多細節不會涉及,如果你想要深入學習,除了學習源代碼外,可以關注筆者的公眾號和筆者下半年將要出版的書籍。

數據分布

NewSQL 和 NoSQL 的數據分布是類似的,他們都認為所有數據不適合存放在一臺機器上,必須分片存儲。因此需要考慮:

如何劃分分片?

如何定位特定的數據?

分片主要有兩種方法:哈希或范圍。

哈希分片將某個關鍵字通過哈希函數計算得到一個哈希值,根據哈希值來判斷數據應該存儲的位置。這樣做的優點是易于定位數據,只需要運行一下哈希函數就能夠知道數據存儲在哪臺機器;但缺點也十分明顯,由于哈希函數是隨機的,數據將無法支持范圍查詢。

范圍分片指按照某個范圍劃分數據存儲的位置,舉個最簡單的例子,按照首字母從 A-Z 分為 26 個分區,這樣的分片方式對于范圍查詢非常有用;缺點是通常需要對關鍵字進行查詢才知道數據處于哪個節點,這看起來會造成一些性能損耗,但由于范圍很少會改變,很容易將范圍信息緩存起來。

例如下圖所示,我們按照關鍵字劃分為三個范圍:[a 開頭,h 開頭)、[h 開頭,p 開頭)、[p 開頭,無窮)。

如下圖所示,這樣進行范圍查詢效率會更高。

我們關心的最后一個問題是,當某個分片的數據過大,超過我們所設的閾值時,如何擴展分片?由于有一個中間層進行轉換,這也很容易進行,只需要在現有的范圍中選取某個點,然后將該范圍一分為二,便得到兩個分區。

如下圖所示,當 p-z 的數據量超過閾值,為了避免負載壓力,我們拆分該范圍。

顯然,這里有一個取舍(trade-off),如果范圍閾值設置得很大,那么在機器之間移動數據會很慢,也很難快速恢復某個故障機器的數據;但如果范圍閾值設置得很小,中間轉換層可能會增長得非常快,增加查詢的開銷,同時數據也會頻繁拆分。一般范圍閾值選擇 64 MB 到 128 MB,Cockroachdb 使用 64MB 大小,TiDB 默認閾值為 96 MB 大小。

數據一致性

一個帶有“分布式”三個字的系統當然需要容忍錯誤,為了避免一臺機器掛掉后數據徹底丟失,通常會將數據復制到多臺機器上冗余存儲。但分布式系統中請求會丟失、機器會宕機、網絡會延遲,因此我們需要某種方式知道冗余的副本中哪些數據是最新的,

最常見的復制數據方式是主從同步(或者直接復制冷備數據),主節點將更新操作同步到從節點。但這樣存在潛在的數據不一致問題,同步更新操作丟失了怎么辦?從節點恰好寫入失敗了怎么辦?有時這些錯誤甚至會永久損壞數據,需要數據庫管理員介入。

保持一致性常常會以性能為代價(以后我們會討論),因此,大部分 NoSQL 只保證最終一致性,并通過一些沖突處理方案來解決數據不一致。

很多名詞沒有加以解釋,如果你覺得很多名詞你不了解,想要了解更多內容,請關注我的公眾號,或是期待我下半年將出版的新書。

現有著名的復制數據的算法是我們經常聽到的 Paxos、Raft、Zab 或 Viewstamped Replication 等算法。其中,Google 花了數年時間才實現了一個滿足生產需要的 Paxos 算法。而 Raft 是一個后起新秀,是斯坦福大學的博士生 Ongaro Diego 基于 Paxos 設計的一個更具理解性的共識算法。Raft 誕生后便席卷了分布式共識算法領域,如今你可以在 Github 搜到許許多多的 Raft 開源實現,把他們 clone 到你的應用中來實現可靠的數據復制吧(千萬別真的這么干!)。

Raft 未必真的易于使用,但它已經使得編寫具有一致性的系統比以往更容易,具體算法細節不再展開,感興趣的同學請閱讀前文《條分縷析 Raft 共識算法》。

簡而言之,Raft 算法只需要超過半數的節點寫入成功,即認為本次寫操作成功,并返回結果給客戶端。發生故障時,Raft 算法可以重新選舉領導者,只要少于半數的節點發生故障,Raft 就能正常工作。

Raft 算法可以滿足可靠復制數據,同時系統能夠容忍不超過半數的節點故障。

在分布式數據庫中,一個分片使用一個共識組(consensus group)復制數據,具體的 Raft 共識組稱為 Raft 組(Raft group),Paxos 共識組稱為 Paxos 組(Paxos group)。

我從 TiDB 官網中找來一張圖,TiDB 將一個分片稱為一個 Region,如圖中有三個 Raft 組,用來復制三個 Region 的數據。

軟件工程沒有銀彈,使用共識算法仍然需要面臨許多生產問題,例如成員變更、范圍分區變更、實現線性一致性等等問題都要去克服。只不過現在我們有了堅實的學術支撐,這樣進行復制是正確的。

SQL 表數據 KV 化存儲

解決了 KV 存儲以后,我們還要想辦法用 KV 結構來存儲表結構。通常,增刪查改可以抽象成如下 5 個 KV 操作(也許可以再多些,但基本就是這些)。

Get(key) Put(key, value) ConditionalPut(key, value, exp) Scan(startKey, endKey) Del(key)

我們討論的是 OLTP 類分布式數據庫都是行存。我們以 CockroachDB 舉例,一個表通常包含行和列,可以將一個表轉換成如下結構:

/

/// -> Value

為了可讀性使用斜杠來分割字段。///這部分表示需要每個表必須有一個主鍵。這樣看不大直觀,舉個例子,對于以下建表語句:

CREATE TABLE test ( id INTEGER PRIMARY KEY, name VARCHAR, price FLOAT, );

轉換成 KV 存儲如圖所示:

當然,這樣的存儲方式會將float等類型通通轉換為string類型。

除此之外,數據庫通常會創建一些非主鍵索引,主要分為兩類:

唯一索引

非唯一索引

唯一索引比較簡單,由于值唯一,我們可以通過如下映射:

/

// -> Value

如圖所示:

非唯一索引和主鍵類似,只不過其值為空。如圖所示:

上述表數據 KV 化規則已經有些陳舊,CockroachDB 最新的映射規則參閱《Structured data encoding in CockroachDB SQL》。但其中的思想是相似的。

當然,表數據 KV 化并不只有這種方式,TiDB 則按照如下規則進行映射:

該方式沒有將每一列拆開存儲,方法大同小異,詳細內容不再展開,參閱《三篇文章了解 TiDB 技術內幕 - 說計算》。

分布式事務

當我們談論事務時,永遠離不開 ACID。分布式事務中最難保證的是原子性和隔離性。在分布式系統中,原子性需要原子提交協議來實現,例如兩階段提交;而隔離性可以通過兩階段鎖或多版本并發控制(MVCC)來實現不同的隔離級別。

分布式數據庫們都實現了 MVCC,Google Spanner 設計了 TrueTime 來實現,但 TrueTime 并不開源;TiDB 則基于 Google Percolator 來實現。Cockroach 的分布式事務實現比較復雜,涉及到不少新東西,后面我們會展開來談。

篇幅原因,分布式事務會作為我們后面討論的重點方向,在此不再展開。

結語

開源造福人類,如今涌現了許多優秀的開源分布式數據庫,他們都是很好的學習材料,筆者也會在后續文章中繼續分享 CockroachDB、TiDB、YugabyteDB 和 OceanBase 的技術細節。感謝這些開源者。

值得一提的是,在數據庫領域獲得圖靈獎的學者不多,一共 Charles Bachman、Edgar Frank Codd、Jim Gray、Michael Stonebraker 四位大師,本文提到了其中前三位。2020 年圖靈獎獲得者 Jeffrey Ullman 雖然在數據庫領域也有所建樹,但他是因為編程語言領域(“龍書”)而獲獎,而非在數據庫領域獲獎。無論是學術領域還是工業領域,衷心希望分布式+數據庫能加把勁!

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    775

    瀏覽量

    44254
  • 數據庫
    +關注

    關注

    7

    文章

    3848

    瀏覽量

    64687

原文標題:數據庫為何又如何走向分布式?

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    分布式云化數據庫有哪些類型

    分布式云化數據庫有哪些類型?分布式云化數據庫主要類型包括:關系型分布式數據庫、非關系型分布式數據庫
    的頭像 發表于 01-15 09:43 ?111次閱讀

    數據庫是哪種數據庫類型?

    數據庫是一種部署在虛擬計算環境中的數據庫,它融合了云計算的彈性和可擴展性,為用戶提供高效、靈活的數據庫服務。云數據庫主要分為兩大類:關系型數據庫
    的頭像 發表于 01-07 10:22 ?142次閱讀

    HarmonyOS Next 應用元服務開發-分布式數據對象遷移數據文件資產遷移

    使用分布式數據對象遷移數據,當需要遷移的數據較大(100KB以上)或需要遷移文件時,可以使用
    發表于 12-24 10:11

    HarmonyOS Next 應用元服務開發-分布式數據對象遷移數據權限與基礎數據

    使用分布式數據對象遷移數據,當需要遷移的數據較大(100KB以上)或需要遷移文件時,可以使用
    發表于 12-24 09:40

    PingCAP推出TiDB開源分布式數據庫

    的性能表現。我們將繼續堅持開源的創新理念,將TiDB打造成一個領先的數據庫產品。” 部署新一代分布式數據庫已經成為用戶釋放數據價值、推動數字化轉型的重要方式,但隨著
    的頭像 發表于 11-24 11:26 ?553次閱讀
    PingCAP推出TiDB開源<b class='flag-5'>分布式數據庫</b>

    一文講清什么是分布式云化數據庫

    分布式云化數據庫是一種先進的數據管理系統,它將傳統的數據庫技術與分布式計算、云計算和大數據處理技
    的頭像 發表于 10-14 10:06 ?262次閱讀

    分布式云化數據庫的優缺點分析

    分布式云化數據庫的優點主要體現在高可用性和容錯性、可擴展性、體系結構、數據一致性、成本、升級迭代等方面。同時也存在一些缺點,如通信開銷較大、數據的存取結構復雜、
    的頭像 發表于 09-14 09:42 ?308次閱讀

    基于分布式存儲WDS的金融信創云承載數據庫類關鍵應用

    基于分布式存儲WDS的金融信創云承載數據庫類關鍵應用
    的頭像 發表于 08-16 09:42 ?327次閱讀
    基于<b class='flag-5'>分布式</b>存儲WDS的金融信創云承載<b class='flag-5'>數據庫</b>類關鍵應用

    基于英特爾至強6能效核處理器優化原生分布式數據庫OceanBase

    隨著數字化、在線化、智能化的演進,企業面臨著指數級遞增的海量存儲需求和挑戰,同時,企業需要降本增效,進行更好更智能的數據決策。基于英特爾 至強 6 能效核處理器的分布式數據庫OceanBase在性能
    的頭像 發表于 07-24 15:16 ?560次閱讀
    基于英特爾至強6能效核處理器優化原生<b class='flag-5'>分布式數據庫</b>OceanBase

    小米試點業務系統上線OceanBase,數據庫性能飛躍新高度

    系統逐漸顯露出性能瓶頸和運維成本高昂的問題。為此,小米集團于2023年10月做出了重要戰略決策,引入螞蟻集團自主研發的OceanBase分布式數據庫,以期在數據庫性能、穩定性及成本效益上實現全面升級。
    的頭像 發表于 07-03 15:39 ?719次閱讀

    小米攜手OceanBase實現數據庫升級

    在當今這個數字化飛速發展的時代,企業對于數據處理和存儲的需求日益增長。近日,小米集團宣布了一個令人振奮的消息:他們已經成功將部分關鍵業務系統升級至OceanBase原生分布式數據庫,并在數月內穩定運行,實現了性能的大幅提升和成本的顯著降低。
    的頭像 發表于 07-01 17:22 ?338次閱讀

    鴻蒙開發接口數據管理:【@ohos.data.distributedData (分布式數據管理)】

    分布式數據管理為應用程序提供不同設備間數據庫分布式協同能力。通過調用分布式數據各個接口,應用程
    的頭像 發表于 06-07 09:30 ?1072次閱讀
    鴻蒙開發接口<b class='flag-5'>數據</b>管理:【@ohos.data.distributedData (<b class='flag-5'>分布式</b><b class='flag-5'>數據</b>管理)】

    HarmonyOS開發實例:【分布式數據服務】

    分布式數據服務(Distributed Data Service,DDS)為應用程序提供不同設備間數據分布式的能力。
    的頭像 發表于 04-18 10:18 ?795次閱讀
    HarmonyOS開發實例:【<b class='flag-5'>分布式</b><b class='flag-5'>數據</b>服務】

    HarmonyOS開發實例:【分布式手寫板】

    使用設備管理及分布式鍵值數據庫能力,實現多設備之間手寫板應用拉起及同步書寫內容的功能。
    的頭像 發表于 04-17 21:45 ?582次閱讀
    HarmonyOS開發實例:【<b class='flag-5'>分布式</b>手寫板】

    鴻蒙HarmonyOS開發實例:【分布式關系型數據庫

    使用[@ohos.data.relationalStore]接口和[@ohos.distributedDeviceManager]?接口展示了在eTS中分布式關系型數據庫的使用,在增、刪、改、查的基本操作外,還包括分布式數據庫
    的頭像 發表于 04-11 09:52 ?1019次閱讀
    鴻蒙HarmonyOS開發實例:【<b class='flag-5'>分布式</b>關系型<b class='flag-5'>數據庫</b>】
    全讯网跑狗图| 如何玩百家乐官网的玩法技巧和规则 | 澳门百家乐一把决战输赢| 蓝盾百家乐的玩法技巧和规则 | 24山向吉凶详解| 广州百家乐娱乐场开户注册| 巴登娱乐城真人娱乐| 百家乐官网打大必赢之法| 八卦24方位| 新全讯网777| 百家乐官网在线小游戏| 最好的百家乐官网好评平台都有哪些 | 大发888手机版下载安装| 大赢家百家乐官网66| 百家乐官网现金网最好的系统哪里有可靠吗| 三公百家乐在线哪里可以玩| 赌博技术| 筹码百家乐官网的玩法技巧和规则| 利澳百家乐娱乐城| 百家乐赌场合作| 大发888 dafa888uk.com| 百家乐官网游戏群号| 百家乐官网电子路单下载| 百家乐网址多少| 大发888娱乐城官方网站| 百家乐官网大小点桌子| 榆树市| 百家乐代理网址| bet365娱乐场注册| 百家乐官网长龙技巧| 百家乐14克粘土筹码| 百家乐官网存在千术吗| 真人百家乐ea平台| BET365体育在线| 总格24画的名字好吗| 北京德州扑克比赛| 昌平区| 百家乐的桌布| 二连浩特市| 澳门百家乐才能| 百家乐官网玩法的秘诀|

        <tt id="mmx3f"><ul id="mmx3f"><form id="mmx3f"></form></ul></tt>