12 月 16 日,AI 時代數據存儲管理新挑戰分論壇在無錫成功召開,會上來自螞蟻集團、SphereEx、平凱星辰、九章云極 DataCanvas、StreamNative、騰訊云和華為的技術專家,共同分享了 AI 時代下數據庫技術最新發展與實踐。
曹瑞秋在《時序數據庫 HoraeDB 技術揭秘》的主題分享中表示,近期已將 CeresDB 內核捐獻到 Apache 基金會,捐獻的內核即為 HoraeDB(CeresDB 現已更名為 HoraeDB)。目前主流的 InfluxDB、Prometheus、VictoriaMetrics 等時序數據庫仍存在時間線高基數問題和社區分布式方案不夠完備等問題。而 HoraeDB 采用倒排索引支持多維查詢,時間線少,適配度高的場景,倒排索引能直接全量存放在內存中。HoraeDB 的高基數解決方案的核心是摒棄時間線概念,去除對倒排索引的強依賴,針對不同 tag 靈活選擇索引。此外,曹瑞秋還詳細介紹了 HoraeDB 分布式查詢優化、Memtable/SST read 等優化設計思路。
SphereEx 創始人 張亮
張亮發表了《數據庫增強計算引擎:數據庫架構革新新思路》主題演講。他認為在海量數據急速擴張,OLTP、OLAP、HTAP 等多種數據應用場景,數據庫技術棧碎片化等情勢下,數據系統應對上應用層零入侵,數據庫本身工具化,因此中間加速引擎則具有創新性、可插拔、平臺化。SphereEx 公司是由 Apache 頂級開源項目 ShardingSphere 核心團隊創立,致力于為企業提供面向新一代數據架構的數據庫增強引擎(DBPlusEngine),提供企業級、云原生的輕量級分布式數據庫解決方案、數據安全合規及信創平滑替換產品和服務,解決了企業海量數據的存儲與計算、數據安全合規等問題,幫助企業實現數據架構的轉型升級。
平凱星辰 TiDB Serverless 生態負責人 張翔
張翔發表了《TiDB Serverless:構建一個云原生的 Serverless 數據庫》主題演講。他首先介紹了 TiDB 是開源、兼容 MySQL、具有分布式,可保障業務連續性的真正的內核級 HTAP 分布式混合負載數據處理平臺,在此之后的 TiDB Serverless 是在去年由 PingCAP 推出的一款云原生的 Serverless 數據服務演進而來,已經由經典分布式 HTAP 改造為下一代 Cloud Native 架構。因此可以實現如支持多租戶的統一接入網關、TiFlash 計算存儲分離、計算資源池化、TiKV Keyspace,以及 Scale to Zero、實時喚醒、自動擴縮容等按需分配,可以利用云上的海量資源、高達 11 個 9 的持久性、微服務化,更高效地使用云上資源,降低爆炸半徑等真正的原生性能,以此實現全量數據的彈性,以及簡單易用,降低 AI 時代的數據成本。
九章云極 DataCanvas 資深架構師 孟圣智
孟圣智發表了《DingoDB:融合 SQL 與向量,構建功能完整的 RAG 數據庫底座》主題演講,他表示 AI 時代數據需要從更多存儲變為更易檢索,九章云極 DataCanvas 作為 AI 基礎軟件供應商,自主研發的 DingoDB 多模向量數據庫,實現結構化與非結構化的聯合存儲、分析和查詢。DingoDB 既是關系數據庫,支持 SQL、支持事務,符合用戶使用關系型數據庫的習慣。同時,DingoDB 也是向量數據庫,支持 Python 和 Java SDK,可以像使用大多數純向量數據庫一樣,無縫對接 LLM App,可以實現企業知識庫、大模型記憶體、實時決策指標計算能力、非結構化數據的檢索、Vector Ocean 數據支撐平臺、結構化與非結構化的融合分析等多種知識檢索應用場景。
StreamNative 聯合創始人、Apache Pulsar PMC Member 翟佳
翟佳發表了《云原生批流融合數據平臺助力 AI/LLM 的實時數據處理》主題演講,他表示 Pulsar 從捐贈給 Apache 軟件基金會后的幾年里一直在高速增長。Pulsar 采用存算分離云原生架構、支持多種語言,批和流統一視圖,可以與 Flink、Spark 等批流一體計算引擎有效地結合,方便管理實時和歷史數據,確保數據新鮮度,將批流一體的數據與向量數據庫結合,確保大模型的數據顯現度和準確性,以提高模型準確性,降低模型幻覺。
騰訊開源專家 耿航
耿航發表了《騰訊云 TDSQL 平滑去 O 的機遇挑戰與開源實踐》主題演講,他表示核心數據庫平滑替換,需要從內核、性能、使用習慣三個層面全面兼容,并且是一個完整的系統工程。騰訊云分布式數據庫 TDSQL PG 開源社區版 OpenTenBase 是完整去 O 和兼容 O 的數據庫內核,以內核兼容為基礎,打造從驅動、工具、內核三個層面的甲骨文兼容能力,填補基于 Postgres 的開源分布式 HTAP 系統的空白。OpenTenBase 已吸引超過 10 個國家和地區的開發者關注,希望通過騰訊及上下游伙伴的技術投入,打造立足中國,面向全球的開放數字基礎設施數據底座。
華為 openGauss 內核技術專家 胡正超
胡正超發表了《openGauss 內核架構雙引擎,驅動大規模數據處理》主題演講,并分享了 openGauss 5.1 版本持續在高性能、高可用、高安全、高智能內核上增強能力,同時在 DataPod 和 DataKit 持續創新,目標是實現更高效的大規模數據處理,更豐富的場景支持,更便捷的使用體驗。其中 DataPod 在 5.1 版本實現了一些新功能,提升了系統的易用性、可用性和性能。DataKit 為 openGauss 的數據全生命周期生產力工具,當前持續在平臺架構和功能插件上構建新功能,如增加告警中心、數據遷移、開發、運維等插件。
近幾年數據庫百花齊放,快速發展。生成式 AI 爆發之后,AI 大模型加速普及應用,模型訓練推理的準確性,對系統數據與信息的存儲、檢索、計算提出了新挑戰。從本次分論壇嘉賓分享的干貨內容,我們可以看到,針對 AI 的數據系統可能正在走向殊途同歸的技術路徑,那就是分布式原生、實時、向量化(時序也可看作一種向量),另外存算分離、并行架構,以滿足 AI 對數據的性能、成本等要求。
審核編輯 黃宇
-
數據存儲
+關注
關注
5文章
983瀏覽量
51062 -
AI
+關注
關注
87文章
31534瀏覽量
270342 -
開源
+關注
關注
3文章
3407瀏覽量
42713
發布評論請先 登錄
相關推薦
評論