瑞典國家圖書館正在使用五百年來的瑞典語文本訓練最先進的 AI 模型,以支持歷史、語言學、媒體研究等方面的人文研究。
從價值連城的中世紀手稿到今天的披薩店菜單,瑞典國家圖書館在過去 500 年中收藏了幾乎所有瑞典語出版物。
由于瑞典法律要求一切瑞典語出版物都要上交副本至瑞典國家圖書館(也稱為瑞典皇家圖書館),因此該圖書館的藏品涵蓋了各清晰度的書籍、報紙、無線廣播、電視廣播、互聯網內容、博士論文、明信片、菜單和電子游戲。這個內容豐富的收藏集含近 26 PB 的數據,是訓練尖端 AI 的最佳選擇。
瑞典國家圖書館數據實驗室 KBLab 的負責人 Love B?rjeson 表示:“我們有最好的數據,所以我們可以構建最先進的瑞典語 AI 模型。”
該團隊使用 NVIDIA DGX 系統開發了二十多個可在 Hugging Face 上使用的開源 Transformer 模型。這些模型推動了圖書館和其他學術機構的研究,每月的開發者下載量多達 20 萬。
B?rjeson 表示:“在我們的實驗室成立前,研究者無法在圖書館訪問數據集,他們每次只能查閱一個對象。因此,為幫助那些需要大量查閱資料的研究者,創建圖書館的數據集十分必要。”
這樣,研究者很快就能創建專門的數據集。例如,調出所有描繪教堂的瑞典明信片、所有特定風格的文本或是所有提到某一歷史人物的書籍、報紙文章及電視廣播。
從圖書館檔案到 AI 訓練數據
瑞典國家圖書館的數據集涵蓋了瑞典語的所有變體,包括各種正式和非正式變體、地區方言以及隨著時間的推移而產生的變化。
B?rjeson 表示:“數據還在持續不斷地涌入并增長,我們每個月都會增加超過 50 TB 的新數據。在處理成倍增長的數據的同時,我們還要將數百年前的實物藏品轉換成數據錄入,所以我們一直在不斷擴大我們的數據集。”
2019 年 KBLab 成立后不久,B?rjeson 就看到了運用龐大的圖書館檔案訓練 Transformer 語言模型的潛力。谷歌早期的多語言自然語言處理模型含有 5GB 瑞典語文本,他從此受到了啟發。
KBLab 的第一個模型使用了谷歌多語言自然語言處理模型 4 倍之多的數據——B?rjeson 團隊的目標是使用至少 1 TB 的瑞典語文本訓練模型。在發現多語言數據集可能提高 AI 的性能之后,這座實驗室開始進行實驗,在其數據集中添加荷蘭語、德語和挪威語內容。
NVIDIA AI 和 GPU 加速模型開發
該實驗室一開始使用的是消費級 NVIDIA GPU,但 B?rjeson 很快發現他的團隊需要數據中心規模的計算來訓練更大的模型。
B?rjeson 表示:“我們意識到在小型工作站上無法完成這項工作,所以 NVIDIA DGX 是明智之選。我們很多的工作離不開 DGX 系統。”
該實驗室使用兩套來自瑞典供應商 AddPro 的 NVIDIA DGX 系統進行本地 AI 開發。這些系統用于處理敏感數據、開展大規模實驗和微調模型。它們還準備在全歐盟搭載 GPU 的大型超級計算機上進行更大規模的運行,其中包括盧森堡的 MeluXina 系統。
B?rjeson 表示:“我們在 DGX 系統上的工作至關重要,因為我們希望能夠在高性能計算環境中做到最好,這必須將超級計算機的作用發揮到極致。”
該團隊還采用了用于訓練大型語言模型的 PyTorch 框架 NVIDIA NeMo Megatron。其內置的 NVIDIA CUDA 和 NVIDIA NCCL 庫可優化 GPU 在多節點系統中的使用。
B?rjeson 表示:“我們十分依賴 NVIDIA 的框架。因為我們實驗室的規模較小,無法派出 50 名工程師優化每個項目的 AI 訓練,NVIDIA 的優勢在這就十分明顯了。”
利用多模態數據開展人文科學研究
除了能夠理解瑞典語文本的 Transformer 模型外,KBLab 還有一個能將聲音轉換成文本的 AI 工具。這使得圖書館能夠將其大量的無線廣播收藏轉換成數據集,以便研究者能夠搜索錄音中的具體內容。
KBLab 還在開發生成式文本模型,同時還在研究一個可以處理視頻并自動生成內容描述的 AI 模型。
B?rjeson 表示:“我們還希望將各種模態的數據聯系起來。當你在圖書館數據庫中搜索一個特定的詞語時,系統將能夠返回包括文本、音頻和視頻在內的結果。”
KBLab 與哥德堡大學的研究者開展了合作。這些研究者正在使用該 KBLab 的模型開發用于語言學研究的下游應用程序。項目之一是幫助瑞典學院升級用于創建瑞典語詞典的數據驅動技術。
B?rjeson 表示:“這些模型的社會效益遠遠超出了我們的最初預想。”
? ? ?
點擊“閱讀原文”或掃描下方海報二維碼,即可免費注冊 GTC 23,切莫錯過這場 AI 和元宇宙時代的技術大會!
原文標題:再現輝煌:瑞典國家圖書館運用 AI 解析數百年數據
文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3848瀏覽量
91988
原文標題:再現輝煌:瑞典國家圖書館運用 AI 解析數百年數據
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論