繼AlphaGo在圍棋上碾壓人類后,DeepMind再放大招!這次戰場轉移到了基礎科學研究領域:蛋白質折疊結構的預測。在有蛋白質結構預測的“奧運會”之稱CASP全球競賽上,DeepMind推出的AI工具AlphaFold以優異成績碾壓了人類專家。
還記得在圍棋上碾壓人類棋手的AlphaGo嗎?現在,AlphaGo的締造者DeepMind又再另一領域碾壓了人類專家。
這個領域就是“蛋白質折疊”,也就是蛋白質結構的精確預測!這是DeepMind首次將視角投向科學研究的基礎問題。在有蛋白質結構預測的“奧運會”之稱CASP全球競賽上,DeepMind推出的AI工具AlphaFold以優異成績碾壓了人類專家。
DeepMind匯集了來自結構生物學,物理學和機器學習領域的專家,以應用尖端技術,僅根據其基因序列預測蛋白質的3D結構。
過去兩年來,DeepMind一直在研究開發AlphaFold,該研究建立在多年研究基礎上,使用大量的基因組數據來預測蛋白質結構。 AlphaFold生成的蛋白質3D模型比之前的任何蛋白質都更加準確 - 在生物學的核心挑戰之一上取得了重大進展。
什么是“蛋白質折疊”問題?
蛋白質是維持生命所必需的結構復雜的大分子。我們的身體幾乎所有功能,包括肌肉收縮、感知光線或將食物轉化為能量,都與一種或多種蛋白質的移動和變化情況有關。蛋白質由基因構成,基因在我們的DNA中編碼。
對于任何給定的蛋白質,它的功能取決于其特有的3D結構。比如構成我們免疫系統的抗體蛋白質是“Y形”的,類似于一種特殊的鉤子。通過抗體蛋白質能夠鎖定病毒和細菌,檢測和標記致病微生物,以便消滅它們。而膠原蛋白的形狀就像繩索,在軟骨、韌帶、骨骼和皮膚之間傳遞張力。
其他類型的蛋白質包括CRISPR和Cas9,它們能夠像剪刀一樣,切割和粘貼DNA。還有抗凍蛋白,其3D結構使其能夠與冰晶結合,防止生物體凍結。和核糖體一樣,可以像程序化的裝配線一樣,幫助自己構建蛋白質。
但是純粹從其基因序列中確定蛋白質的三維形狀是一項復雜的任務,挑戰在于DNA僅包含有關蛋白質結構塊序列的信息,這些結構塊稱為氨基酸殘基,排布形成長鏈。預測這些長鏈按照何種方式折疊成蛋白質的復雜3D結構,就是所謂的“蛋白質折疊問題”。
蛋白質越大,模型就越復雜和困難,因為氨基酸之間的相互作用更加復雜。有研究人員估計,以現有的條件的水平,要想準確確定全部蛋白質的3D結構,需要的時間可能比宇宙的壽命還要長。
為什么“蛋白質折疊”很重要?
預測“蛋白質折疊”的結構,對科學家來說是很有用的,可以通過這種方式了解蛋白質在人體內的作用,對阿爾茨海默氏癥,帕金森氏癥,亨廷頓氏癥和囊性纖維化等由蛋白質折疊方式錯誤而引發的疾病的診斷和治療而言,這個問題就顯得更加重要。
通過研究蛋白質折疊,能夠增進我們對人體運行機制的理解,使科學家能夠更有效地設計新的、高效的疾病療法。通過模擬和模型獲得更多關于蛋白質形狀及其運作方式的知識,也給新藥物的開發開辟了新的潛力,降低了與實驗成本。最終得以改善全世界數百萬患者的生活質量。
對蛋白質折疊的理解也將有助于蛋白質的設計,比如推進生物降解酶技術的進步,就可以通過對蛋白質設計來實現。生物降解酶可以對塑料和石油等污染物實現控制管理,讓人們用更加環境友好的方式分解廢物。事實上,研究人員已經開始設計細菌來分泌蛋白質,提高廢物的可降解度。
為了衡量人類在蛋白質結構測定技術上的新進展,1994年,科學家發起了名為“蛋白質結構預測技術關鍵評估社區范圍實驗”(CASP)的全球競賽,該比賽每兩年舉辦一次,現已成為領域內評估蛋白質結構水平的“金標準”,堪稱蛋白質結構預測領域的“奧運會”。
此次DeepMind讓AlphaFold參加本次盛會。比賽目標是從主辦方給出氨基酸成分列表中預測蛋白質的結構,這些表會在賽前幾個月內每隔幾天發給參賽團隊。提交最準確預測信息的團隊將獲勝。
結果首次參賽的AlphaFold就在98位參賽者中脫穎而出,以碾壓級優勢一舉奪冠。在對總共43種蛋白質的預測中,AlphaFold獲得了其中25種的最高分數,排名第二的隊伍獲得最高分數的蛋白質只有3種。
AI在“蛋白質折疊”任務中大展身手
在過去半個世紀中,科學家們已經能夠使用冷凍電子顯微鏡、核磁共振或X射線晶體學等技術來確定實驗室中蛋白質的形狀,但每種方法都依賴于大量的試驗,而且錯誤率不低,且成本高昂。越來越多的生物學家正在轉向了AI方法,作為解決這個困難問題的替代方法。
由于基因測序成本的快速降低,基因組學領域的數據非常豐富。因此,在過去幾年中,依賴于基因組數據的預測問題的深度學習方法變得越來越流行。
AlphaFold從頭開始對蛋白質的形態結構進行建模,而沒有使用已經解析的蛋白質作為模板。結果在預測蛋白質結構的物理性質時達到高準確度,在此基礎上使用兩種不同的方法,來構建完整蛋白質結構的預測。
基于深度學習的蛋白質結構預測新方法
這兩種方法都依賴于深度神經網絡,可以從蛋白質的基因序列中預測其特性。該網絡預測指標主要有兩個:(1)氨基酸對之間的距離(2)連接這些氨基酸的化學鍵之間的角度。這是對目前的一種常用技術的進一步推進,該技術用于估計氨基酸對之間是否彼此接近。
DeepMind團隊訓練神經網絡,預測蛋白質中每對殘基之間的距離的單獨分布。然后將這些概率進行組合,形成相應蛋白質結構預測的準確度分數。此外還訓練了一個單獨的神經網絡,將所有的預測距離匯總,估計出預測結構與實際結構間的接近程度。
使用這些評分函數,可以找到與預測相匹配的蛋白質結構。第一種方法建立在結構生物學中常用的技術基礎上,用新的蛋白質結構片段反復替換原蛋白質結構片段。為此,研究團隊訓練了一個生成神經網絡來發明新的蛋白質片段,不斷提高預測的蛋白質結構的得分。
第二種方法通過梯度下降來優化得分。梯度下降是機器學習中常用的技術,可用于實現微小的,漸進式的改進,最終產生高精確的結構。研究人員將該技術用于整個蛋白質長鏈上,而不是在組裝之前必須單獨折疊的碎片上,降低了預測過程的復雜度。
未來:繼續投入解決科學上的基礎性問題
DeepMind首次涉足蛋白質折疊領域就獲得成功,表明機器學習體系具備無窮潛力,可以整合各種信息源,幫助科學家快速提出解決復雜問題的創造性解決方案。正如AI通過AlphaGo和AlphaZero等系統在圍棋上的突破一樣,希望在不遠的未來,AI技術突破將幫助我們解決科學上的基礎性問題。
“對我們來說,這是一個非常關鍵的時刻,”DeepMind的聯合創始人兼首席執行官Demis Hassabis說。“這是一個燈塔項目,是我們在人員和資源方面,向解決現實世界中的重大基礎科學問題做出的第一次重大投入。”
Hassabis表示,未來還有很多工作要做。目前我們還沒有解決蛋白質折疊問題,現在取得的結果只是第一步。“這是一個極具挑戰性的問題,但我們建立起了一個很優秀的系統,而且還有很多想法尚未真正實施。”
-
深度學習
+關注
關注
73文章
5513瀏覽量
121551 -
DeepMind
+關注
關注
0文章
131瀏覽量
10939
原文標題:AlphaGo后再出神作!DeepMind打造AlphaFold擊敗人類,精度碾壓人類專家!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論