近日,天鶩科技創(chuàng)始人&首席科學(xué)家洪亮教授團(tuán)隊(duì),在生物信息學(xué)和人工智能研究領(lǐng)域的國(guó)際權(quán)威學(xué)術(shù)期刊JCIM(Journal of Chemical Information and Modeling)上發(fā)表最新研究成果:“基于微環(huán)境感知圖神經(jīng)網(wǎng)絡(luò)構(gòu)建指導(dǎo)蛋白質(zhì)定向進(jìn)化的通用人工智能”(Protein Engineering with Lightweight Graph Denoising Neural Networks)。在此項(xiàng)研究中,該團(tuán)隊(duì)設(shè)計(jì)了一種微環(huán)境感知圖神經(jīng)網(wǎng)絡(luò)ProtLGN。ProtLGN能夠從蛋白質(zhì)三維結(jié)構(gòu)中學(xué)習(xí)有益的氨基酸突變位點(diǎn),建立自然選擇下的氨基酸序列分布,用于指導(dǎo)蛋白質(zhì)氨基酸位點(diǎn)設(shè)計(jì),最終實(shí)現(xiàn)蛋白質(zhì)指定功能的提升。
根據(jù)研究介紹,在生物化學(xué)實(shí)驗(yàn)的基礎(chǔ)上,課題組證實(shí)了ProtLGN是一項(xiàng)通用的人工智能方法,在極少甚至沒(méi)有實(shí)驗(yàn)數(shù)據(jù)的情況下,成功地實(shí)現(xiàn)了針對(duì)特定蛋白質(zhì)性質(zhì)的定向進(jìn)化,包括提高抗體的親和力和穩(wěn)定性、增強(qiáng)多種熒光蛋白的熒光強(qiáng)度,以及提升核酸內(nèi)切酶的DNA切割活性。這是全球首次也是唯一一次經(jīng)濕實(shí)驗(yàn)驗(yàn)證,我們可以通過(guò)建立通用人工智能,在極少實(shí)驗(yàn)數(shù)據(jù)甚至無(wú)實(shí)驗(yàn)數(shù)據(jù)下實(shí)現(xiàn)不同蛋白特定性質(zhì)的定向進(jìn)化。
人工智能的進(jìn)步正在改變生命科學(xué)領(lǐng)域的研究方法和思維范式,尤其是在生物醫(yī)藥領(lǐng)域,而蛋白質(zhì)設(shè)計(jì)作為該領(lǐng)域的關(guān)鍵技術(shù)之一,正受到人工智能技術(shù)的深刻影響。傳統(tǒng)的蛋白質(zhì)設(shè)計(jì)方法存在效率低下、成本高昂、時(shí)間耗費(fèi)長(zhǎng)等難以解決的問(wèn)題,基于深度學(xué)習(xí)的預(yù)測(cè)和篩選在蛋白質(zhì)設(shè)計(jì)中被逐步應(yīng)用并驗(yàn)證。
但現(xiàn)有方法大多是基于多序列比對(duì)(MSA)或蛋白質(zhì)語(yǔ)言模型(PLM)對(duì)蛋白質(zhì)序列進(jìn)行特征提取。前者高度依賴(lài)于同源序列的數(shù)量,但在實(shí)際應(yīng)用中,并非所有蛋白質(zhì)序列都能進(jìn)行深度的同源比對(duì);后者需要大量訓(xùn)練數(shù)據(jù)和復(fù)雜的模型設(shè)計(jì),導(dǎo)致訓(xùn)練成本很高。即使是使用當(dāng)前主流的自然語(yǔ)言預(yù)訓(xùn)練模型的思路,考慮到每個(gè)蛋白質(zhì)都有獨(dú)特的性質(zhì)和進(jìn)化方向,使用通用預(yù)訓(xùn)練模型處理獨(dú)特蛋白質(zhì)時(shí),不經(jīng)重新訓(xùn)練直接應(yīng)用也會(huì)帶來(lái)泛化性和表達(dá)能力的挑戰(zhàn)。
洪亮團(tuán)隊(duì)設(shè)計(jì)的能夠提取氨基酸周?chē)⒂^(guān)環(huán)境信息的等變圖神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練框架ProtLGN,結(jié)合蛋白質(zhì)的結(jié)構(gòu)信息對(duì)蛋白質(zhì)上的每個(gè)氨基酸進(jìn)行同步編碼,學(xué)習(xí)蛋白質(zhì)三維結(jié)構(gòu)中有益的氨基酸突變位點(diǎn)和突變類(lèi)型,用于指導(dǎo)具有不同功能的蛋白質(zhì)單位點(diǎn)突變和多位點(diǎn)突變?cè)O(shè)計(jì)。
圖1 ProtLGN框架示意圖
LGN的零樣本學(xué)習(xí)訓(xùn)練框架如上圖所示。首先,輸入蛋白質(zhì)數(shù)據(jù)集中的每個(gè)序列被k臨近鄰居算法轉(zhuǎn)換成一個(gè)蛋白質(zhì)圖,并基于氨基酸性質(zhì)提取出節(jié)點(diǎn)特征、邊特征、以及氨基酸的三維坐標(biāo)信息。接著,對(duì)一部分的節(jié)點(diǎn)特征進(jìn)行噪聲擾動(dòng)后輸入到等變圖神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)圖上的節(jié)點(diǎn)表示。這一節(jié)點(diǎn)表示被全連接層解碼后可以預(yù)測(cè)多個(gè)不同的目標(biāo),比如去噪的節(jié)點(diǎn)氨基酸類(lèi)型標(biāo)簽,SASA和B-factor數(shù)值等。這里的預(yù)測(cè)誤差用于構(gòu)建損失函數(shù)并傳導(dǎo)回網(wǎng)絡(luò)層進(jìn)行反向傳導(dǎo)。在預(yù)測(cè)階段,模型輸出突變蛋白質(zhì)的氨基酸概率,與野生型比對(duì)后,通過(guò)處理和計(jì)算得出突變體的評(píng)分。
為了驗(yàn)證ProtLGN對(duì)蛋白質(zhì)突變體活性的預(yù)測(cè)效果,作者在不同蛋白質(zhì)的多種生理功能性質(zhì)上進(jìn)行了充分驗(yàn)證,確保ProtLGN預(yù)測(cè)效果的通用性,包括VHH抗體、熒光蛋白(綠色、藍(lán)色、橙色)、核酸內(nèi)切酶(KmAgo)等多種蛋白的熱穩(wěn)定性、結(jié)合能力、熒光強(qiáng)度、單鏈DNA剪切活性等蛋白質(zhì)工程常規(guī)關(guān)注和改造的多種關(guān)鍵功能指標(biāo)。
圖2 熒光蛋白發(fā)光強(qiáng)度(FP),VHH抗體結(jié)合強(qiáng)度與熱穩(wěn)定性,以及中溫核酸剪切酶(KmAgo)剪切活性的多點(diǎn)位突變結(jié)果
濕實(shí)驗(yàn)結(jié)果表明,ProtLGN可以在沒(méi)有濕實(shí)驗(yàn)數(shù)據(jù)或僅少量類(lèi)似功能蛋白質(zhì)的實(shí)驗(yàn)數(shù)據(jù)基礎(chǔ)上達(dá)到40%的單點(diǎn)位改造成功率,并且在部分單位點(diǎn)上實(shí)現(xiàn)了多種功能協(xié)同提升。
上述結(jié)果表明ProtLGN能夠極大改善傳統(tǒng)蛋白質(zhì)工程方法中成本高、成功率低、數(shù)據(jù)稀缺等問(wèn)題。更為重要的是,本文首次使用深度學(xué)習(xí)模型在學(xué)習(xí)單位點(diǎn)突變體活性數(shù)據(jù)后,準(zhǔn)確預(yù)測(cè)組合位點(diǎn)的活性,并且在單輪濕實(shí)驗(yàn)中即可篩選出功能顯著優(yōu)于低位點(diǎn)突變體的高位點(diǎn)突變體,表明ProtLGN能夠有效挖掘蛋白質(zhì)定向進(jìn)化中的正上位效應(yīng),為蛋白質(zhì)的深度進(jìn)化提供一條有效途徑。
ProtLGN作為一種新型的蛋白質(zhì)設(shè)計(jì)方法,為生物學(xué)家和藥物研發(fā)人員提供了一個(gè)強(qiáng)大且可靠的計(jì)算工具。ProtLGN不僅能夠深入解析蛋白質(zhì)的結(jié)構(gòu)與功能的復(fù)雜關(guān)系,而且能夠突破傳統(tǒng)蛋白質(zhì)設(shè)計(jì)方法遇到的瓶頸,為基于蛋白質(zhì)的醫(yī)藥研究、生物技術(shù)開(kāi)發(fā)等提供了全新并且有效的解決方案。
自然科學(xué)研究院/上海國(guó)家應(yīng)用數(shù)學(xué)中心(上海交通大學(xué)分中心)助理研究員周冰心博士,密歇根大學(xué)神經(jīng)科學(xué)研究所/細(xì)胞與發(fā)育生物學(xué)研究所博士后鄭力榮博士,生命科學(xué)技術(shù)學(xué)院博士研究生吳邦昊,上海人工智能實(shí)驗(yàn)室/華東理工大學(xué)信息科學(xué)與工程學(xué)院碩士研究生譚揚(yáng)為共同第一作者。自然科學(xué)研究院/物理與天文學(xué)院/張江高等研究院洪亮教授為通訊作者。
該工作得到了國(guó)家自然科學(xué)基金委、上海市科委、教委、上海人工智能?chē)?guó)家實(shí)驗(yàn)室和張江高等研究院的支持。
審核編輯 黃宇
-
人工智能
+關(guān)注
關(guān)注
1796文章
47666瀏覽量
240278 -
PLM
+關(guān)注
關(guān)注
2文章
124瀏覽量
20909
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論