蛋白質晶體通常沒有寶石那般迷人的光澤和魅力,但無論顏值如何每一個晶體對科學家都彌足珍貴。
并非所有的蛋白質晶體都像這些在太空中結晶的晶體一樣帶有彩虹色。但是不管它們是美是丑,科學家們都視若珍寶
杜克大學化學和物理學教授Patrick Charbonneau和一群來自世界各地的科學家,與谷歌大腦的研究人員合作,使用最先進的機器學習算法來發現這些珍貴的晶體。他們的工作可以使研究人員更容易地繪制出蛋白質結構圖,從而加速藥物的發現。
Charbonneau說:“每當你錯過一個蛋白質晶體,因為它們非常罕見,你就有可能錯過了一個重要的生物醫學發現。”
了解蛋白質的結構是了解其功能以及設計出適合其特定形狀的藥物的關鍵。但是傳統的確定這些結構的方法,稱為X射線結晶學,要求先對蛋白質進行結晶。然而結晶蛋白質不是困難,是非常困難。與構成鹽和糖等普通晶體的簡單原子和分子不同,蛋白質是異常龐大的分子,每個分子可以包含數萬個原子,它們很難排列成構成晶體基礎的有序陣列。讓蛋白質這樣的物體自己組裝成晶體像極了一個變魔法的過程。
即使經過數十年的實踐,科學家也不得不部分依靠反復試驗試錯來獲得蛋白質晶體。分離出一種蛋白質后,他們將它與數百種不同類型的液體溶液混合,希望找到正確的配方,使蛋白質結晶。然后,科學家在顯微鏡下觀察每種混合物的液滴,希望能夠發現正在生長的最小的晶芽。
“你必須親自去顯微鏡下尋找發現晶體,那里有一個,這里沒有,那里有一顆,而通常的結果都是沒有,沒有,沒有。“Charbonneau說,“不僅雇人做這個工作花費很高,而且人是容易失失誤的。人會感到疲勞,會變得粗心,而且會影響他們其他的工作。”
機器學習軟件搜索點和邊(左),以識別圖像中溶液液滴的結晶。它還可以識別非結晶固體(中間)和非固體(右邊)。
Charbonneau認為,深度學習軟件現在能夠識別照片中人的面孔,即使面孔是模糊的或從側面抓拍的,那么深度學習軟件也許能夠識別溶液中構成晶體的點和邊。
基于這樣的想法,來自學術界和工業界的科學家聚集在一起,將五十萬張蛋白質結晶實驗圖像收集到一個名為MARCO的數據庫中。根據人類的評估,這些數據具體說明了溶液中的哪一種物質導致了結晶。
該小組隨后與Google Brain的Vincent Vanhoucke領導的小組合作,應用最新的人工智能幫助識別圖像中的晶體。
用于晶體識別的深度卷積神經網絡(Convolutional neural network, CNN),通過不同層的卷積抽取出圖像中的特征,并在最后的輸出中得到不同種類晶體的輸出結果,以區分晶體和沉淀,干凈的還是含有雜質的。網絡的輸出為299*299的圖像,通過七層的結構最終得到了輸出結果。
在數據子集上對深度學習軟件進行“訓練”后,將深度學習軟件應用到整個數據庫中。人工智能準確識別晶體的幾率大約95 %,據估計,人類發現晶體的正確率只有85 %。
研究人員對于取得的結果十分滿意,他們成功的將卷積網絡對于物體的識別能力遷移到了晶體這樣基于幾何特征的分類任務中去。
上圖為訓練結果,可以看到實現了接近94%的測試準確率。
其他研究小組已經被要求使用人工智能模型和MARCO數據集來訓練他們自己的機器學習算法,以便在蛋白質結晶實驗中識別晶體。Charbonneau 表示這些進展應該會讓研究人員把更多的時間放在生物醫學發現上,而不是在觀察樣品找晶體上消耗時間。?
研究人員們在未來計劃利用這些數據來了解蛋白質是如何自己組裝成晶體的,這樣就可以更少的依賴偶然性來實現蛋白質結晶的“魔法”,從而真正了解其內在的物理化學過程和動力學機制。
-
人工智能
+關注
關注
1796文章
47666瀏覽量
240281 -
機器學習
+關注
關注
66文章
8438瀏覽量
133082
原文標題:還在顯微鏡里大海撈針?機器學習助力高效準確尋找全新蛋白質結晶
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
駱文生物誠聘生物醫學人才
生物醫學工程, 想做一個基于單片機的畢業設計求大家給點兒建議
生物醫學石英晶體傳感器的研究動向
生物醫學電子學在生物醫學工程中的應用?
自驅動柔性生物醫學傳感器的定義
微軟團隊發布生物醫學領域NLP基準
![微軟團隊發布<b class='flag-5'>生物醫學</b>領域NLP基準](https://file.elecfans.com/web1/M00/CB/5F/o4YBAF-Q-iGAYUliAAAVzgQWclA481.png)
評論