第三部分編譯后的內容:
4.如何解決科學問題?
在掌握了上述的工具和視角后,我們將提出一些建議,幫助您在化學領域選擇具有影響力的研究課題,并介紹機器學習問題的高層次結構。最后,我們將概述機器學習在化學研究中發展的三個主要方向:廣度、深度和規模。
4.1 Aspuru-Guzik/Whitesides 規則:選擇重要問題的原則
當我們的一位成員(阿斯普魯-古茲克)在哈佛大學創辦物質實驗室(2006–2018),并于2018年轉至多倫多大學時,一套選擇重要問題的規則開始逐漸形成。在與喬治·懷特賽德的走廊對話中,懷特賽德告訴阿斯普魯-古茲克他也有類似的指導方針,因此在開始任何研究之前需要明確的提出三個問題。我們在物質實驗室每天都應用這些問題來選擇研究課題。在這里,盡管我們專注于化學中的機器學習,但這些原則依然具有廣泛的適用性。這三個問題依次強調了新穎性、重要性和可行性。
4.1.1 問題 1:這個問題以前解決過嗎?
在開始一項科學事業之前,先問自己這個問題。如果這個問題以前沒有被解決過,你的解決方案將會更具影響力和持久性嗎。這是因為我們的目標是追求創新,而不是單純爭取排名。
在機器學習的背景下,盡管提升基準成績能夠提供有價值的進展信號,但這并不是研究的最終目標。尤其是在學術工作中,因為研究與利潤并沒有直接關聯,所以應該盡可能的去追求新穎性。隨之而來的是,一旦確立了新的問題,整個領域就會變得開發,從而就會有機會在此基礎上進一步提升結果。
這項工作會在兩個領域之間建立新的聯系嗎?當一篇論文提出的問題多于答案時,該研究領域就會得到發展。僅僅將機器學習方法應用于一個新的領域也可以被視為一種新穎的嘗試。然而,如果所提議的方法能夠提供一個新的視角,比如將搜索問題重新定義為生成模型的問題,那么這種新穎性將會達到最大化。
例如,我們將3D生成模型引入到旋轉光譜學領域,這為僅依靠旋轉光譜學進行3D結構解析的問題提供了新的思路。一個明顯的例子是,在這一領域,我們首次研究的成果是優于其他任何研究的。但是,由于我們在該領域提出了首個方法,因此并沒有可供比較或基準測試的機器學習基準。
4.1.2 問題 2:你要解決的問題是否與社會相關?
在開始一項科學探索之前,請考慮一下它是否能夠廣泛幫助他人。畢竟,我們所從事的科學直接影響著人類生活。人類與整個生物群落每天都在與人造化學物質進行互動。請思考那些對地球重要的問題。因為在充滿環境危機和政治危機的二十一世紀,這樣的考慮顯得尤為重要。
哪個受眾會對此感興趣呢?如果這個任務能夠以顯著更高的精度或速度解決,將會有哪些新的任務變得觸手可及?例如,神經網絡勢之所以重要,是因為力場已經被廣泛應用于了各種計算化學方法中了,而這些方法又用于預測物質的性質和光譜。因此,解決這個問題將吸引到科學界和工業界等廣泛的受眾。
可以對所提出的方法進行實驗測試,以驗證它是否能夠解決計算問題嗎?那些能夠經過實驗驗證的方法通常具有更高的影響力。另一方面,如果所提出的方案“無效”,最糟糕的情況會是什么?如果新穎性選擇得當,這種風險就會降低,因為能夠解決未基準測試的問題的方法已經達到了最先進的水平。
4.1.3 問題 3:解決這個問題是否有可能?
處理一個既重要又在你資源范圍內的問題是成功的關鍵。顯然,最有效且具有廣泛影響力的出版物將會產生更大的影響。因此,如果你希望你的工作被人銘記,就應該追求那些難度較大的工作,而不是簡單易得的任務。
在機器學習的領域,考慮以下問題是非常有用的:可用的資源有哪些?是否有足夠的數據以達到所需的泛化性能?是否有公開可用的代碼實現?是否有類似的問題已經通過相同的方法得到了有效解決?例如,三維生成模型在構象搜索和對接等任務中的結構預測成功表明,它們在晶體結構預測方面也可能取得成功。
可行性的重要組成部分是控制范圍。那么,能夠解決這個問題的算法的最小實現是什么,同時又能產生廣泛影響?在這個問題的范圍內,如何評估成功?
4.2 數據科學與機器學習問題的結構
機器學習和許多數據科學問題具有一種普遍存在的結構,這在許多論文中得到了體現。當你開始研究一個選定的問題時,接下來需要考慮的內容遵循以下層次結構:(1)數據,(2)問題框架,(3)方法,以及(4)評估。在我們的研究小組中,總是按照這個順序和層次來考慮問題。例如,如果沒有數據,科學家將無法取得進展。提出新方法但使用舊數據的論文發表,其影響力通常不及最初提供數據(及其機器學習應用)的論文發表。
4.2.1 可用的數據有哪些?
在機器學習中,所有事情都源于可用的數據。沒有數據,任何方法都無法應用。那么,可用數據的規模有多大?模擬新數據的難易程度如何?有哪些真實值數據可供使用,以及有哪些方法可以驗證模型的預測?根據經驗,當數據集超過大約10,000個樣本時,生成模型更有可能有效地進行泛化。社區中反復解決的問題應當被考慮。是否可以定期記錄這些數據?例如,在量子化學領域,計算力和構象搜索等任務是標準流程,這些數據的可用性為神經力場和3D結構預測的成功做出了貢獻。此外,數據不僅僅是一個靜態的數據集,還可能包括實時的數據采集,例如智能體的環境或用于黑箱優化的oracle函數。正因為數據是至關重要的資源,所以我們小組才開始了一個為期多年的目標,即開發和使用自動化實驗室。因此我們就能夠在數據上保證自給自足了。
4.2.2 如何有效地界定問題?
接下來的關鍵任務是有效地構建問題框架。構建框架不僅重要于確保選擇表1中的合適工具,還為基準測試和理論分析提供了基礎。問題框架應基于領域知識:需要解決哪些具體挑戰以支持下游任務,例如實驗驗證?例如,通過生成晶體結構作為3D單元格進行材料設計,可能難以轉化為實際材料,因為實驗人員無法對結構進行原子級的控制。問題框架本身往往能夠決定所提議研究的新穎性和重要性:在化學問題與機器學習問題之間建立新的聯系會產生新穎性,而性能的顯著提升則能增強其重要性。
另一種處理問題框架的方法是詢問數據如何表示。選擇一種緊湊、信息豐富且計算效率高的表示方式,是融入歸納偏差并加速學習的有效途徑。然而,正如“痛苦的教訓”這部分所示,我們不必在設計“完美”表示上花費過多時間。如果輸入表示包含了所有必要信息,并且數量足夠大,深度學習能夠自動找到理想的表示形式。
4.2.3 哪種模型可以解決這個問題?
當問題明確后,模型的選擇通常變得清晰且合理。哪些機器學習方法適合這個任務?簡單的方法能否解決這個問題?已建立的方法,如Morgan指紋和XGBoost,仍然是屬性預測的強基準,而遺傳算法則是分子生成的強基準。如果簡單的方法無法奏效,那么是否有新的算法適合這個問題?是否有現成的代碼可以在線獲取?在嘗試理解代碼之前,先運行代碼可能會更簡單。如何盡量少地修改用于解決其他問題的代碼實現,以便解決當前的問題?選擇與數據規模和可用性相匹配的算法。而對于小型數據集來說,經典機器學習仍然是表現最佳的。
這可能是本論文中最重要的段落:給研究生和博士后的黃金建議,切勿迷戀新方法論的誘惑。如果舊的方法論已經被證明有效,那就直接使用它!要專注于你工作的科學貢獻。當其他方法確實存在局限性時,才應該開發新方法。換句話說,你的新型自編碼器在長期內的影響力,遠不如你解決一個重要的化學或材料科學問題所帶來的深遠影響,因為這樣的答案能夠持久存在。
4.2.4 如何評估提議的方法?
最后,必須根據領域知識提供的合理指標來評估該方法。這些指標是否反映了提議的方法在實際應用中的真實情況?例如,如果您正在生成并提議新的分子,那么化學家是否能夠合成這些分子并測試其性質?確定適當的指標是至關重要的,因為未來的工作很可能會采用相同的評估標準。
4.3 新問題:機器學習對化學的影響需求
將機器學習應用于化學領域可以在應用廣度、考慮深度和執行規模方面產生更大的影響。在應用廣度上,許多化學問題可以被重新定義為機器學習問題,并引入到機器學習社區中。在考慮深度上,所提出的方法能夠在機器學習與計算化學之間建立更強的理論聯系,從而推動兩個領域的進一步方法開發。最后,在執行規模上,針對更重要的問題,化學領域的機器學習可以利用更多的數據。隨著人們對語言和視覺領域網絡規模數據達到極限的擔憂加劇,而化學領域卻因其可以通過計算模擬或高通量實驗“獲取”更多的數據而脫穎而出。
4.3.1 解決問題的廣度
在第2節中,我們觀察到機器學習在化學問題上的多樣性應用,但許多化學領域仍然未被充分探索。以下是一些機器學習仍在不斷發展的化學領域,順序不分先后:光化學、化學教育、核化學、農化學、分析化學、電化學、天體化學、非晶材料、軟材料、開放量子系統、環境化學和大氣化學,僅舉幾例。在每個領域中,都存在一些可以根據可用數據構建為機器學習問題的任務。這些任務不僅限于對純小有機分子的理想狀態進行研究。此外,異質材料、量子材料和復雜混合物等都帶來了新的挑戰,而這些挑戰恰恰可以從機器學習的創新中受益。正如第2.5節所提到的,現實世界中的大多數物質都是復雜的混合物。
關鍵在于不要“強迫”機器學習進入這些領域,而是要考慮現有的或新穎的任務是否可以被視為機器學習問題(見表1)。這樣做將有助于實現迭代改進,并可能催生新的算法。在某些情況下,可能沒有足夠的數據來應用機器學習,但確保新穎性的一種簡單方法是關注一個尚未充分被探索的領域。
回到我們之前的例子,我們很高興運用機器學習解決旋轉光譜學中的一個重要結構確定問題:首次應用生成模型來預測給定替代坐標的分子的三維結構。這是一個典型的廣度方法示例,旨在尋求多學科的方法,并讓我們走出自己的舒適區。
4.3.2 解決問題的深度
正如我們在第3.2.2節討論應用驅動的創新在機器學習(ML)中的作用時所看到的,化學問題激發了新算法的產生以及高級機器學習理論的發展。而深入參與機器學習理論或理論化學的研究能夠帶來新穎性和重要性,并且通常能夠帶來更加穩健的實證結果。
許多機器學習方法,例如圖神經網絡和等變架構,就是受到理論化學所啟發的,并開始對這一領域產生影響。再者,擴散模型于2015年提出,靈感來源于統計力學中的方法,自那時起,它們已成為最先進的生成模型,使得高分辨率的文本到圖像生成成為可能。近十年后,新研究將擴散模型與計算化學中的傳統工具聯系了起來。使得擴散模型能夠同時學習粗粒度力場和生成模型,并且還可以作為采樣和計算自由能的一種手段。這些研究的開展離不開對擴散模型與自由能之間關系的深入探討,以及對擴散分布與理想氣體之間聯系的理解。
此外,從擴散模型衍生的流匹配方法放寬了將數據分布噪聲化為純高斯分布的限制,從而能夠連接兩種不同的數據分布。這使得軌跡學習成為可能,并且這一技術已經開始應用于反應的過渡路徑采樣。這些研究建立了理論上的聯系,可能促使更多技術在計算化學與機器學習之間進行轉移。
此外,神經網絡勢能將能量計算視為一個需要記憶的黑箱函數,而哈密頓預測則揭示了哈特里–福克理論(Hartree–Fock theory)的內部機制,使我們能夠獲取波函數,并在準確性與速度之間實現新的平衡。自洽訓練則通過不再需要提供哈密頓矩陣作為標簽來與這一理論相結合,從而整體上提高了密度泛函理論(DFT)的計算速度。
與實驗人員合作,針對具體的設計目標進行研究,為我們提供了必要的深度。在真實世界的問題通常需要將機器學習與實驗數據相結合,而這樣的合作能夠帶來在單獨研究狀態下無法實現的突破。如量子化學、機器學習和有機材料化學領域的專家之間的大規模合作促成了新型有機發光二極管(OLEDs)的發現。在這項工作中,我們是首批證明基于指紋的機器學習方法、智能篩選方法和實驗驗證能夠在在閉環理念下推動新材料開發的團隊之一。
我們的團隊最近參與了一項為期五年的國際合作,涉及六個研究小組。這項合作的成果是一個去局部化、非同步的閉環設計,從而產生了迄今為止最好的有機激光材料(據我們所知)。同時,另一項關于閉環設計的多學科合作也證明,機器學習能夠通過深入的材料科學探索,為我們揭示新的化學原理。
4.3.3 解決問題的規模
如第3.2.3節所示,規模的非凡有效性為解決更復雜的問題帶來了樂觀的前景。如蛋白質結構預測等著名問題最終通過利用蛋白質數據庫(Protein Data Bank)的規模得以攻克的。而快速且能達到量子力學上精度的原子動力學正在由基礎力場實現。
對于那些已經在機器學習(ML)中形式化的化學問題,僅僅通過擴大數據和計算的規模,就能加速進展。像開放催化劑項目(Open Catalyst Project)這樣的項目展示了機器學習在推動化學領域實現大規模進展方面的潛力。通過計算和模擬獲取新數據,并設計更好的采樣算法,我們可以提高數據生成的速度,從而朝著規模化目標努力。例如,大型語言模型智能體(LLM agents)可以執行計算模擬,以生成新的訓練數據,從而進一步加快研究的進展。
雖然訓練基礎模型常被視為導致大量排放的原因,但我們也應關注計算能力在減少排放方面的潛力。更好的模型可能會減少所需的濕實驗數量,或有助于設計更環保的替代方案來應對當前和未來的化學過程。值得一提的是,化學工業在全球排放中占據了相當大的比例。
化學空間的規模可能相對較小。常被引用的化學空間估計大小為10^60^,這讓人感到著迷。然而,從機器學習的角度來看,這個空間可以被認為是小的。如果我們僅考慮黑白28 × 28的圖像,也就是標準手寫數字數據庫MNIST的數據,這個空間的大小已經是2^(28×28)^ ≈ 10^236^。當然,圖像的空間要稀疏得多,因為現存的彩色圖像數量約為14.3萬億(≈ 10^13^張)。這正是深度學習令人印象深刻之處——它能夠僅通過展示一堆示例,就能在極高維的空間中找到結構。在語言的背景下,10^60^僅僅是限制在60個詞匯內的10個單詞句子的數量,或者是限制在60個可能句子的10個句子段落的數量。顯然,自然語言的規模要大得多。
這些強大的能力能否將理論思考變為現實?想象一下,能夠在宏觀時間尺度上對一個細胞進行原子級模擬,或者準確地模擬柔性有機電子設備在長年使用過程中的有效性和穩定性,抑或是從頭開始發現新的反應。這些挑戰直到最近似乎都遙不可及。而令我們感到驚訝的是,利用神經力場進行全原子HIV蛋殼的納秒模擬在DFT精度下卻是可行的。如果現代圖像生成模型能夠生成1024 × 1024分辨率及更高質量的圖像,那么究竟是什么阻礙了在生物時間尺度上模擬整個細胞的進程?如果障礙是數據,我們很幸運能夠獲得越來越多復雜的模擬以及能夠獨立生成高質量數據的自動化實驗室。如果障礙是計算能力,我們也有幸借助主流人工智能帶來的計算能力大幅提升。如果問題出在方法或實驗上,那么作為21世紀的跨學科理論化學家,我們需要共同行動:讓我們一起推動學科的變革吧。
-
數據
+關注
關注
8文章
7139瀏覽量
89578 -
人工智能
+關注
關注
1796文章
47666瀏覽量
240287 -
機器學習
+關注
關注
66文章
8438瀏覽量
133084
發布評論請先 登錄
相關推薦
EBSD在材料科學中的優勢分析
![EBSD在<b class='flag-5'>材料科學</b>中的優勢分析](https://file1.elecfans.com/web3/M00/03/DB/wKgZPGds-8CATKmIAADn7p5r_kY814.png)
電子背散射衍射技術(EBSD)在材料科學中的應用與解讀
![電子背散射衍射技術(EBSD)在<b class='flag-5'>材料科學</b>中的應用與解讀](https://file1.elecfans.com/web3/M00/02/7C/wKgZPGdf8DqAc7KsAAD3e2lEf6s874.png)
如何在化學和材料科學領域開展有影響力的人工智能研究?(二)
![如<b class='flag-5'>何在</b><b class='flag-5'>化學</b>和<b class='flag-5'>材料科學</b><b class='flag-5'>領域</b><b class='flag-5'>開展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(二)](https://file.elecfans.com/web2/M00/3F/D6/poYBAGJqO-mASPG4AAAes7JY618194.jpg)
如何在化學和材料科學領域開展有影響力的人工智能研究?(一)
![如<b class='flag-5'>何在</b><b class='flag-5'>化學</b>和<b class='flag-5'>材料科學</b><b class='flag-5'>領域</b><b class='flag-5'>開展</b><b class='flag-5'>有影響力</b><b class='flag-5'>的人工智能</b><b class='flag-5'>研究</b>?(一)](https://file.elecfans.com/web2/M00/3F/D6/poYBAGJqO-mASPG4AAAes7JY618194.jpg)
共聚焦激光顯微鏡在材料科學中的應用
電子背散射衍射(EBSD)在材料科學中的應用與解讀
![電子背散射衍射(EBSD)在<b class='flag-5'>材料科學</b>中的應用與解讀](https://file1.elecfans.com/web1/M00/F3/E5/wKgZoWcgmWeALUsCAAD2t0JlySg617.png)
《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感
AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感
《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得
《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得
DSC:材料科學的洞察之眼
![DSC:<b class='flag-5'>材料科學</b>的洞察之眼](https://file.elecfans.com/web2/M00/6E/A8/poYBAGNCMPWACQh-AABR-BFFknI451.png)
名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新
安泰高壓放大器在極化特性及在材料科學中的應用
![安泰高壓放大器在極化特性及在<b class='flag-5'>材料科學</b>中的應用](https://file1.elecfans.com/web2/M00/EF/E7/wKgaomZvouiAeEeqAACXYx1_YJU416.png)
評論