Meta公司AI預測6億蛋白質結構

發布時間：2022-11-02 20:04 原文鏈接： Meta公司AI預測6億蛋白質結構

ESM宏基因組圖譜數據庫包含6.17億個蛋白質的結構預測。圖片來源：ESM宏基因組圖譜

谷歌旗下人工智能（AI）公司Deep Mind今年公布了2.2億個蛋白質的預測結構，幾乎涵蓋了DNA數據庫中已知生物的所有蛋白質。現在，另一個科技巨頭正在填補蛋白質宇宙中的暗物質。

Meta公司（前身為Facebook）的研究人員使用人工智能預測了約6億個蛋白質的結構，這些蛋白質來自細菌、病毒和其他尚未被表征的微生物。相關研究11月1日發表于預印本網站BioRxiv。

“這些是非常神秘的蛋白質，為深入了解生物學提供了可能性。”Meta人工智能蛋白質團隊研究負責人Alexander Rives說。

該團隊使用“大型語言模型”生成了這些預測。“大型語言模型”是一種人工智能，可作為通過幾個字母或單詞預測文本的工具的基礎。

通常語言模型是在大量文本的基礎上進行訓練的。為了將其應用于蛋白質，Rives團隊將已知蛋白質序列“喂”給它們，這些蛋白質可以由20個不同的氨基酸鏈表示，每個氨基酸鏈由一個字母表示。然后，該模型學會了在氨基酸比例模糊的情況下“自動補全”蛋白質。

Rives說，這種訓練使模型對蛋白質序列有了直觀的理解，蛋白質序列包含了蛋白質形狀的信息。

第二步，受DeepMind開創性蛋白質結構人工智能算法AlphaFold的啟發，模型將這種洞察力與已知蛋白質結構和序列之間關系的信息相結合，從蛋白質序列中生成預測結構。

今年夏天早些時候，Rives團隊報告稱，其模型算法名為ESMFold，雖準確性不如AlphaFold，但在預測結構方面要快60倍左右。“這意味著我們可以將結構預測擴展到更大的數據庫中。”Rives說。

作為一個測試案例，研究團隊決定將模型應用于大規模測序的“宏基因組”DNA數據庫，這些DNA來自于環境，包括土壤、海水、人類腸道、皮膚和其他微生物棲息地。絕大多數編碼潛在蛋白質的DNA條目來自從未被培養過的生物，也不為科學家所知。

Meta團隊總共預測了超過6.17億個蛋白質的結構，這項工作只花了兩周時間。Rives表示，預測是免費的，任何人都可以使用，就像模型的底層代碼一樣。

在這6.17億個預測中，該模型認為超過1/3的預測是高質量的，因此研究人員可以確信蛋白質的整體形狀是正確的，在某些情況下，模型可以識別更精細的原子級細節。值得一提的是，其中數以百萬計的結構都是全新的，與實驗確定的蛋白質結構數據庫，或從已知生物體預測的AlphaFold數據庫中的結構都不同。

AlphaFold數據庫的很大一部分是由彼此幾乎相同的結構組成的，而宏基因組數據庫則應該涵蓋以前從未見過的蛋白質宇宙的很大一部分。

美國哈佛大學進化生物學家Sergey Ovchinnikov對ESMFold做出的數億個預測表示懷疑。他認為，有些蛋白質可能缺乏確定的結構，而另一些可能是非編碼DNA，被誤認為是蛋白質編碼材料。

德國慕尼黑工業大學計算生物學家Burkhard Rost對Meta公司模型的速度和準確性的結合印象深刻。但他質疑，從宏基因組數據庫預測蛋白質是否真的比AlphaFold的精確度更高。基于語言模型的預測方法，更適合快速確定突變如何改變蛋白質結構，這是AlphaFold無法做到的。

據DeepMind的一位代表說，該公司目前沒有計劃在其數據庫中進行宏基因組結構預測，但不排除在未來這樣做的可能性。

韓國首爾國立大學計算生物學家Martin Steinegger認為，這類工具的下一步顯然是研究生物學中的暗物質。“我們很快就會在這些宏基因組結構的分析方面出現爆炸式增長。”