首頁 > 娛樂

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

由 澎湃新聞客戶端 發表于 娛樂2022-12-02

簡介近日,日本理化學研究所研究科學家、集智科學家唐乾元等人,利用人工智慧系統AlphaFold預測的蛋白質結構,透過統計物理分析,揭示出隨著生物體複雜度的提高,生物體的基本組成單元——蛋白質分子在進化中所表現出的統計趨勢

白蛋怎麼升級划算

原創 傅渥成 集智俱樂部

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

導語

物種進化和分子進化是進化生物學研究的兩個重要主題,它們之間是否存在著某種聯絡?近日,日本理化學研究所研究科學家、集智科學家唐乾元等人,利用人工智慧系統AlphaFold預測的蛋白質結構,透過統計物理分析,揭示出隨著生物體複雜度的提高,生物體的基本組成單元——蛋白質分子在進化中所表現出的統計趨勢。相關成果發表在分子生物學和進化生物學領域的知名期刊Molecular Biology and Evolution。

研究領域:生物進化,生物複雜度

傅渥成 | 作者

鄧一雪 | 編輯

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

論文題目:

The Statistical Trends of Protein Evolution: A Lesson from AlphaFold Database

論文連結:

https://academic。oup。com/mbe/advance-article/doi/10。1093/molbev/msac197/6701686

1. 物種進化與分子進化

儘管並不存在著某種固定的“進化方向”,但從宏觀尺度來看,的確可以看到生命的複雜性在漫長的進化過程中不斷增加,例如從原核生物到真核生物,從單細胞生物到多細胞生物等等。在微觀尺度下,與生物體的複雜化並行發生著另一種進化過程,那就是分子進化,即作為生物體基本構件的蛋白質分子也在不斷進化。進化的這種宏觀(生物體)與微觀(蛋白質分子)視角之間是否存在某種聯絡?直觀上來看,某種特定的蛋白質分子的進化不一定遵循物種進化的路徑,然而,如果把視角擴充套件到大量蛋白質的集合、甚至是一個生物體內的全部蛋白質,或許能從中挖掘出某些集體特徵,反映出與生物體複雜性相一致的統計趨勢。

上述這種宏觀與微觀之間的聯絡與經典的統計物理問題類似:從微觀出發,觀察氣體分子的運動,會發現其運動雜亂無章,看似毫無秩序;若是切換到宏觀視角,將整個系統用少數幾個熱力學量(如壓強、溫度等)來描述,則能發現系統某種“集體性”的演化趨勢。如果能從大量的微觀個體的演化(即蛋白質的進化)中提取出與系統宏觀演化方向(即物種演化)相一致的趨勢,就能對生命的起源和進化問題有全新的認識。不過在很長的一段時間裡,由於已知的蛋白質結構仍然非常有限,難以真正討論物種體內蛋白質整體進化趨勢。幸運的是,最近人工智慧的發展為研究者們提供了全新的強大的工具,讓上述研究思路能夠真正得以實現。

近日,日本理化學研究所(RIKEN)唐乾元(aka 傅渥成)博士和任衛同博士、與南京大學王駿教授、丹麥哥本哈根大學金子邦彥(Kunihiko Kaneko)教授合作,基於人工智慧系統AlphaFold 預測的蛋白質結構,透過統計物理分析,揭示出隨著生物體複雜度的提高,生物體的基本組成單元——蛋白質分子在進化中所表現出的統計趨勢。這一研究是首次對40多種生物體內蛋白質組內的全部蛋白質結構進行統計分析,該工作發表在分子生物學和進化生物學領域的知名期刊 Molecular Biology and Evolution(2021 IF: 8。8,中科院1區Top)。

2. AlphaFold資料庫

2021 年,Science 和 Nature 雜誌不約而同地將“年度十大科學突破”頒給了由 Google DeepMind 開發的蛋白質結構預測系統 AlphaFold 2。AlphaFold作為DeepMind開發的人工智慧系統,能夠利用共進化(coevolution)資訊提供高準確度的蛋白質結構預測,並且在此前的蛋白質結構預測競賽中中贏得了前所未有的壓倒性成功 [1, 2]。從2021年開始,AlphaFold釋出了自己的蛋白質結構資料庫(AlphaFold Protein Structure Database,以下簡稱AlphaFold DB),其中包含了從細菌、古細菌、單細胞和多細胞真核生物到人類等在內的許多物種的完整蛋白質組,這個資料庫還在不斷擴大,在2022年7月底的更新中,AlphaFold DB已經擴充到包含約2億個預測的蛋白質結構 [3, 4]。AlphaFold DB不僅能幫助科學家們解決醫學和生命科學中的關鍵問題,而且在進化研究中顯示出了新的可能性。

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

圖1。 研究思路示意圖。利用AlphaFold 蛋白質結構資料庫,建立起物種進化與分子進化之間的聯絡。

與傳統的分子進化研究不同,唐乾元博士及其合作者利用 AlphaFold DB 發展了一套基於物種全蛋白質組蛋白結構的進化分析方法,對不同生物體內的全部蛋白質進行統計性的研究,而不是隻關注特定的蛋白質家族。研究者們從序列、結構、氨基酸殘基的拓撲、蛋白質平衡態的動力學等角度出發,揭示了隨著物種朝著更為複雜化的方向進化、物種體內的蛋白質呈現出的整體進化趨勢。下面,本文將主要從物理學影象的角度出發,簡要介紹這些進化中的統計趨勢。如果你對關於生命複雜性的延伸討論更感興趣,可以直接跳到本文的第6小節。如果你對於相關的研究細節與分析方法感興趣,除了閱讀第3~5節的討論以外,也可以點選文章開頭的“論文連結”,直接閱讀論文。

3. 結構柔性

研究者們首先對不同生物體內、鏈長相近的蛋白質分子的結構進行了對比分析。儘管選取的這些蛋白質鏈長接近,但在不同生物體內,這些蛋白質分子的回轉半徑(radius of gyration)分佈卻非常不同(如圖2A所示)。例如,在大腸桿菌(E。 coli)體內鏈長約為250個氨基酸的蛋白質,平均的回轉半徑大約為20 ,而在人類體內相近鏈長的蛋白質的平均回轉半徑卻接近30 ,兩個複雜度差異巨大的物種體內的蛋白質半徑分佈也有顯著的統計差異。由於是在對相近鏈長的蛋白質進行比較,這時,更大的回轉半徑主要是跟蛋白質結構中結構漲落較大的柔性片段相關,因此,這一結果還表明人體內的蛋白質比大腸桿菌體內蛋白質有更高的柔性。

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

圖2。 隨著物種複雜度的增加,其體內一定鏈長的蛋白質的回轉半徑(反映結構的柔性)會相應增加。

對不同物種體內的鏈長相近的蛋白質結構進行統計,會發現一個粗略的相關關係:隨著物種複雜度的提高,該物種體內的蛋白質的回轉半徑相應地會出現增大的趨勢。這裡涉及到了“複雜度”的概念,儘管複雜性的數學定義仍有爭議,但大家對於生物體本身的複雜性仍然會有許多直觀的理解(例如真核生物比原核生物更復雜)。在實際操作中,生物學家們往往會對生物體的複雜性引入不同的衡量標準,例如生物體內的各種細胞型別的總數、基因組大小、蛋白質組大小等等。這些定義分別側重於生物複雜度的不同層面,這些不同的度量之間往往也是相互關聯的 [5]。在本研究中,研究者們基於蛋白質組的資料,引入了:(1)一個生物體內所有的蛋白質種類數,以及(2)各種不同蛋白質的總鏈長作為生物複雜性的度量。如圖2B所示,這兩種生物複雜度的度量都與一定鏈長的蛋白質的回轉半徑成正比,證明隨著物種複雜度的提高,其體內的蛋白質表現出更高的柔性。

在論文中,研究者不僅討論了其它鏈長的情況,還對AlphaFold預測的結構精度進行了進一步的篩選,而且還對蛋白質的二級結構(常見的二級結構包含α螺旋、β摺疊、無規捲曲等)進行了分析,進一步驗證了“生物體複雜度與其體內蛋白質的平均柔性成正相關關係”的結論。

4. 序列和拓撲

要更深入地分析蛋白質的結構,除了對蛋白質的二級結構、三級結構進行分析以外,也可以將蛋白質視為氨基酸殘基在空間中相互靠近接觸而形成的網路,用網路拓撲分析的方法來分析蛋白質的性質。在殘基接觸網路(residue contact network)中,每個節點所代表一個氨基酸殘基,殘基空間距離小於一定的截斷長度的,則被視作存在連邊。在論文中,研究者們對於這個網路的許多拓撲性質進行了分析,其中與蛋白質的物理性質最為相關的度量是網路的同配性(assortativity)。

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

圖3。 蛋白質的氨基酸序列(HP模型)決定了其摺疊態的氨基酸殘基接觸網路。左圖中的H與P分別代表疏水和親水(極性)殘基,右圖節點中心的數字代表其度數(近鄰數),右圖中殘基接觸網路表現出較高的同配性。

在一個複雜網路上,如果那些度數(連邊數)較大的節點傾向於跟度數同樣較大的節點相連線,那麼這樣的網路就是同配的。舉個例子,假如在一個社交網路上,各種大V使用者抱團取暖,相互關注,而各種普通使用者只能跟自己同樣是普通使用者的三五好友相互關注,這樣的網路就是同配的。反之,如果度數較大的節點傾向於跟度數較小的節點連線,例如在一個社交網路上,一個大V可能吸引到許多低關注數的普通使用者關注,這樣的網路就不是同配的。蛋白質的殘基接觸網路是高度同配的,這是因為構成蛋白質的氨基酸殘基可以被分為“親水”和“疏水”兩類,疏水氨基酸殘基往往被包埋在蛋白質的內部,形成緊密的堆積,而親水氨基酸殘基則暴露在蛋白質的表面,甚至可能形成高度柔性的捲曲(如圖3右所示)。

對AlphaFold預測的蛋白質結構進行統計,研究者們發現,生物體複雜度與其體內蛋白質的殘基接觸網路的平均同配性成正相關關係。這一結果與上一節討論的統計趨勢也是自洽的,因為同配性的殘基接觸網路讓親水和疏水氨基酸殘基在空間上產生了分隔,導致“貧者越貧”,蛋白質結構中出現了更多高度柔性的無序片段,蛋白質的回轉半徑也因此增加。

在觀察到蛋白質殘基接觸網路的拓撲性質在進化中出現的統計趨勢之後,研究者們又進一步對蛋白質的序列進行了統計。如圖3所示,蛋白質的三維結構由其序列所決定,那麼,到底是序列上的什麼特徵導致了蛋白質殘基接觸網路的同配性呢?研究者們發現,親水和疏水氨基酸殘基在三維空間中的分隔,與其在序列上的分隔是相關的。換言之,如果一個蛋白質的序列出現了大段的連續親水或者連續疏水氨基酸,這樣的序列將更容易形成高度同配的殘基接觸網路。研究者們觀察到,隨著物種複雜度的增加,序列中親疏水氨基酸的分隔的確有逐步提升的趨勢。

需要特別強調的是,上述的序列分析完全不依賴AlphaFold的結構預測,而從序列結構中所揭示的統計趨勢又可以在很大程度上支援結構和拓撲分析的結果。這些結果表明,論文所討論的“蛋白質進化的統計趨勢”並非是由結構預測方法所帶來的系統偏差,而是的確反映了某種自然趨勢。

5. 功能專一性

蛋白質的生物功能是由其結構所決定的。上文所討論的序列、拓撲和結構變化毫無疑問會影響蛋白質的生物功能。那麼,蛋白質的生物功能會隨著物種複雜度的提升,產生怎樣的統計趨勢呢?

為了研究這一問題,研究者對殘基接觸網路的拉普拉斯矩陣(graph Laplcaian)進行了譜分析,這種分析方法其實就是基於彈性網路模型的簡正模分析。簡而言之,蛋白質的運動可以被簡化為其在天然態(能量最低結構)附近的振動,而這種振動可以由一系列的“振動模式”的疊加來描述。拉普拉斯矩陣的特徵值(eigenvalue)正比於蛋白質分子振動模式的頻率的平方,而與這些特徵值相對應的特徵向量(eigenvector)則描述了相應振動模式的基本形態(各個氨基酸殘基會朝著怎樣的方向、以怎樣的相對振幅運動)。在拉普拉斯矩陣的特徵值譜中,越小的特徵值反映的是氨基酸殘基更為低頻、大振幅的集體運動,而越大的特徵值反映的則是高頻、小振幅的局域運動。或者反過來,如果關注拉普拉斯矩陣特徵值的倒數,即拉普拉斯矩陣逆矩陣中較大的那些特徵值,這實際上等效於進行主成分分析(principal component analysis, PCA)。這一方法常常被用於分析蛋白質平衡態運動中的“主成分”。

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

圖4。 隨著物種複雜度的提高,生物體內蛋白質動力學中相應主成分的比例會發生變化,蛋白質結構變化的空間會出現“降維”的趨勢。

對不同物種體內的蛋白質進行振動譜分析,研究者們發現,隨著物種複雜度的提升,蛋白質平衡態運動中的主成分比例會發生相應的變化。例如同樣鏈長的蛋白質,在大腸桿菌中,它運動的第1主成分跟第2主成分之間的相對大小較為接近,而在人體中,它的第1主成分和第2主成分之間會有較大的區別(如圖4A所示)。進一步的分析發現,隨著物種由簡單到複雜,其體內的蛋白質分子的動力學會出現“降維”的趨勢,即運動的第1主成分會與第2主成分之間拉開越來越大的差距,第2主成分會跟第3主成分之間拉開越來越大的差距(圖4B),以此類推。這種動力學中的“降維”趨勢讓蛋白質特定的功能運動模式變得更加突出(如圖4C所示)。在複雜度更高的生物體內,有更多蛋白質傾向於沿著特定的主成分方向發生功能運動,這種特定的主成分方向往往與特定的功能有關。簡而言之,隨著物種從簡單到複雜,構成生物體的蛋白質呈現出從“通用”到“專用”的統計趨勢,高複雜度的生物體內更可能出現高度功能專業化的蛋白質。

6. 延伸討論

蛋白質的“功能專業化”和生物體的複雜性之間的統計相關性與此前大量生物化學實驗觀察結果一致。許多研究表明,祖先酶往往具有更高的混雜性(promiscuity),即它們不僅可以催化主反應,還具有催化副反應的能力,利用祖先序列重建的方法,有助於設計具有高熱穩定性和高混雜性的酶。

2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢

圖5。 隨著物種的複雜度提高,其體內的蛋白質分子有某種從“通用”向“專一”方向進化的統計趨勢。這種現象並不是生物體系的某種特例,而是複雜系統中具有普適性的某種設計原則。

值得一提的是,祖先酶的熱穩定性和高混雜性與祖先物種的低複雜性是相匹配的。複雜性低的生物體的基因組相對較小,其體內所包含的酶的種類也較少。儘管基因組規模小,但高混雜性的酶可以幫助這些生物體實現各種生命活動。相反,較大的基因組可以編碼更多的蛋白質,能夠發揮高度專業化的功能,應對更復雜和多樣化的細胞環境。蛋白質的專業化和多樣化使它們能夠在更復雜和多樣化的細胞環境中發揮作用。因此,複雜的生物體可以更有效地發揮其生物功能,獲得適應複雜和多樣化的外部環境的可塑性。

生物體的複雜性和組成蛋白質的功能專業化之間的相容性不是生物體系的某種特例,而是複雜系統中具有普適性的某種設計原則(design principle)。複雜系統的整體和部分之間是相協調的。當一個系統變得更加複雜時,其組成部分或元素應該改變其屬性(例如變得更加可塑或模組化)。一個直觀的例子如圖5所示,用樂高玩具搭建不同複雜度的建築,如果只需要搭建一個簡單的“建築”,只需要用很少的幾種元件就能完成,我們甚至可以交換某些元件;然而搭建一個複雜的結構時,不僅元件的總數大大增加,而且各種元件的通用性也在不斷降低(即在一個樂高拼圖中,兩個形狀接近的元件就不再能交換使用了)。在經濟生活中,也有很多類似的現象。一家工廠,如果資金不足,但臨時又需要生產某種新產品,往往會對原來的生產線進行改裝——這也是某種“非專一性”的體現;如果這家工廠有了充足的資金,它可以投資購入一條全新的生產線,專門生產新產品,此時,雖然成本有所提高,但更為專一的生產線生產效率往往也會更高。

當然,需要強調的是,本文所討論的各種“趨勢”都是統計性的,它所反映的是一種整體趨勢,而不是某種放之四海而皆準的法則(例如,也可以找到一些酶,它們具有更高的柔性,同時也有較高的混雜性)。總之,具體到每一種蛋白質分子,在定向進化和設計的過程中,都需要具體問題具體分析。

7. 總結與展望

這篇論文利用各種統計物理方法對AlphaFoldDB進行了全面的分析,展示出蛋白質進化中的統計趨勢,即:隨著生物體向更高的複雜性進化,其體內的蛋白質在統計意義上傾向於向更高的靈活性、更高的結構多樣性進化,分子本身的功能專一性也在不斷增強。除了在這篇文章中所討論的一些內容以外,在原論文中,還對殘基接觸網路的模組度、殘基堆積的分形維度、譜分佈的Zipf指數等進行了分析。未來,基於人工智慧預測的蛋白質結構的蛋白質組分析,與其他型別的生物資訊(如蛋白質與蛋白質的相互作用網路、蛋白質的表達水平、進化速度等)相整合,必將為我們提供對細胞和生物體的行為和進化提供全新的見解。

延伸閱讀

參考文獻

1。 Senior AW, Evans R, Jumper J, Kirkpatrick J, Sifre L, Green T, Qin C, ídek A, Nelson AWR, Bridgland A, et al。 2020。 Improved protein structure prediction using potentials from deep learning。 Nature 577:706–710。

2。 Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, Tunyasuvunakool K, Bates R, ídek A, Potapenko A, et al。 2021。 Highly accurate protein structure prediction with AlphaFold。 Nature 596:583–589。

3。 Varadi M, Anyango S, Deshpande M, Nair S, Natassia C, Yordanova G, Yuan D, Stroe O, Wood G, Laydon A, et al。 2022。 AlphaFold Protein Structure Database: Massively expanding the structural coverage of protein-sequence space with high-accuracy models。 Nucleic Acids Res 50:D439–D444。

4。 AlphaFold reveals the structure of the protein universe: https://www。deepmind。com/blog/alphafold-reveals-the-structure-of-the-protein-universe

5。 Niklas KJ, Cobb ED, Dunker AK。 2014。 The number of cell types, information content, and the evolution of complex multicellularity。 Acta Societatis Botanicorum Poloniae 83:337–347。

複雜科學最新論文

集智斑圖頂刊論文速遞欄目上線以來,持續收錄來自Nature、Science等頂刊的最新論文,追蹤複雜系統、網路科學、計算社會科學等領域的前沿進展。現在正式推出訂閱功能,每週透過微信服務號「集智斑圖」推送論文資訊。

原標題:《2億個AlphaFold預測結構中隱藏的蛋白質進化趨勢 | 集智科學家最新成果》

Tags:蛋白質進化殘基生物體AlphaFold