機器學習和大數據幫助化學家在浩瀚的化學藥品宇宙中尋找更好的藥物
在2016年,Sunovion制藥公司交給一些老員工一項特殊任務。在美國馬薩諸塞州的公司總部,化學家們被要求進行一項尋找新藥最佳先導化合物的游戲。在他們的工作站中有包括幾百種化學結構的網格,其中只有十種標有相關生物學信息。專家們必須基于他們辛苦學到的化學結構及生物知識來選出其他可能作為候選藥物的分子。在11位選手中,10位為這項任務冥思苦想了數小時,但剩下的一名選手卻在幾毫秒內就輕松完成,因為這名選手是一種計算機算法。

系外行星Ross 128b繞一顆低溫矮星運行,它的表面可能存在液態水。圖片來源:Vasava
這一計算機程序由Willem van Hoorn創造,他是利用人工智能設計藥物的新公司Exscientia的化學信息學負責人。這一公司位于英國鄧迪,希望能與Sunovion建立初步合作關系,為此下了很高的賭注。“我的信譽危在旦夕。”Hoorn表示。二十輪游戲結束后,他高分勝出,也終于松了一口氣。他的算法似乎是運用了一些化學黑魔法;因為最后僅有一位藥物發現專家擊敗了機器。
從那時起,Exscientia公司便和Sunovion繼續合作開發精神病治療藥物。Sunovion的計算化學主管Scott Brown表示:“這場競賽的確幫助我們拉攏了化學研究決策者。”
Exscientia公司是工業和學術界中與日俱增的、利用計算機探索廣闊化學藥品宇宙的眾多團隊之一。化學家們估計約有10^60種具有藥物特性的化合物能夠被合成,這些小分子的數目甚至超過了太陽系所有原子的總數。他們希望通過計算機算法對無數的化合物進行登記、分類并比較其特性,從而幫助研究者快速、低成本地找到針對某一靶點的最佳候選藥物。支持者們表示這樣的策略能夠使藥物更安全,減少在臨床實驗中失敗的藥物數量,同時使得新治療方法的發現成為可能。此外還有助于開啟未探索過以及曾被認為無價值的化學領域。
然而仍有許多藥物化學家對此持懷疑態度,不相信奇妙、復雜的化學能夠簡單縮減為幾行代碼。甚至某些人工智能的擁護者也承認許多嘗試都以失敗告終:計算機生成的化合物中充斥著難以合成的結構,如3-或4-原子環,同時還有許多不安全的活性基團。van Hoorn認為:“如果研究者不了解該領域,只是簡單執行某些計算方法會產生失敗結果,他們想出的化合物純屬笑話。”但他也表示專業人員的參與或許能夠幫助這些熱心的設計者。“我覺得如果計算機科學家與真正的化學家合作,某些想法是能夠實現的。”
探索化學宇宙
在化合物的宇宙中航行需要有地圖的幫助。在2001年,瑞士伯爾尼大學的化學家Jean-Louis Reymond開始利用計算機來繪制一幅盡可能全面的化學宇宙地圖。經過16年努力,他構建出世界上最大的小分子數據庫,即一個包含1660億種化合物的龐大虛擬集合。這一數據庫被命名為GDB-17,包括全部符合化學原理的、由少于17個原子構成的有機分子,這一數目是Reymond的計算機能夠處理的上限。Reymond表示:“僅僅是用計算機形成數據庫中化合物的清單就需要10個小時以上。”
為了理清過剩的潛在藥物原始信息,Reymond想出了一種使化合物宇宙系統化的辦法。受元素周期表的啟發,他將各化合物在多維空間內分類,相鄰化合物具有相近特性。各化合物的位置由42種特性來決定,例如每種化合物中所含的碳原子數。
每種投放到市場中的藥物都有成千上萬種與其化學結構基本相同的化合物,其差別僅僅在于一個氫原子或一個雙鍵。這其中某些化合物可能比獲批的藥物效果更好。化學家不可能在沒有外界幫助的情況下考慮到所有這些變體。正如Reymond所言:“僅用紙筆絕不可能得到所有這些異構體。”
而Reymond和他的團隊能夠通過搜索化合物之間相似性,來鑒定與已批準藥物相近、有潛在治療價值的其他化合物。以某種藥物作為出發點,團隊能夠在三分鐘內篩選數據庫中的1660億種化合物來尋找后續候選藥物。在一次概念驗證實驗中,Reymond以一種能與乙酰膽堿受體(與神經系統和肌肉功能失調相關的重要靶點)結合的已知分子為出發點 ,編制出包括344種化合物的名單。該團隊合成了其中三種化合物,并且發現兩種能夠有效激活受體,或許能夠用于治療老年人肌肉萎縮。Reymond表示這種方法像是利用地圖來找金子,他說:“你需要某種方式來選擇去哪里挖。”
另外一種方式用計算機在多個位置尋找金子,而不必太在意起點。用藥物發現的專業術語來說,這意味著用計算機篩選龐大的化合物庫來尋找能與特定蛋白結合的小分子。首先,研究者必須利用X射線晶體學獲得某個蛋白的快照,來決定它結合位點的形狀。然后,利用分子對接算法,計算化學家能夠從化合物庫中尋找出給定位點的最佳匹配。
隨著計算機技術飛速發展,這些算法的能力也得到了提升。加州大學舊金山分校的化學家們在Brian Shoichet的帶領下在2016年通過尋找一種新型止痛藥展現了這種方法的潛力。該團隊從300萬種市場上買得到的化合物中篩選能夠選擇性激活μ-阿片受體信號通路的候選藥物,以此來減輕疼痛同時不擾亂密切相關的β-抑制蛋白信號通路,該通路與阿片類藥物的副作用(如呼吸頻率下降及便秘)相關。研究者們迅速將范圍從一個巨大的化合物庫縮小到僅有23種高排名的化合物用于后續研究。

化學藥物宇宙 圖片來源:nature
在一個試管中,七種候選化合物顯示出理想的活性。其中一種在后續研究中被制成化合物PZM21,能夠作用于μ-阿片受體而不激活β-抑制蛋白。位于舊金山、由Shoichet共同創立的生物科技公司Epiodyne正在根據這些發現開發更安全的止痛藥。Shoichet計劃利用同樣的方法尋找能夠調節其他G蛋白偶聯受體(GPCRs)的化合物, 該家族的蛋白在所有藥物靶點中占到40%。
他的團隊同時對含有一億種化合物的虛擬星云進行相似的實驗,這些化合物從未被合成但其合成過程應該較簡單。工業藥物開發者也在用同樣的方法進行測試:位于馬薩諸塞州的生物科技公司Nimbus Therapeutics將一些存在于自然界卻難以從環境(如土壤)中分離的虛擬化合物納入對接篩選。是否能夠發現藥物還沒有定論,但該公司的首席執行官Don Nicholson針對至少一項藥物設計程序表示:“這將是我們全部匹配藥物的來源。”
這些虛擬篩選的初步結果動搖了Shoichet對于化學藥物宇宙的核心假設之一:只有完善的、藥物豐富的區域才是值得關注的。已劃分的分子星系充斥著有生物活性的化合物,以至于一些人認為在其他地方尋找是浪費時間。“在我的職業生涯中我始終相信推理過程,這么做是有道理的,盡管可能沒有很多證據來證明。” Shoichet表示。然而他尚未發表的、對一億種化合物的篩選結果引起了他對化學藥物宇宙中很少被探索區域的興趣。“我開始認為那些星系中藏滿了金子。”
計算機的“智慧”
這些數據搜索方法被試驗和測試,但用于工作的計算機只能服從腳本指令。計算藥物發現的最前沿是機器學習,算法能夠利用數據和經驗來告訴自己哪種化合物與哪個靶點結合,發現人類無法察覺的模式。十幾家公司紛紛開始創造藥物搜索算法,并與大型制藥企業合作進行測試。
Exscientia的首席執行官Andrew Hopkins為這些方法的能力做出了強有力的證明。臨床前測試發現和優化候選藥物平均需要4.5年,化學家們常常合成上千種化合物才能得到有價值的先導化合物(即使這樣真正投入市場的希望也非常渺茫)。Exscientia方法利用了多種算法(其中包括給Sunovion公司研發高管留下深刻印象的那一種)或許能夠將時間線縮短到一年,同時縮減藥物發現項目中需要考慮的化合物數目。
在2015年,Exscientia完成了大日本住友制藥公司(位于日本大阪, Sunovion是其旗下的公司)為期12個月的研發項目。研究者訓練他們的人工智能工具來尋找同時調節兩個G蛋白偶聯受體的小分子,發現要找到一種好的候選藥物僅需要合成小400種化合物。Hopkins表示最后篩選到的藥物現在已準備進行精神疾病的臨床試驗。從五月起,公司已經與巴黎賽諾菲公司和英國葛蘭素史克公司簽署了數億美元的合約。
除了鑒定先導化合物之外,機器學習算法還能幫助藥物開發者決定將哪些化合物扼殺在搖籃中,加利福尼亞州圣布魯諾一家人工智能藥物設計公司Numerate的首席技術官Brandon Allgood表示。如果一種化合物無法通過毒性或吸收性測試,那從一開始就沒有必要制作或測試它。“人工智能只需要幾毫秒來決定是否排除這種化合物。” Allgood說,在開始利用人工智能工具研究化學物質宇宙前,他曾學習宇宙學。Numerate今年已與制藥公司達成兩筆交易,其中一筆與位于法國敘雷訥的施維雅公司合作,將人工智能發現的藥物投入心臟衰竭和心律失常的臨床實驗中。
盡管工業投資快速增長,但計算方法仍有待證明。雖然Reymond的數據庫比其他庫更加龐大,但它僅包括了化學藥物宇宙中微小的一部分(參見“化學藥物宇宙”)。盡管他的數據庫中已包括1660億種化合物,但他仍需要繼續探索,正如一個嘗試數清夜空中所有星星的宇航員才剛剛只數了一個。基于將樣品與蛋白相匹配的篩選需要準確的晶體結構才能得到最好的結果,而生成這些數據需要時間、金錢和經驗。
這些方法同時很難處理動態的蛋白,無法可靠地對候選者的優良性進行排序。從機器學習算法的角度而言,它們的表現取決于為其提供根基的培訓數據集,當它們遇到與之前見過的分子相似度極低的化合物,算法的表現便會很糟糕。除此之外,整個程序如同黑箱作業,無法得知機器學習為何預測某個化合物是良好的匹配。
許多計算方法還有一個惱人之處便是常常給出難以在實驗室合成的化合物。化學家不得不費力的想辦法合成候選化合物,可能要花費幾個月甚至更長。即便如此,合成的分子也不能保證有作用。Reymond的方法目前預測化合物活性的準確率僅有5~10%,這意味著化學家不得不辛苦嘗試多達20種化合物來找到其中一種符合期望的。Reymond 表示:“我們探索化學藥物宇宙的瓶頸是在于合成化合物的能力。”為了解決這個問題,他最近將他的化學物質宇宙縮減到1000萬種易合成,同時仍覆蓋廣泛特征的分子。
美國馬薩諸塞州Relay Therapeutics公司的首席科學官Mark Murcko認為計算化學家應該少關注新的算法策略而將注意力放在提高算法的培訓數據集。他表示:“我所知道的讓一個預測模型變得更準確的好方法之一就是給它更多更好的數據。” Relay和其他公司鼓勵化學家和計算科學家密切合作,合成由人類和算法共同建議的化合物,同時根據得到的結果來進改善未來的決策。
對于Hopkins,這樣的合作至關重要。計算機科學家曾花費數十年來寫能夠戰勝圍棋大師的程序。在1997年,IBM的深藍擊敗了Garry Kasparov。然而這樣的失敗并不意味著圍棋的結束。相反,Kasparov設置了一場雙人比賽,每隊有一個人類一個人工智能。Hopkins 表示:“人類和人工智能一起能勝過任何人,同樣也勝過任何算法。” 他希望用同樣的方式將數據分析、創造性和常識相結合來改變藥物發現,“我相信我們現在正處在Kasparov與深藍聯合的時刻”。
*原文以The drug-maker's guide to the galaxy為標題,發布在2017年12月26日的《自然》新聞特寫上。原文作者為阿謝爾?穆拉德(Asher Mullard)。








