上海2023年3月1日 /美通社/ -- 在創新藥"內卷"時代,CADD/AIDD作為目前生物醫藥領域火熱的前沿技術,為藥物發現與開發帶來了極大的助力,它們會是新藥研發"反內卷"的破局者嗎?2月24日,由維亞生物舉辦的維亞醫藥觀"CADD到AIDD,創新破內卷?"沙龍同步線上線下成功舉辦,定向邀請了維亞科學家、學術界專家、AI制藥企業創始人及研發代表,共同把脈CADD/AIDD發展動向,探討如何開啟創新藥研發新范式。
維亞生物生物部高級主任錢玥博士
計算機輔助的藥物設計(CADD)——為藥物設計按下快進鍵
都說ChatGPT人工智能顛覆了大家對AI的看法,但這背后計算工具功不可沒。錢玥博士以此為出發點,介紹了CADD如何幫助藥物化學團隊快速推進藥物設計流程,并通過實踐案例深入闡述了CADD中那些至關重要的計算工具在具體場景中的落地。以CFD靶點為例,在藥物設計前期,數據收集是第一步,對于給定的基因,首先需要在數據庫中收集并整合已有的結構信息、骨架的分析及活性數據等,以幫助后續研究快速了解啟動。然后,維亞CADD團隊一般會通過SiteMap、Binding response以及Cosolvent MD從零開始尋找結合位點,再基于自有的超算中心平臺,結合維亞200k結構多樣性化合物庫進行高通量虛篩,接著通過分子生成對此前得到的小分子進行一系列的迭代,從而篩選出比較有潛力的骨架。此外,從頭設計也是維亞尋找苗頭化合物及先導化合物的強有力工具,CADD團隊從已發表的藥物分子研究中提煉出其藥效團模型,并且可以結合分子生成及小分子片段的連接,設計出一整套自動化De novo設計的流程。進入先導化合物優化階段,對于計算化學來說,最重要的步驟在于做自由能微擾,也就是計算某一分子從A轉變到B的自由能變化,得到結果后再與藥化團隊合作,以展開后續的優化。在此她強調道,對比薛定諤的模塊,維亞自有的自由能微擾對應自由能變化(dG)誤差在1kcal/mol之內,可信度較高。
中國科學院上海藥物研究所研究員鄭明月博士
基于AI的藥靶相互作用預測
藥物靶標相互作用預測一直是藥物設計的核心和難點問題,那么如何解決這一難題?鄭明月博士提出了藥物-靶標作用識別可以類比為人臉識別問題的思路,并列舉多個案例分享了基于序列的藥靶作用預測、基于轉錄組的藥靶作用預測及基于AI的多靶標藥物設計。同時,鄭明月博士也表示,更精準的藥物靶標相互作用預測仍需要探索。
"藥物研發新范式,AI+如何賦能藥物創新?"圓桌討論
在維亞生物首席創新官兼維亞生物創新中心負責人戴晗博士主持下,華東理工大學教授兼康仁匯誠創始人唐赟博士、索智生物創始人兼首席執行官許大強博士、湃隆生物首席執行官李銘曦博士、英矽智能聯合首席執行官、首席科學官及藥物研發負責人任峰博士、晶泰科技首席科學官張佩宇博士共同討論了3個議題:
Q1:很多人將CADD/AIDD稱為藥物研發新范式,各位是如何看待藥物研發從結構驅動到數據驅動這一趨勢的?
嘉賓們結合自己在醫藥行業多年的從業經驗及公司布局情況發表了個人看法。唐赟博士表示,AI三要素是數據、算法和算力,其概念早在20世紀50年代就出現了,但此后由于數據匱乏而經歷了很長一段時間的停滯。后來,隨著互聯網時代的到來,數據共享得以推動,特別是近年來AlphaGo、AlphaFold2、ChatGPT等的出現帶動人工智能火了起來,但是這是否會顛覆傳統模式,取代人工操作仍有待商榷。傳統意義上講,CADD被稱為結構驅動,AIDD被稱為數據驅動。基于此,唐赟博士認為,AIDD是CADD發展演變的高級階段,就好比一個硬幣的兩面,缺一不可。兩者結合起來,共同促進藥物研發。
許大強博士表示,新藥發現無外乎設計、合成、測試、分析四步,AI制藥亦是如此,但AI可以大大提高效率和精度。AI在新藥研發中潛力巨大,不過目前仍處于過渡階段,未來仍有一段很長的路要走。那么現階段該如何運用AI技術呢?許大強博士表示,索智通過自有的"端-到-端"的CADD/AIDD技術平臺"AIxMol",大大地提高了活性分子設計和優化的效率。 同時,根據索智公司管線研發需求,搭建了包括多靶點分子設計等特有的技術平臺,專門賦能產品的差異化創新。
李銘曦博士認為,CADD/AIDD沒有明顯的定義,兩者是相互融合的。AI是一個很好的工具,幫助研發人員去提升效率,降低成本,是未來5-10年,甚至10-20年的一大趨勢,也許在未來我們會看到很多創新藥背后都有AI的身影,且這個趨勢是不可逆轉。同時,新工具的出現,像ChatGPT等,還會推進整個醫藥研發往前邁進。
任峰博士從傳統藥化專家的角度進行了分享,他認為,從CADD到AIDD,兩者都是基于計算機,都可以降本增效,但前者側重于評價,后者更多的在于創造性,從蛋白的結構到生成化合物,最終目的在于生成first-in-class的hit。
張佩宇博士表示,CADD和AIDD是很好的互補。AIDD是自上而下的過程,從數據出發去找出物理規律的一種方法,而CADD是自下而上的,從原子-原子、分子-分子相互作用出發,找到其中的物理規律。
Q2:目前AI制藥公司的數據源多來自于公開資料,如已發表的醫學文獻,公開的靶點庫、藥企、科研機構或院校的公開數據等,但專業的高質量數據、失敗的數據依然難以獲得。如何打破數據缺乏的困境,各位有什么好的想法嗎?
唐赟博士表示,數據的數量和質量都很重要,尤其是質量。我搭建的預測模型基本都是依靠網上公開的數據,但是還是比較有限,大部分都是小樣本數據,這極大地阻礙了AIDD的發展。尤其是陰性數據很缺乏,在公開文獻中也不多見,鑒于此,我們是不是可以呼吁學術界在發表文章時把陰性數據也公布出來。對于企業界而言,每個公司有自己的內部數據,但都是分割的,那么是否能夠幾家公司達成協議,在小范圍內進行數據共享,從而達到雙贏的目標。
李銘曦博士分享了湃隆生物在面臨數據缺乏問題時的應對方法:第一,有意識選擇公開數據豐富且高質的靶點,就比如我們的CDK靶點,從一個CDK積累數據,在此基礎上不斷學習,一直到目前的3個CDK產品。第二、有意識地收集底層的一些小數據,比如陰性數據等,這些在domain類似的靶點中會起到很大的作用。
張佩宇博士認為,數據主要有drylab和wetlab兩個來源。drylab對于某一些與結構相關的研究來說,是一個很好的數據來源,晶泰的XFEP等計算工具可以產生大量的干實驗數據支持AI建模。對于wetlab而言,小分子合成相對比較耗時,抗體藥則可以快速地表達幾百個序列。晶泰科技通過自動化機器人與實驗人員協作,不僅能實現7X24小時連續實驗,更可以快速地拿到高質量的結構化數據進行反饋迭代,效率更高。
Q3:近日,科學家們采用類似ChatGPT的蛋白質工程深度學習語言模型——ProGen,首次實現了AI預測蛋白質的合成,研究成果已在Nature子刊上發表。生物版ChatGPT未來發展趨勢如何?將會使藥物發現哪些環節受益?
許大強博士表示:ChatGPT是一個自監督學習預訓練的語言大模型,它在文本的生成和語言的處理上比較前沿,但可能需要進行針對性訓練(包括高質量數據的finetuning和更多的相關的人類反饋強化學習—RLHF)才會更加適用于生物醫藥領域的應用。他覺得可以應用在生物醫藥的場景包括蛋白設計和核酸藥物設計,因為氨基酸序列及核酸堿基堿基更適用于語言的讀取和編輯。
任峰博士表示:ChatGPT應用的gpt模型,我們是全球第一家應用它來生成分子的公司,且現在ChatGPT的出現,進一步證明了gpt模型在生物醫藥上的可行性。另外,AIDD之所以被稱為工具,主要在于它的局限性,不能make decision。但是如果未來有一個Transformer模型可以訓練機器去學習并消化藥化知識,那對于AI制藥來說也許將是一種顛覆性的突破。