“與其把電力用在挖掘比特幣上,不如把電力用來挖掘人類的‘知識顆?!??!敝袊茖W院計算技術研究所—哲源·圖靈達爾文實驗室主任牛鋼語出驚人,人類已發(fā)表了三、四千萬篇生命科學領域的專業(yè)論文,利用算法、程序和高強算力,人類能夠?qū)σ粋€疾病進行深度的挖掘。
挖掘“知識顆?!?,與挖比特幣相似的是都以算法、程序進行高強運算,形成一個個單元,不同的是,前者形成新藥研發(fā)的知識單元,后者形成金融支付單元。
近日,這個與寒武紀同根同源,孵化自中科院計算所高性能計算機研究中心的團隊,經(jīng)重慶市經(jīng)信委牽線與當?shù)厣鲜兴幤笕A森結成戰(zhàn)略合作,將“知識顆?!钡耐诰驊糜趧?chuàng)新藥的研發(fā)實踐之中。
人工智能必不可少
不是所有的數(shù)據(jù)挖掘都是人工智能,走進人工智能時代需要顛覆性的創(chuàng)新實踐。
寒武紀發(fā)布了全球首個搭載人工神經(jīng)網(wǎng)絡的芯片,哲源團隊發(fā)揮了同樣的優(yōu)勢,在新藥創(chuàng)制系統(tǒng)中,“神經(jīng)元”的訓練成為一大亮點。
“瞄準新藥創(chuàng)制,我們能夠提供極大知識的驅(qū)動?!迸d摻忉?,之所以是“極大知識”,因為基于強大的算力,團隊目前已實現(xiàn)可及論文、知識載體的全部挖掘。
數(shù)據(jù)的“密集恐懼癥”在算力充足、算法優(yōu)化的基礎上,已不成問題。中科院計算所高性能中心主任譚光明表示,這是面向生命科學的第五范式的主要平臺,應首先向藥物研發(fā)行業(yè)釋放技術價值。
例如,針對免疫系統(tǒng)疾病,團隊將全面抓取文獻,以不同研究方向形成“知識顆粒”,值得一提的是,這些顆粒是“活性顆?!??!啊R顆粒’將變成一個神經(jīng)元?!迸d摻忉專柧毶窠?jīng)元的是現(xiàn)實世界中藥物、基因、患者之間形成的大量事實,至此,新藥創(chuàng)制系統(tǒng)中的“神經(jīng)元”不僅學會了理論也經(jīng)歷了實踐。
人工智能的特性決定了每個神經(jīng)元不是孤立的。
團隊已完成上萬個神經(jīng)元的訓練。在此基礎上,活性神經(jīng)元之間的“關系網(wǎng)”自發(fā)形成,目前已經(jīng)產(chǎn)出了400多個細胞內(nèi)確定性事件基礎模型,甚至可以組合出不同的腫瘤進化情況。
疾病有了“數(shù)字孿生”,創(chuàng)新藥成本將大幅下降
“我們計劃訓練上百萬個與疾病相關的神經(jīng)元,神經(jīng)元之間的聯(lián)系也將對現(xiàn)實進行映射?!迸d摫硎?,當神經(jīng)元覆蓋到人體的全系統(tǒng),人體內(nèi)的發(fā)病過程將得到數(shù)字化的“再造”。
當疾病有了“數(shù)字孿生”,那么新藥創(chuàng)制將擁有高度仿真的“演習基地”。
當下,各大制藥企業(yè)也都開啟了引入人工智能的手段來提升藥物的篩選效率。有統(tǒng)計顯示,一款藥物從化合物到完成臨床前研發(fā)已經(jīng)從2—3年縮短到兩個月。
“但現(xiàn)有人工智能的發(fā)力點多集中在少數(shù)幾個腫瘤的致病基因。”牛鋼認為,如果只基于腫瘤1%的信息篩選藥物,那么很難提高成功率。
“數(shù)字孿生”意味著,人類有能力通過超強算力對腫瘤中突變的全部基因進行考量,而不是“抓重點”。
“算力不足時,放棄全面抓重點是沒辦法的事,而一旦有了人工智能的手段,加上超強算力,AI能夠在新藥創(chuàng)制時面面俱到?!敝锌圃河嬎闼?哲源·圖靈達爾文實驗室副主任、哲源科技COO趙宇認為,這也是提高新藥創(chuàng)制成功率的關鍵。而提高成功率正是大大節(jié)約研發(fā)成本。
團隊的目標是建立全新藥物數(shù)字試驗場,將新藥創(chuàng)制的研發(fā)時間減半、投入減半,成功率提高一倍,到了臨床以后有效率提高一倍。
“人類有25000個功能基因,理論上說,對它們的系列研究是可以‘窮舉’的?!迸d摫硎?,在可預見的未來,可以實現(xiàn)將25000個基因的神經(jīng)元全部建立起來,進行對藥物、病癥的數(shù)字孿生和全息篩選。(科技日報 記者張佳星)