距離科學(xué)家們首次人類基因組測序已經(jīng) 15 年了,而如何使編碼人類生命的龐大基因組數(shù)據(jù)變得有意義依然是一個艱巨的挑戰(zhàn)。但是,這種類型的問題恰好是機器學(xué)習(xí)所擅長的。
距離科學(xué)家們首次人類基因組測序已經(jīng) 15 年了,而如何使編碼人類生命的龐大基因組數(shù)據(jù)變得有意義依然是一個艱巨的挑戰(zhàn)。但是,這種類型的問題恰好是機器學(xué)習(xí)所擅長的。本周一,Google 發(fā)布了一個稱為 DeepVariant 的 AI 工具,使用最先進的 AI 技術(shù),能夠從測序數(shù)據(jù)建立了一個人類基因組更精確的譜圖。
DeepVariant 幫助高通量測序讀數(shù)轉(zhuǎn)化成為一個全基因組圖譜。它能夠自動鑒別測序數(shù)據(jù)中小的插入和缺失突變,以及單個堿基對的突變。
高通量測序逐漸成為廣泛的應(yīng)用,使得基因組測序更為簡便。但是,使用這樣的系統(tǒng)所產(chǎn)生的數(shù)據(jù)僅僅提供了一個有限的、容易出錯的全基因組快照。通常,對于科學(xué)家們來說,將那些小的突變與測序過程中所產(chǎn)生的偶然錯誤區(qū)別開來,是有挑戰(zhàn)的,尤其是在基因組的重復(fù)部分里。這些突變可能會直接與例如癌癥這樣的疾病相關(guān)。
現(xiàn)在,存在一些可以解讀這些讀數(shù)的工具,包括 GATK、VarDict,以及 FreeBayers。然而,這些軟件程序通常使用更簡單的統(tǒng)計和機器學(xué)習(xí)方法,通過嘗試排除讀取錯誤來識別突變。
“挑戰(zhàn)之一是,在基因組的困難部分,每個工具都會有它的長處和短處,”Brand Chapman 談道。他是哈佛大學(xué)公共衛(wèi)生學(xué)院的研究科學(xué)家,幫助開發(fā)了 DeepVariant。“這些困難的區(qū)域?qū)τ谂R床測序的重要性在增長,以及對于獲得多重方法來說也是重要的。”
Chapman 與來自 Google Brain 團隊的研究人員合作。GoogleBrain 團隊,這個團隊專注于 AI 技術(shù)的開發(fā)和應(yīng)用;另一個 Alphabet 子公司專注于生命科學(xué);DNAnexus 是存儲基因組數(shù)據(jù)的云平臺,Andrew Carroll 擔任 DNAnexus 的副總裁。
在一個名為 Geneome in a Bottle(GIAB)的項目中,團隊收集了數(shù)以百萬計的高通量讀取以及全基因組測序。GIAB 項目是一項公私合作的項目,旨在推廣基因組測序工具和技術(shù)。他們將數(shù)據(jù)提供給深度學(xué)習(xí)系統(tǒng),并刻意調(diào)整模型的參數(shù),直到它可以學(xué)會以一個高水平的準確性解讀測序數(shù)據(jù)。
去年,DeepVariant 在 PrecisionFDA Truth Challenge 中贏得了第一名,這是由 FDA 發(fā)起的比賽,旨在促進更加精準的基因測序。
“DeepVariant 的成功很重要,因為它表明了在基因組領(lǐng)域,深度學(xué)習(xí)可以用來自動訓(xùn)練系統(tǒng),其表現(xiàn)優(yōu)于復(fù)雜的手工操作系統(tǒng),”Deep Genomics 的首席執(zhí)行官 Brendan Frey 表示。
DeepVariant 的發(fā)布是機器學(xué)習(xí)有望推動基因組學(xué)進步的最新標志。
Deep Genomics 是嘗試通過 AI 方法(例如深度學(xué)習(xí))梳理出疾病的發(fā)病基因以及鑒別出潛在的藥物治療的少數(shù)幾個公司之一。
Frey 表示,AI 將會逐步變得更好,不僅僅幫助分析基因組數(shù)據(jù)。“目前阻斷藥物(開發(fā))的缺口在于我們無法準確地將遺傳變異與疾病機制進行對照,并能夠利用這些知識快速確定拯救生命的療法。”
DeepVariant 也會在 Google 云平臺上提供給用戶使用。Google 和它的競爭對手都在將機器學(xué)習(xí)功能添加到他們的云平臺上,以吸引任何想要使用最新的 AI 技術(shù)的人。
總的來說,在未來幾年,人工智能數(shù)據(jù)將有助于醫(yī)學(xué)的許多方面取得巨大的飛躍。AI 有很多機會可以從圖像或醫(yī)療記錄中挖掘出許多不同種類的醫(yī)療數(shù)據(jù),比如,預(yù)測出那些人類醫(yī)生可能會錯過的疾病。
基因組醫(yī)學(xué)代表著一個尤為重大的機遇,因為數(shù)據(jù)的規(guī)模和復(fù)雜性是前所未有的。“在歷史上第一次,我們測量生物體的能力,以及對它操作的能力,都遠遠超過我們理解它的能力,”Frey 說。“AI 是我們解釋和處理海量數(shù)據(jù)的唯一技術(shù)。這將徹底改變醫(yī)學(xué)的未來。”
{{item.content}}