8月6日,《細胞報告》(Cell Reports)發表了廣東工業大學生物醫藥學院教授林章凜團隊與華南理工大學生物學院副教授楊曉鋒團隊合作的最新研究成果。他們在人工智能的生物學應用方面取得重要進展,成功構建一種新型的人工智能框架——DeepMineLys,并發現迄今為止在人類微生物組中最有效的溶菌酶。

DeepMineLys的示意圖。研究團隊供圖
論文第一作者、華南理工大學生物科學與工程學院2018級博士生付一然表示,作為概念驗證,該研究使用了人類微生物宏基因組數據,從中識別和挖掘有治療耐藥菌潛力的溶菌酶,它標志著人工智能在生物學領域應用的一個重要突破。
“DeepMineLys不僅能夠挖掘溶菌酶,它具備蛋白質挖掘的廣泛應用潛力,為未來的生物學研究提供了一個有力的工具?!闭撐墓餐ㄓ嵶髡吡终聞C表示,DeepMineLys的成功得益于構建了涵蓋廣泛噬菌體溶菌酶的全面訓練數據集,集成了TAPE等先進算法和編碼技術,采用了三層卷積神經網絡和雙軌架構等幾個關鍵因素,極大地提升了模型的預測性能。
在性能評估方面,研究團隊使用了精確度、召回率和F1分數等多種指標,在獨立數據集的驗證中,DeepMineLys的F1分數達到84.00%,相比現有方法提升了20.84%。他們成功從三個不同的人類微生物宏基因組數據集中識別出一千多種新的溶菌酶(相似度小于60%)。
研究團隊還從前100個候選溶菌酶隨機選擇了16個進行了實驗驗證,其中11個被證實具有活性,最強的一個溶菌酶的活性甚至比傳統溶菌酶高出6.2倍,成為迄今為止在人類微生物組中發現的最有效的溶菌酶。同等重要的是,研究團隊指出了人工智能用于生物學問題的若干限制和擬待解決的關鍵問題。
一是,生物問題涉及的可能數據庫要遠大于物理問題的數據庫。比如,人口目前的總數只有80億左右,所以人臉識別是相對容易的;但單個蛋白質的三突變株數就高達千億。二是,目前人工智能技術的驗證基本局限于內推,而生物學問題更需要外推能力,因此使用獨立數據集驗證更顯重要。三是,大部分人工智能的生物學研究目前缺乏實驗驗證。
“這些問題的解決,將極大推動人工智能在生物學領域的應用。”林章凜說。