五月婷婷丁香六月,亚洲第六页,亚洲国产日韩欧美在线,91免费视频观看,99只有精品,亚洲国产99,亚洲综合婷婷

百圖生科首席AI科學家宋樂:人工智能落地進入“大模型”時代

今年,百圖生科首席AI科學家宋樂教授擔任ICML(International Conference on Machine Learning)大會主席,作為Program Chair,全面負責大會程序委員會的組建和論文評選等管理工作。中國生物計算企業(yè)高管出任AI頂級學術會議的此類職位,也可以被視作中國生物計算行業(yè)崛起的風向標。ICML作為國際機器學學會主辦的國際會議,被公認是人工智能、機器學領域最頂級的國際會議之一,在整個計算機科學領域享有崇高聲望。

據(jù)悉,作為全球著名的機器學和圖深度學專家,宋樂自2008年起就在卡內基梅隆大學和喬治亞理工學院從事生物計算相關研究,利用機器學技術對靶點挖掘、藥物設計取得了一系列突破成果。在多年學界探索之后,他于去年8月加入百圖生科,“投身業(yè)界,更多是因為可觀測的生物數(shù)據(jù)量越來越多,比如說蛋白質的序列數(shù)據(jù)已經超過十億條。其次是計算能力的提升,再次是AI算法能力的積累,AI和制藥領域出現(xiàn)了很多新的模型和方法,能夠更準確的預測。當然,目前的研究僅僅是冰山一角,AI+Drug還有無比廣闊的探索空間,我對這個賽道非常期待。”

“從ICML今年收錄的千篇論文情況來看,像醫(yī)學、生物學、蛋白質、藥物、分子、化學等關鍵詞在文章標題和摘要被提及次數(shù)總計超過200次,成為單一最大的研究方向之一。我們已經看到越來越多的人工智能專家在開始關注生物醫(yī)藥這個領域”,宋樂表示。

人工智能落地已經進入“大模型”時代。大規(guī)模預訓練模型使用自監(jiān)督學的方法讓模型對海量無標注數(shù)據(jù)中的規(guī)律和知識進行提煉、學,當面向任務和場景應用時,只需要少量的任務標注數(shù)據(jù),就能通過持續(xù)微調得到在應用場景中非常好用的模型,對具體任務的賦能效果顯著,大規(guī)模預訓練模型在NLP、CV等多類任務上已經展現(xiàn)出強大的優(yōu)勢。

在宋樂看來,人工智能大模型的下一個奇跡,將出現(xiàn)在生物計算領域,生物計算行業(yè)將出現(xiàn)規(guī)模最大、效果最好、價值最高的大模型,成為行業(yè)的重大基礎設施,不僅徹底改寫藥物研發(fā)的技術能力,也將對人工智能底層技術發(fā)展起到巨大的推動作用,反哺其他行業(yè)的AI技術發(fā)展。

“人體這個多尺度的復雜網絡,加上多模態(tài)、高噪音的超大規(guī)模生物數(shù)據(jù),需要獨有的超大模型來提升研發(fā)效果,這也是百圖生科在全力攻堅的事”。根據(jù)宋教授的介紹,百圖生科正圍繞建模免疫系統(tǒng)復雜運作機理的需求,構建一系列對不同生物物質、不同互作關系具有表征能力的大模型,覆蓋細胞、蛋白、基因、免疫系統(tǒng)等多個層面,而不只局限于熱門的蛋白質結構預測領域。但即使在蛋白質結構預測這個已經被AlphaFold2充分挖掘的問題上,大模型也能帶來顯著的提升。百圖生科與百度合作開發(fā)了這個領域的大規(guī)模預訓練模型模塊,在沒有同源序列的幫助下對蛋白質的結構預測,對標AlphaFold2預測的TM score結果,從0.3顯著提高到0.67。

“這只是起點,我們正在開發(fā)的是超過千億參數(shù)的超大規(guī)模多模態(tài)預訓練模型體系,我們把它稱作BioMap X(xTrimo,Cross-modal Transformer Representation of Interactome and Multi-Omics),它將是全球最大的生物多模態(tài)預訓練模型體系,可用于生物醫(yī)藥領域包括靶點發(fā)現(xiàn)和藥物開發(fā)的多個環(huán)節(jié)”。利用這個大規(guī)模預訓練模型的初步基礎,百圖生科已經在一系列具體任務問題上,特別是一些已有數(shù)據(jù)很少的問題上,收獲了明顯的效果。例如,圍繞組合藥物協(xié)同效應的預測,大幅度的超過了SOTA水。目前,在一些實驗數(shù)據(jù)很稀缺的免疫細胞上進行的靶點發(fā)現(xiàn)任務,也取得了良好的前期效果,即將完成驗證后對外公布。

超大規(guī)模模型是AI行業(yè)的明珠,背后需要巨大的投入和綜合的底層技術能力。“藥物發(fā)現(xiàn)問題的商業(yè)價值極高,比起其他任務場景,更能支持大規(guī)模模型的建設投入,目前百圖生科作為臺型生物計算企業(yè)敢于這樣做,未來一定也會有更多企業(yè)投身到這個趨勢中,最終推動生物計算大模型成為AI屆最亮的明珠”。

超大規(guī)模模型建設離不開超大規(guī)模的計算資源和高能高并發(fā)計算能力。據(jù)介紹,百圖生科的團隊,包括一大批百度主任架構師、阿里P9專家這樣的高級人才,他們在學術上累計發(fā)表過上千篇論文,在工程上實際構建過超大規(guī)模的知識圖譜、計算集群,具有豐富的計算經驗。百圖生科也得益于百度的助力,搭建了高彈的超大規(guī)模計算集群,實現(xiàn)了大模型的高效訓練。同時,大模型能力的芯片化是下一步的關鍵方向。百圖生科正與包括百度昆侖芯科技等領先芯片企業(yè)合作,共同研發(fā)生物計算的專用芯片,通過探索與前沿生物計算算法相匹配的前沿芯片設計,將大模型和生物計算特色需求的能力固化到芯片上。

超大規(guī)模生物數(shù)據(jù)無疑是建設大模型的另一個關鍵點。截止目前,百圖生科的免疫圖譜已經形成了超十億級的實體數(shù)據(jù)、百億級的互作關系數(shù)據(jù)、千億級的關聯(lián)數(shù)據(jù),為大模型的打造提供了基礎。這些海量數(shù)據(jù)的形成,來自于百圖生科從創(chuàng)立之初就多管齊下的大投入決心和AI、生物技術能力建設。

宋樂認為,公開數(shù)據(jù)此前一直被認為存在較高的噪音和不準確,但這正是大模型所能消化的數(shù)據(jù)燃料,也是AI知識圖譜等技術在數(shù)據(jù)清洗上的優(yōu)勢所在。百圖生科構建了大規(guī)模的挖掘引擎,從論文挖掘和知識抽提,到大規(guī)模生物數(shù)據(jù)庫的清洗整合、AI提升batch effect(批次效應)消除,再到利用知識圖譜推理技術發(fā)現(xiàn)分歧。運用高通量濕實驗能力去驗證,公開數(shù)據(jù)的整合挖掘仍然大有可為。

更關鍵的是海量自產數(shù)據(jù)的獲得。“高通量干濕實驗閉環(huán)是生物計算的未來,這也是百圖生科一直打造的差異化優(yōu)勢,過往一年我們也在不斷努力,構建了一萬多米的高通量實驗室,自主研發(fā)了世界首創(chuàng)的免疫模擬系統(tǒng),從而能產生海量的數(shù)據(jù)和高速的驗證閉環(huán)。我們的系統(tǒng)具有對蛋白質、細胞的高通量讀寫能力,能實現(xiàn)把物理世界的生物體快速讀取,獲得他們的幾十個參數(shù)維度,也能實現(xiàn)對多種蛋白、細胞的快速制備/編輯/改寫,讓他們能驗證模型的結果,形成快速的閉環(huán)。”

在高通量實驗系統(tǒng)打造的過程中,百圖生科融合了世界一流的生物技術團隊和AI團隊。生物團隊中,上百位來自大藥企、著名實驗室的專家,參與過100個以上的新藥研發(fā)項目,掌握全鏈條的世界領先技術,例如免疫細胞的基因編輯技術等。AI團隊中,有一批在細胞視覺、運籌優(yōu)化等領域經驗豐富的專家,他們和生物團隊融合,利用細胞視覺大大提升原有生物檢測方法的參數(shù)維度、反應速度、成本優(yōu)勢,不僅可以帶來更好的數(shù)據(jù),還可以用于閉環(huán)控制、確保生物系統(tǒng)的穩(wěn)定。“這就是我們自己研發(fā)的激光雷達,有獨家的激光雷達能力,我們希望能成為最強大的‘自動駕駛’公司”。

在技術能力之外,百圖生科還通過強大的臨床合作網絡,為高通量實驗能力找到更多的用武之地。“多組學數(shù)據(jù)、臨床科研數(shù)據(jù)對于模型構建和算法提升幫助很大,因此公司成立之初就投入10億元建設‘免疫圖譜卓越計劃’,已經與十余家中國TOP 30的醫(yī)院建立了合作,一批臨床醫(yī)院的著名專家、院長、主任成為了我們的合作PI,我們也很快會推出‘卓越計劃’二期來加速這個過程。”宋樂說。

目前,宋樂的團隊已經擁有數(shù)十名專家,累計發(fā)表了1000篇論文,獲得過300個專利,人才來源覆蓋了國內外的頂級計算生物學院系,和頭部的AI科技大廠。值得關注的是,這里面很多人才并沒有計算生物學、生物信息學等生物相關的背景。百圖生科還成立了研究院,圍繞生命體精細化觀測、新型蛋白質合成和細胞編輯、前沿多組學技術等方向建立了研究小組,與國內外眾多一線高等院校、科研院所合作,利用公司的場景優(yōu)勢、生物和計算基礎設施優(yōu)勢,與高校雙軌制培養(yǎng)優(yōu)秀人才,使其兼具研發(fā)能力和工業(yè)落地的實踐精神

“現(xiàn)在的生物計算行業(yè)其實很像二十多年前互聯(lián)網行業(yè)爆發(fā)的前夜,有人說21世紀是生物學的世紀,也有人說21世紀是人工智能的世紀,我覺得人工智能技術賦能下的生物醫(yī)藥行業(yè),將會成為這個世紀最有潛力的方向。隨著越來越多的交叉學科人才涌入這個行業(yè),這個行業(yè)的人才競爭也會加劇,但現(xiàn)在還是提早上車的最好時候。”宋樂說。

關鍵詞: 人工智能 百圖生科 生物計算行業(yè) 激光雷達

來源:光明網
編輯:GY653

免責聲明:本網站內容主要來自原創(chuàng)、合作媒體供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

  • 相關推薦

相關詞