7月5日消息,騰訊公司5日宣布,已搭建一個海量的 MdrDB 耐藥性數據庫,提供最全的數據信息,為 AI 研發新藥提供耐藥性預測測試的「練兵場」。
【資料圖】
據悉,這是騰訊量子實驗室的最新研究成果,相關研究論文已登上了國際學術期刊 Nature 的子刊 Communications Chemistry。
看過電影《我不是藥神》就知道:癌癥患者后期,使用的靶向藥物經常出現耐藥性,需要尋找新的替代藥物。不止癌癥,艾滋和抗生素藥物都會產生耐藥性。這是由于癌細胞和病原體的蛋白突變所導致的。
打個比方,關鍵蛋白是解決癌細胞/病原體的「門鎖」,但由于細胞進化和藥物刺激,蛋白突變幾乎不可避免。而無法預知蛋白的突變方向,就無法定向研發能夠解決疾病的藥物來做“鑰匙”。
AI 學習,可以為預測蛋白、研制新藥提速。但全世界都面臨的最大問題是——蛋白突變的數據樣本不足,對耐藥性測試造成了很大的數據缺口。
針對數據量不足,騰訊發布的 MdrDB 耐藥性數據庫,首先在量上做到第一:從包括 GDSC、DepMap 等公開的行業數據集內,搜集了接近 10萬個樣本,總共收納了 240 種蛋白質(總共 5119 個 PDB 結構)、2503 個突變和 440 種藥物,涵蓋了各種蛋白質家族的突變信息。
這個樣本量總共達到了 10 萬,是行業第二名的 100 倍。豐富的數據量,能夠為 AI 進行藥物的耐藥性測試提供足夠的訓練樣本。
為了讓 AI 更好消化數據,量子實驗室耗時半年,搭建了一套數據的加工流程:通過細胞系的數據清洗,數據庫內將野生型蛋白、突變性蛋白等蛋白質類型,單點突變、刪除突變等突變類型分門別類,方便AI隨時「調閱」。
最后,通過自研的 Mutfold 蛋白質突變預測平臺和蛋白質折疊算法,能就生成一個可視化的蛋白質三維結構「鎖孔」樣本,可供進行藥物分子的結合模擬,提供耐藥性數據。
新藥研發,必須經過大量的測試,以確認能夠匹配突變蛋白。更全面、更多維的數據庫,能更有效助力進行突變誘導耐藥性的預測、聯合治療策略的開發以及創新藥物的研發。
在海量數據的加持下,MdrDB 也實現了性能的突破:在就 MdrDB 與其它行業公開耐藥數據庫作為訓練數據、分別在10種經典機器學習模型上進行測試的實驗中,與其它數據庫相比,模型的預測值與真實值的均方根誤差從 0.907 下降至 0.656,相關性從 0.094 提升至 0.607,耐藥性的分類性能則從 0.243 提升至 0.538。
經過測試,使用 MdrDB 的AI耐藥性預測精準度提升30%。這也是自2020年打造 AI 藥物研發平臺云深智藥(idrug)以來,騰訊又一次探索前沿技術助力藥物研發。
目前,MdrDB 已向行業和學術機構全面開放。未來,MdrDB 還將持續更新耐藥性數據。
關于我們| 客服中心| 廣告服務| 建站服務| 聯系我們
中國焦點日報網 版權所有 滬ICP備2022005074號-20,未經授權,請勿轉載或建立鏡像,違者依法必究。