近日,上海科技大學(xué)免疫化學(xué)研究所/生命科學(xué)與技術(shù)學(xué)院雙聘助理教授白芳課題組在國際期刊 Advanced Science 雜志發(fā)表了題為“ Conformational Space Profiling Enhances Generic Molecular Representation for AI-powered Ligand-based Drug Discovery”的研究論文,提出了一種基于分子間構(gòu)象空間相似性的預(yù)訓(xùn)練分子表征模型GeminiMol,該模型能夠系統(tǒng)表征藥物小分子的構(gòu)象空間特征,進而在包括基于配體的虛擬篩選、靶標(biāo)鑒定、分子屬性預(yù)測等多種AI藥物發(fā)現(xiàn)任務(wù)上表現(xiàn)出均衡的優(yōu)良性能。分子表征模型可將人類可讀的分子化學(xué)結(jié)構(gòu)轉(zhuǎn)化為計算機可理解的數(shù)值向量,通過表征學(xué)習(xí),可提取分子的抽象但關(guān)鍵有用的信息,從而用于后續(xù)藥物篩選、分子屬性預(yù)測等AI任務(wù)。分子表征的質(zhì)量直接決定了后續(xù)藥物設(shè)計方法的性能,因此是AI藥物研發(fā)的重要技術(shù)環(huán)節(jié)。在生理條件下,藥物分子以一定的三維構(gòu)象的形式發(fā)揮其生物活性(藥效),因此,在分子表征技術(shù)中準(zhǔn)確融入其三維構(gòu)象信息對于分子表征性能至關(guān)重要。此外,相似的分子可能具有相似的生物活性功能,通過利用對比學(xué)習(xí)發(fā)展高性能的分子表征技術(shù),對于利用已知活性分子進行基于配體的藥物發(fā)現(xiàn)具有重要意義。
基于此,該研究設(shè)計了如圖1所示的考慮分子三維構(gòu)象空間的分子對比學(xué)習(xí)表征預(yù)訓(xùn)練模型。在預(yù)訓(xùn)練過程中,一對藥物小分子首先通過相同的分子編碼器進行獨立的編碼,得到一個2048維的分子表征向量,隨后,使用多個不同的預(yù)測頭將兩個分子的表征向量投影到多種分子間相似性指標(biāo),包括分子的二維最大公共子結(jié)構(gòu)相似性和分子的三維構(gòu)象空間相似性(通過具有分子構(gòu)象信息的藥效團形狀相似性來計算)。

圖1.?通過分子間對比學(xué)習(xí)框架訓(xùn)練分子構(gòu)象空間表征模型GeminiMol。
隨后,研究團隊在多種下游任務(wù)上對GeminiMol模型進行了基準(zhǔn)測試,包括來自高通量篩選實驗數(shù)據(jù)的虛擬篩選基準(zhǔn)測試集LIT-PCBA、來自藥物-靶標(biāo)相互作用數(shù)據(jù)的靶標(biāo)鑒定基準(zhǔn)測試集TIBD、以及多種來源的定量構(gòu)效關(guān)系(QSAR)和藥物屬性(ADMET)基準(zhǔn)數(shù)據(jù)集。如圖2所示,GeminiMol在多種藥物發(fā)現(xiàn)下游任務(wù)上表現(xiàn)出較為均衡的優(yōu)良性能,進一步證實了它應(yīng)用于多種藥物發(fā)現(xiàn)任務(wù)的優(yōu)良潛力。該方法已在課題組多個藥物研發(fā)應(yīng)用項目中起到關(guān)鍵的推動作用。

圖2. GeminiMol在多種藥物發(fā)現(xiàn)任務(wù)中表現(xiàn)出有競爭力的性能。
論文的所有訓(xùn)練數(shù)據(jù)集、下游任務(wù)基準(zhǔn)測試集、藥物篩選應(yīng)用所需的化合物數(shù)據(jù)集均已經(jīng)開放儲存在Zenodo倉庫(https://zenodo.org/records/10450788),模型上傳至HuggingFace(https://huggingface.co/AlphaMWang/GeminiMol),GeminiMol模型代碼、分子指紋基線方法和使用教程均已開源在GitHub倉庫(https://github.com/Wang-Lin-boop/GeminiMol)。
上海科技大學(xué)生命學(xué)院/免化所2024屆博士畢業(yè)生王林(現(xiàn)為蘇州系統(tǒng)醫(yī)學(xué)研究所博士后)為本文的第一作者,免化所研究員、生命學(xué)院助理教授白芳為本文的通訊作者。另外,生命學(xué)院與信息學(xué)院多名研究生或者本科生也參與了本研究工作。上海科技大學(xué)為唯一完成單位。
論文鏈接:
https://onlinelibrary.wiley.com/doi/10.1002/advs.202403998



