北理工團(tuán)隊(duì)合作基于遷移學(xué)習(xí)生成物種特異性啟動(dòng)子方面取得重要進(jìn)展
發(fā)布日期:2024-05-27 供稿:生命學(xué)院 攝影:生命學(xué)院
編輯:肖雯 審核:周連景 閱讀次數(shù):近日,北京理工大學(xué)霍毅欣教授與郭淑元教授團(tuán)隊(duì)在基于生成式機(jī)器學(xué)習(xí)生成物種特異性啟動(dòng)子方面取得重要進(jìn)展。相關(guān)研究成果以“Species-specific design of artificial promoters by transfer-learning based generative deep-learning model”為題發(fā)表在頂級(jí)期刊《Nucleic Acids Research》(影響因子:14.9),。該工作以北京理工大學(xué)為第一通訊單位,博士生夏燕為第一作者,,霍毅欣教授與郭淑元教授為共同通訊作者,。
啟動(dòng)子是在轉(zhuǎn)錄水平上調(diào)節(jié)基因表達(dá)的關(guān)鍵元件,能夠啟動(dòng)基因轉(zhuǎn)錄,、調(diào)節(jié)基因表達(dá),,并影響代謝途徑中的代謝流分布。盡管天然啟動(dòng)子已被用于基因調(diào)控,,但其缺乏連續(xù)的調(diào)控強(qiáng)度和廣泛的調(diào)控范圍,。目前,深度學(xué)習(xí)在蛋白質(zhì)設(shè)計(jì),、調(diào)控元件生成等領(lǐng)域已經(jīng)取得了一定的進(jìn)展,,但是在數(shù)據(jù)集缺乏的條件下還不能生成質(zhì)量較高的調(diào)控元件。為了解決原核生物啟動(dòng)子數(shù)據(jù)量不足的問(wèn)題,,我們基于遷移學(xué)習(xí)的策略,,開(kāi)發(fā)了一系列核苷酸語(yǔ)言模型 PromoGen,用于在數(shù)據(jù)缺乏的條件下從頭生成物種特異性的啟動(dòng)子(圖1),。
圖1 基于核苷酸語(yǔ)言模型的啟動(dòng)子設(shè)計(jì)架構(gòu)
通過(guò)位置權(quán)重矩陣,、6聚體頻率相關(guān)性和 -10 區(qū)域分布分別對(duì) B. subtilis 的PromoGen-bsu模型生成啟動(dòng)子的能力進(jìn)行分析。并對(duì)PromoGen-bsu生成的啟動(dòng)子進(jìn)行濕實(shí)驗(yàn)驗(yàn)證,,結(jié)果表明72.7%的生成啟動(dòng)子的活性高于天然啟動(dòng)子PlepA的啟動(dòng)活性的三倍,,18%的啟動(dòng)子與天然強(qiáng)啟動(dòng)子活性水平相當(dāng)(圖2)。
圖2 生成啟動(dòng)子在枯草芽胞桿菌中的活性驗(yàn)證
為了證明遷移學(xué)習(xí)策略的有效性,,分別使用27個(gè)物種的啟動(dòng)子的數(shù)據(jù),,在PromoGen-pre上對(duì)其進(jìn)行微調(diào),得到了27個(gè)物種的生成模型,。并對(duì)所有的模型進(jìn)行預(yù)訓(xùn)練和微調(diào)性能評(píng)估,,微調(diào)后的32%的模型相關(guān)性超過(guò)0.8。此外,,我們開(kāi)發(fā)了一個(gè)在線平臺(tái)(https://promogen1.cloudmol.org/),,該平臺(tái)針對(duì)27種原核生物提供了微調(diào)后模型來(lái)從頭生成啟動(dòng)子(圖3),。
圖3 網(wǎng)絡(luò)服務(wù)器示意圖
此項(xiàng)工作得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃(Grant No. 2021YFC2100500),國(guó)家自然科學(xué)基金委(Grant No. 32370095, 32371489, 62325202)和唐山市科技計(jì)劃(Grant No. 23130228E)基金的支持,。
分享到: