我院AI for Science交叉研究团队分别与吉林大学李向涛教授,中国农业科学院长春兽医研究所任子林助理研究员合作,在生物信息学领域顶级期刊《Bioinformatics》发表系列研究成果:“Automated exploitation of deep learning for cancer patient stratification across multiple types”、“THPLM-a sequence-based deep learning framework for protein stability changes prediction upon point variations using pretrained protein language model”和“CodonBERT: a BERT-based architecture tailored for codon optimization using the cross-attention mechanism”。
期刊简介:Bioinformatics(生物信息学)是生物学类期刊,收录方向为生物相关的计算机学、数学和统计学等,在生化研究方法中排名前10,在生物技术与应用微生物学中排名前16%。该期刊由牛津大学出版,主要关注基因组生物信息学和计算生物学的新发展,出版学术和工业研究人员感兴趣的最高质量的科学论文和评论文章,对原创文章要求创新性较高,是生物信息学领域老牌TOP期刊。
期刊类别:中国计算机学会推荐B类期刊
论文一:Automated exploitation of deep learning for cancer patient stratification across multiple types
作者顺序:孙平平,范世杰,李少川,赵英伟,Ka-Chun Wong(香港城市大学)
通讯作者:逯畅(东北师范大学心理学院),李向涛(吉林大学人工智能学院)
论文概述:癌症分子亚型鉴定在患者的个体化治疗中起着关键作用。然而,现有的方法存在着数据集样本数量少、数据特征维数高、计算方法表现力不佳、以及模型训练困难等缺陷。为了解决这些问题,本文针对高通量基因表达数据,将深度学习模型与蚁群算法结合,提出了基于启发式搜索的自动深度学习机,用以识别癌症亚型,并将其应用在了多种癌症类型上。实验结果表明,本文提出的算法可以在不同癌症,不同平台数据上得到优秀的诊断结果,展示了其泛化能力和普遍适用性。
论文二:THPLM-a sequence-based deep learning framework for protein stability changes prediction upon point variations using pretrained protein language model
作者顺序:宫健婷,蒋莉莉,陈泳冰,张艺翔,李雪,马志强,付治国,何飞
通讯作者:孙平平,任子林(中国农业科学院长春兽医研究所),田明尧(中国农业科学院长春兽医研究所)
论文概述:蛋白质热力学稳定性的定量测定是蛋白质和药物设计的关键步骤。对蛋白质单点突变引起的蛋白质稳定性变化进行可靠预测有助于相关领域的发展。尽管相关研究取得了令人瞩目的进展,但仍有必要探索野生型和变异型蛋白质的表征方法,以解决如何从全局序列的角度表征蛋白质稳定性变化的问题。随着蛋白质语言模型(PLM)在蛋白质结构和功能预测问题的成功应用,表明蛋白质语言模型可以捕捉到原子级别的结构信息,因此有助于理解单点变异是如何引起功能变化的。实验结果表明,本文提出的算法,在非同源测试数据上,展示了良好的泛化性,同时证明蛋白质语言模型表征可用于蛋白质稳定性变化的预测。
论文三:CodonBERT: a BERT-based architecture tailored for codon optimization using the cross-attention mechanism
作者顺序:任子林(共一),蒋莉莉(共一、我院2021级研究生),狄亚心,张度飞(我院2022级本科生),宫健丽,宫健婷,蒋琦玮,付治国
通讯作者:孙平平,周博(中国农业科学院长春兽医研究所),倪铭(卫生勤务与血液研究所)
论文概述:信使 RNA(mRNA)疫苗以其独特的灵活性和高效性在全球范围内受到关注。密码子优化是设计高效 mRNA 疫苗的关键环节。传统密码子优化方法受限于密码子与氨基酸之间多对一的复杂关系。当前基于机器翻译的深度学习方法,例如循环神经网络(RNN),在捕获密码子偏好的长期依赖性方面存在不足。为此,团队开发了一种基于 BERT 的创新模型——CodonBERT。该模型采用交叉注意力机制,将密码子序列随机掩盖,并将每个密码子作为键和值,氨基酸序列则作为查询输入。CodonBERT 在 Human Protein Atlas 提供的高表达转录本数据以及高密码子适配指数(CAI)序列的混合数据集上进行了训练。结果表明,CodonBERT 能够有效捕获密码子与氨基酸之间的长程依赖关系,显著提升了密码子优化的效率,性能超百图生科发表在Nature的LinearDesign工具,自主开发代码在Github上得到包括国外社交平台、商业公司和学术团体的广泛关注。
初审:武珊
复审:周治国
终审:殷明浩