今天,很高兴为大家分享来自DeepTech深科技的蛋白质设计领域的ChatGPT,科学家提出计算生物新方法,有望缩短药物研发周期,如果您对蛋白质设计领域的ChatGPT,科学家提出计算生物新方法,有望缩短药物研发周期感兴趣,请往下看。
来源:DeepTech深科技
“这三篇论文虽然分别提出了计算生物学领域的三个不同的方法,也有不同的应用,但基本想法是相同的,暨底层预训练大模型加上层的强化学习。”对于课题组最近的三篇论文,沙特阿卜杜拉国王科技大学(KAUST)终身正教授、博士生导师高欣表示。
“这种逻辑与 ChatGPT 很类似,但同时又在技术上优于后者。在 ChatGPT 中,GPT 是底层预训练大模型,用来学习数据本身的分布,而 Chat 是上层的强化学习,用来给底层生成模型的生成进行反馈。而 KAUST 与呈元科技联合实验室开发的强化学习算法,因为要同时关注多个指标,所以是多指标同时优化的强化学习,而不是 ChatGPT 这种单指标优化的强化学习。因此,从这个角度来说,我们的工作在一两年前启动的时候,其理念就已经非常先进,甚至于比 2023 年年初才风靡的 ChatGPT 还要领先。”高欣说。
近年来,高欣一直在计算机科学与生物学的交叉领域深耕,促成了 AI+ 生物科技产学研协作平台的建立,依托该平台发表了上述三篇同系列的论文,以下为读者一一介绍。
开发深度学习模型,预测新冠病毒变种进化阿卜杜拉国王科技大学 Wenkai Han、Ningning Chen 和 Xinzhou Xu 为共同一作,高欣教授、香港中文大学助理教授 Peter Pak-Hang Cheung 以及中科院计算技术研究所孙世伟副研究员担任论文的共同通讯作者。
据高欣介绍,这篇论文的审稿人认为研究非常新颖和可靠,又具有非常高的现实意义,不仅可以用来指导新疫苗的开发,也能够提高卫生部门对新变种的防护意识。
“事实上,在预印本刚出现的时候,我们的论文就在推特上引发了激烈的讨论,有上万的浏览量和数百的转发。欧美的科学家们和普通民众都对我们模型的结果深感震撼,并呼吁他们的政府重视新疫苗的开发。”高欣说。
从短期来看,虽然“大流行”在各国已经纷纷宣告落幕,但病毒本身尚未消失,因此仍需要对其进行关注和监测。从长期来看,该研究范式也可以在其他流行病毒研究中获得应用,如流感和艾滋病等。因此接下来该团队将进一步完善研究体系,并将其拓展至其他流行病毒的研究中。
此外,他们还想探索病毒进化和疫苗设计之间的结合,并基于其对病毒未来的变化预测,设计“通用疫苗”。
高欣表示:“这需要涉及到多个实验室的合作以及工业界相关的合作,是一个很大涉及面很广的问题,但我相信这一新的研究范式能为人类带来新的变化,让我们更好的地学会‘与流行病毒战斗’。”
让 AI 在制药领域实现突破,缩短药物的研发周期阿卜杜拉国王科技大学 Xiaopeng Xu 为该论文的第一作者,呈元科技的三位研究人员为共同作者,高欣担任通讯作者。
可以看出,上述两项研究均是用 AI 在制药领域实现的创新性突破。对此,高欣表示:“目前,基于生成模型进行药物的从头设计已经取得了重要进展,有一些药物已经进入临床实验阶段。我相信在未来几年内,将会有更多这类药物真正进入临床应用领域。这些药物的问世将会显著降低药物研发的成本,并为一些患者带来福音。”
同时,AI 在蛋白质和多肽设计领域也将会得到越来越广泛的应用。高欣相信这一领域将为大分子药物、多肽药物、酶以及其他蛋白相关应用提供新的解决方案。他也非常期待基于生成式 AI 技术研发的生物药能够进入临床应用阶段。
“问题的定义才是重中之重”
高欣表示,上述研究均包含以下步骤:问题定义、数据收集整理、方法设计、模型实现和调试、干实验测试、湿实验验证、实际管线赋能等。
在他看来,第一步和最后一步最为重要,也是其区别于其他大部分纯学术研究的关键点。
由于许多纯学术研究是好奇心驱动的,因此其解决的问题,可能并非产业界最急需解决的痛点。同时,大部分学术论文都会强调技术的先进性和新颖性,这会导致许多科研人员,甚至是领域专家,犯重技术、轻概念的错误。
“我会经常告诉团队,问题的定义才是重中之重,是根本。因为问题的定义一字之差,就会导致问题变成另一个完全不同的问题,而问题的最优解和解法都跟着发生彻底的变化。所以,一定要确保问题是定义准确正确的,而不能盲目地去跳进技术细节而去解决一个错误定义的问题。”高欣说。
此外,绝大多数科研界实验室都不具备管线赋能的能力,但这对数据科学来说却是必不可少的一个环节。这是因为,实际问题的复杂程度是任何实验室的环境都不可能覆盖到的,如果无法走向应用,就可能存在纸上谈兵的嫌疑。
科研之外,高欣还以联合创始人的身份于 2022 年 4 月创立了呈元科技,这是一家基于下一代 AI 生物设计技术的合成肽创新疗法公司。
在阿卜杜拉国王科技大学校长陈繁昌(Tony Chan)和创新工场董事长兼 CEO 李开复的共同推动下,高欣实验室与呈元科技开设了联合实验室。前者负责前沿算法设计与开发,后者负责算法的工业级改造及应用、自产数据的提供和湿实验验证,两者形成了严格迭代的干湿闭环。
图丨实验室合影(来源:高欣)高欣认为:“任何 AI+Biology 这个交叉领域的突破性进展必须要有这样一个干湿闭环,干湿平等对话的生态,才有可能完成。如果是一方主导,而另一方只是其辅助和服务的角色,那么永远都无法在这个交叉领域产生根本性的突破。”
此外,谈及研究过程中遇到的难忘往事,高欣认为令他印象最深刻的是,使用 GPT 进行药物设计时收到的反馈。
他说:“从 2020 年开始,我们就开始尝试使用基于 GPT 的生成式 AI 来进行小分子设计,当时 GPT 还没有变得非常流行。到了 2022 年,我们开始投稿时,ChatGPT 还没有引起广泛的关注,许多研究者对基于 GPT 的生成式 AI 方案持怀疑态度,这也导致我们的论文在最初投稿过程中遇到了困难,期刊编辑和同行专家们对此提出了质疑。”
但他们依然坚信这个方案在药物设计领域具有巨大的价值和潜力,并很欣喜地看到其项目启动并完成超过一年的时间之后,相同的想法在不同的应用领域取得了举世瞩目的关注和轰动,并成为改变世界科技走向的技术理念。
“这充分说明我们最初的判断和方向是完全正确的,这也是为什么我们的论文从预印本阶段就开始受到了广泛的关注和讨论,相应期刊也对我们进行了快速通道的审稿。”高欣说。
聚焦计算机科学与生物学,具备较强的多肽药物设计能力
据介绍,高欣于 2004 年在清华大学计算机系获得学士学位,2009 年在加拿大滑铁卢大学计算机学院获得博士学位。2009 年 10 月至 2010 年 9 月,在美国卡耐基梅隆大学计算机学院雷恩计算生物学中心担任雷恩学者。
在担任阿卜杜拉国王科技大学终身正教授的同时,他也是该校计算生物学中心主任、智慧医疗中心副主任,以及结构和功能生物信息学研究组负责人。此外,自 2021 年 9 月起,他还担任中国人民大学高瓴人工智能学院访问讲座教授。
如前所述,计算机科学与生物学的交叉领域是高欣所聚焦的研究重点。
在计算机科学领域,他领导的研究团队主要致力于开发与深度学习、概率图形模型、内核方法和矩阵分解相关的机器学习理论和方法。在生物信息学领域,他带领团队主要致力于构建计算模型、研发机器学习技术、设计高效的算法,以解决从生物序列分析到三维结构确定、到功能注释、再到了解和控制复杂生物网络中的分子行为,以及最近的生物医疗和健康领域中的关键开放问题。目前,其已经在生物信息及机器学习的顶级期刊和会议上发表论文 340 多篇,引用 8000 余次,H-index 为 48。
目前,高欣联合创立的呈元科技已经针对天然氨基酸序列、非天然氨基酸序列和复杂构象的多肽,构建了世界上首个跨模态预训练大模型,其在各种下游任务上,比如亲和力预测、穿膜肽预测、稳定性预测等,都表现出了显著的准确度提升。
高欣表示,该公司的 AI 技术在单个性能指标(如亲和力、穿膜性、稳定性等)和多指标同时指导下的多肽药物设计上,发挥着重要作用。
他进一步解释道:“我们的 AI 算法绝不是拿来主义,而是通过分析具体需求以及数据的约束、假设、限制及属性,解决具体问题中的痛点和难点,打造量身定制的解决方案。因此我们的 AI 算法都有创新性和技术壁垒。”
具体来说,生物制药和合成生物学需要从不同的角度出发,对蛋白进行优化与设计,例如亲和力、稳定性、免疫原性等。传统方法采用层级过滤法,通过前一轮的过滤的候选物,才可以进入下一轮过滤。如果输入的蛋白空间是所有可能的蛋白,如对 12 个残基的多肽,搜索空间为 2012,这种层级过滤法可以保证最优性。
不过,由于搜索空间过于庞大,不可能进行遍历搜索,因此层级过滤法只会对搜索空间的冰山一角进行过滤,最终或者找不到同时满足所有指标的候选物,或者找到的是次优的候选物。
而该公司的 AI 设计平台在设计多肽药物时,会对多肽药物进行全方位的优化,这包括亲和力、穿膜效率、稳定性等多个因素同时优化。
同时,他们也提出了基于多指标同时优化强化学习的蛋白质 in silico 定向进化算法。这款算法可以对多个指标同时进行多维度优化,并将多指标作为强化学习的反馈信息指导下一步的搜索。其具体通过模型序列到功能的预测,指导序列的设计生成,生成序列的质量则主要取决于预测模型的性能,因此在单目标预测算法提升后,能够很轻易地融入原有算法框架,并且会使得序列生成的质量得到提升;更进一步地,多个指标中的任何指标都可以被湿实验数据所替代,即从而形成各种尺度的干湿闭环。
如今,该公司新的多肽药物设计平台和范式已经在多个若干管线中取得良好结果,模型的设计和预测也已得到湿实验验证。“预计在公司成立两年之内,我们会将若干个 First in class(全球新)创新药管线推进到临床试验申报研究(IND Enabling Study)阶段。”高欣最后表示。
参考资料:
1. Han, W., Chen, N., Xu, X. et al. Predicting the antigenic evolution of SARS-COV-2 with deep learning. Nature Communications 14, 3478 (2023). https://doi.org/10.1038/s41467-023-39199-6
2. X., Xu, T., Xu, J., Zhou. et al. AB-Gen: Antibody Library Design with Generative Pre-trained Transformer and Deep Reinforcement Learning. Genomics, Proteomics and Bioinformatics; doi: https://doi.org/10.1016/j.gpb.2023.03.004
3. X., Xu, J., Zhou. et al. Optimization of binding affinities in chemical space with generative pre-trained transformer and deep reinforcement learning. F1000 Research; doi: https://doi.org/ 10.12688/f1000research.130936.1.
运营/排版:何晨龙
好了,关于蛋白质设计领域的ChatGPT,科学家提出计算生物新方法,有望缩短药物研发周期就讲到这。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“科技金融网”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场,如有侵权,请联系我们删除。