谷歌破译了生命密码
破译生命密码:
谷歌DeepMind揭示AlphaGenome,开启生物学新纪元
伦敦—— 基因组,这套深藏于我们每一个细胞中的完整DNA指令集,长久以来都是生命的终极蓝图。它主导着从外观到繁殖的几乎一切生命活动,甚至包括我们抵御疾病的能力。自2003年人类基因组测序完成以来,科学家们首次得以一窥DNA的全貌。然而,如何真正破译这些指令,以及微小的DNA变异如何能够改写生命轨迹,至今仍是生物学领域最深奥的未解之谜。
现在,这一局面或将被彻底改写。谷歌DeepMind今日隆重发布了AlphaGenome——一款革命性的AI工具,并随之公布了一份长达103页的详细技术报告。这款模型不仅能够读取100万个DNA碱基,更能够预测任何基因变异或突变将如何改变分子的功能。它的突破之处在于,其能力不再局限于单个基因的预测,而是能贯穿并理解整个调控基因组,为生物学界带来了前所未有的洞察力。正如一位网友所言:“DNA就是代码,而你就是软件。”
解码生命的复杂性
AlphaGenome的核心能力在于,它能够以长DNA序列为输入,经过精密的数据处理后,通过表征其调控活性来预测数千种分子特性。这意味着,它能够回答生物学家们在实验室中需要通过大量耗时实验反复验证的问题,例如“某个基因的活性是会增强还是减弱”。
这一成就的背景是谷歌DeepMind在人工智能与生物学交叉领域的长期布局。五年前,其蛋白质预测模型AlphaFold横空出世,引发业界海啸级震动,并多次登上《自然》和《科学》年度十大科学发现榜单。从初代AlphaFold到如今的AlphaFold 3,其阶跃式进化已成功预测了人类98.5%的蛋白质结构,被誉为诺贝尔奖级别的突破,并催生了专注于药物发现的衍生公司Isomorphic Labs,引领了利用AI设计新药的浪潮。AlphaGenome的问世,无疑是DeepMind在DNA(非蛋白质编码区)研究领域的又一次重大拓展。
人类基因组约有30亿个碱基,但其中只有不到2%的序列用于编码蛋白质。其余98%被称为非编码区,这些区域对调控基因的活性至关重要,并包含了大量与疾病相关的变异位点。然而,直到现在,生物学家们实际上无法清晰地洞察这些非编码区是如何运作的。AlphaGenome正是为解读这些广阔的非编码序列及其内部变异,提供了全新的视角。
统一模型,超越极限
DeepMind表示,AlphaGenome是该领域的一个里程碑式突破。它首次实现了统一模型,能够在各类基因组任务中同时实现长程上下文关联、碱基级精度和最先进的性能表现。它能够接收长达100万个碱基字母(即碱基对)的DNA序列作为输入,并据此预测用以表征其调控活性的数千种分子特性。通过比对突变序列与原始序列的预测结果,模型还能够高效地量化评估基因变异或突变所带来的影响。
这款模型的预测范围极为广泛,包括了在不同细胞类型和组织中,基因的起始与终止位点、基因的剪接位置、RNA的生成数量,以及哪些DNA碱基是可访问的、哪些在空间上相互靠近、哪些与特定蛋白质结合等。
AlphaGenome之所以能同时做出多方面的预测,得益于其颇具层次的核心架构:首先通过卷积层初步检测基因组序列中的短模式,再利用Transformer架构在整个序列的任意位置之间高效传递信息,最后经由一系列输出层,将识别出的模式转化为对不同调控维度的具体预测。在训练过程中,针对单个序列的庞大计算量被分散到多个互联的张量处理单元(TPU)上协同完成。该模型基于谷歌先前的基因组学模型Enformer构建,并与专注于分类蛋白质编码区内变异影响的AlphaMissense模型形成互补。其训练数据源自ENCODE、GTEx、4D Nucleome和FANTOM5等多个大型公共科研项目。
前所未有的速度与精度
与现有DNA序列模型相比,AlphaGenome具备多项显著优势。它兼顾了长序列处理能力与高分辨率,能够在分析长达100万个DNA碱基序列的同时,实现单个碱基的精细预测,克服了以往模型在序列长度和分辨率之间做出取舍的限制,且并未显著增加训练所需的资源。据透露,训练一个完整的AlphaGenome模型仅需4小时,算力开销仅为最初训练Enformer模型时的一半。
此外,AlphaGenome能够对迄今最多样化的生物学维度进行全面、多维度的预测,为科学家们提供了关于基因调控复杂过程的更全面信息。它还能在短短一秒内,高效评估某个基因变异对所有这些特性的影响,大大加速了研究进程。
值得一提的是,AlphaGenome首次实现了直接从DNA序列出发,预测剪接点,并将其用于变异效应预测。这对于深入理解许多罕见遗传性疾病(如脊髓性肌萎缩症和某些囊性纤维化)的病因至关重要,因为这些疾病常源于RNA剪接过程的错误。
刷新纪录,开启新范式
在基因学组基准测试中,AlphaGenome在多项任务上均刷新了现有记录,无论是在预测DNA分子空间结构、判断基因表达增强或减弱,还是改变剪接模式方面。在生成单个DNA序列的预测时,24项评估中有22项的表现超越了当前最优的外部模型;在预测基因变异的调控效应时,26项评估中有24项的表现达到或超过了顶尖的外部模型。
更令人印象深刻的是,上述比较中的外部模型大多是为单一任务专门优化的,而AlphaGenome是唯一能够同时对所有评估维度进行联合预测的模型,这充分凸显了其强大的通用性。这意味着,科学家们过去可能需要调用十多个不同的模型来理解一个突变的作用,而现在,通过一次API调用,即可获得全分辨率的多维度信息,大幅加速了科学假说的提出与验证。
解密生命,重塑未来
毋庸置疑,AlphaGenome的强大预测能力将为未来的多个科研领域提供关键助力。
首先,它将加深人类对疾病的理解。通过更精准地预测基因功能扰动,AlphaGenome能帮助研究人员更精确地定位疾病的潜在根源,并更好地阐释与特定性状相关的变异所造成的功能性影响,从而有望揭示新的治疗靶点。谷歌认为,它尤其适合用于研究那些可能引发严重后果的罕见变异,例如导致孟德尔遗传病的变异。
其次,AlphaGenome将赋能“合成生物学”。其预测结果可用于指导设计具备特定调控功能的合成DNA,例如,设计出仅在神经细胞中激活某个基因,而在肌肉细胞中保持沉默的DNA序列。
最重要的是,AlphaGenome将推动未来的生物学基础研究。通过协助绘制基因组的关键功能元件图谱并阐明其作用,以及识别调控特定细胞功能所必需的核心DNA指令,该模型将加速我们对基因组的理解。例如,在一项针对T细胞急性淋巴细胞白血病(T-ALL)患者的研究中,AlphaGenome成功预测基因组特定位点的突变会通过引入一个MYBDNA结合基序,异常激活邻近的TAL1基因,这一预测结果与已知的致病机制完全吻合,展现了其将特定非编码变异与致病基因联系起来的强大能力。
“AlphaGenome将是这个领域的一款强大工具。”一位未具名的专家表示,“要确定不同非编码变异的重要性极具挑战性,尤其是在大规模研究的背景下。这款工具将补上这块拼图上至关重要的一块,让我们能够建立更清晰的联系,从而更深入地理解癌症等复杂疾病。”
每一次失败的疗法,每一次罕见的疾病,每一种复杂性状,都始于被误读的DNA。如今,人类终于可以更清晰地洞见生命这一复杂系统。
当你能清晰洞见系统全貌时,就能开始重新设计它。生物学也就不再神秘莫测,开始变得可编程。这是从“认知”到“掌控”的跃迁。谷歌DeepMind的AlphaGenome,正是这个转折点。