2003年,科学家第一次对人类基因组进行测序,揭示了构成我们生命“蓝图”的全部DNA序列。尽管98%的基因组不直接编码蛋白质,它们仍深刻作用着基因的调控和细胞作用。这些非编码区
2003年,深度思维科学家第一次对人类基因组进行测序,推出揭示了构成我们生命“蓝图”的法基全部DNA序列。尽管98%的因组基因组不直接编码蛋白质,它们仍深刻作用着基因的人工调控和细胞作用。这些非编码区域曾被视为“垃圾DNA”,智慧A中XM外汇平台MT4教程但如今被认为可能蕴藏着关键的揭秘生物学秘密,就像是物质基因界的“暗物质”。
今年6月25日,深度思维“深度思维”公司公布,推出他们开发出一款名为AlphaGenome(阿尔法基因组)的法基人工智慧(AI)模型,有望在破译这一“暗物质”上取得突破。因组XM外汇代理《自然》杂志报导称,人工这一“从序列到作用”的智慧A中模型能预测DNA中微小变动会对一系列分子流程产生的作用,为解码人类基因调控机制供给了新路径。揭秘
说明DNA序列的“一体化”软件
深度思维公司在2020年推出的“阿尔法折叠2”(AlphaFold 2),成功破解了一个困扰科学界数十年的难题:如何根据蛋白质的氨基酸序列,精确预测其三维架构。这一突破不仅变更了架构生物学研究方法,也促进了新药研发的进程。
相比之下,要理解DNA序列的作用则更加复杂,因为它不像蛋白质那样拥有一个确定的XM外汇开户“正确答案”。这些作用主要体现在DNA对基因陈述的调控上,比如决定基因什么时候开启或终止,在哪些细胞中发挥作用,以及以何种强度陈述。
如果说蛋白质架构预测是在拼出“零件”的立体模型,那么DNA作用预测就是要理解说明书中每一个符号、注释、开关命令甚至“暗物质”区域的真正含义。其中涉及的数据层级更复杂、关联更普遍,且同一个DNA片段可能在不并且间、不同细胞类别中扮演不同角色,因此建模难度远高于蛋白质。
几十年来,生物学家尝试用各种计算软件来揭示DNA复杂而隐秘的调控机制,但这些模型往往聚焦于单一作用。科学家们渴望一种用于说明DNA序列的“一体化”软件,于是,“阿尔法基因组”应运而生。
据美国趣味工程网站报导称,与以往需在“序列长度”与“预测精度”之间取舍的模型不同,“阿尔法基因组”实现了二者兼得。它既能捕捉长程基因组上下文数据,又能供给碱基层面的精准预测,拓展了疾病生物学、罕见变异研究、合成DNA设计等领域的研究视野。
一次可应对百万个碱基对
据深度思维官网介绍,该模型一次可应对多达100万个碱基对,并预测数千种分子属性,包括基因陈述、剪接模式、蛋白质结合位点和染色质可及性,涵盖多种不同类别的细胞。这是第一次有AI平台能联合建模如此普遍的调控特征。
“阿尔法基因组”训练所用的数据集来自多个曝光的超大规模数据资源。令人惊讶的是,训练一个完整模型仅需4小时,且所需计算资源仅为前代模型的一半。在26项基准测试中,其有24项表现优于或持平于专用模型。
新模型的一大看点是其变异评分平台,能高效对比突变前后的DNA序列,并跨多种生物通路评估其作用。
“阿尔法基因组”还具备剪接位点建模作用,这是第一次有模型能够预测与囊性纤维化、脊髓性肌萎缩等疾病有关的RNA剪接异常。
在合成生物学领域,“阿尔法基因组”可用于设计特定的调控序列,例如仅在神经细胞中激活某些基因,而在肌肉细胞中保持沉默。并且,它也有望用于研究生物效应强烈的罕见遗传变异,如引发孟德尔遗传病的突变。
在一项验证中,研究人员将“阿尔法基因组”软件于先前研究中识别出的某种白血病有关突变。结论,该模型精确预测出,某些非编码区变异会间接激活附近的TAL1致癌基因,这一机制正是T细胞急性淋巴细胞白血病中已知的致病流程。
模型尚不适用于个体诊断
尽管“阿尔法基因组”的表现令人瞩目,但深度思维团队表示,该平台目前仍存在很多限制。它并未设计用于个体基因组解读,也无法像23andMe或临床基因检查那样预测疾病风险或祖源数据。也就是说,该模型不适用于个体诊断或医疗决策。
“阿尔法基因组”目前的训练数据仅限于人类和小鼠,尚未涵盖其他物种,其跨物种适应性尚待验证。并且,它在识别调控元件与远距离靶基因(距离超过10万个碱基)之间关系方面的水平仍较弱,也无法完全建模细胞在不同情形、不同机构中的动态调控机制。
美国冷泉港实验室计算生物学家彼得·库表示:“这些模型往往是在一个固定条件下训练的,但现实中的细胞是动态的,蛋白质水平、DNA化学修饰、转录情形等都会随时间和生态变动,这些变动会显著作用同一段DNA序列的行为。”因此,将来模型需要引入更多“多模态”“多时间尺度”因素,才能更真实地模拟生物流程。