DeepMind AI用人工智能猜测基因表达序列

2023年 6月 11日 作者 gong2022 0

根据 transformer,deepmind新的 enformer 架构经过前进猜测 dna 序列如何影响基因表达的才能来推进基因研讨。
当人类基因组方案成功制造了人类基因组的 dna 序列后,世界研讨界对非常好地晓得影响人类安康和打开的遗传指令的机缘感到振奋。dna 带着抉择悉数的遗传信息,从双眼颜色到对某些疾病的易理性。人体中大约 20,000 个称为基因的 dna 有些包富含关蛋白质氨基酸序列的阐明,这些蛋白质在deepmind的细胞中实施许多根柢功用。然

而,这些基因只占基因组得不到2%。其他的碱基对——占基因组 30 亿个“字母”中的 98%——被称为“非编码”,包括关于基因大约在人体中何时何地发生或表达得不太简略了解的阐明。

今日 nature methods 宣告了“经过联系长程彼此作用从序列中进行有用的基因表达猜测”(初度在biorxiv上作为预印本共享),其间deepmind与calico的 alphabet 火伴协作,引入了一种名为 enformer 的神经网络架构,该架构致使大大前进了从 dna 序列猜测基因表达的精确性。为了进一步研讨疾病中的基因调控和因果要素,deepmind还在此处揭露供给了deepmind的模型及其对常见遗传变异的初步猜测。
早年关于基因表达的作业一般运用卷积神经网络作为根柢构建块,但它们在仿照远端增强子对基因表达的影响方面的捆绑性阻止了它们的精确性和使用。deepmind开始的探究依靠于basenji2,它可以从 40,000 个碱基对得相对较长的 dna 序列中猜测调度活性。受这项作业的启示,以及调控 dna 元素可以影响更远间隔表达的常识,deepmide看到需要进行根柢的架构改动来捕获长序列。
deepmind开发了一种根据transformers的新模型,在天然言语处置中很常见,以使用可以联系更多 dna 上下文的自我留心计制。因为 transformers 是查看长文本期间的抱负选择,因而deepmiand 对它们进行了改造,以“读取”许多拓宽的 dna 序列。经过有用地处置序列以思考比早年办法的长度跨越 5 倍(即 200,000 个碱基对)的间隔的彼此作用,deepmind的架构可以仿照称为增强子的重要调控元件对 dna 序列中更远间隔的基因表达的影响.

enformer 被练习来猜测功用基因组数据,包括来自输入 dna 的 200,000 个碱基对的基因表达。上面的示例包括 5,000 多个可以的基因组轨迹中的三个。经过运用运用留心力搜集整个序列的信

息的变换器模块,与早年的模型比较,deepmind可以有用地思考更长的输入序列。
为了非常好地了解 enformer 如何说明 dna 序列以得出更精确的猜测,deepmind运用奉献分数来杰出输入序列的哪些有些对猜测影响最大。与生物学直觉相匹配,deepmind调查到,即便位于间隔基因跨越 50,000 个碱基对的方位,该模型也会重视增强子。猜测哪些增强子调度哪些基因仍然是基因组学中没有处置的首要疑问,因而deepmind很高兴看到 enformer 的奉献分数与专门为此使命开发的现有办法(运用实验数据作为输入)恰当。enformer 还晓得了绝缘体元件,它将 dna 的两个独立调度区域分隔。

因为更广大的感触野,即便在间隔基因跨越 20,000 个碱基对的间隔处,enformer 也会重视称为增强子(灰色框)的有关调控 dna 区域(以蓝色闪现)。
尽管如今可以无缺地研讨生物体的 dna,但需要凌乱的实验来晓得基因组。尽管进行了无量的实验尽力,但绝大大都 dna 对基因表达的控制仍然是个谜。凭仗人工智能,deepmind可以探究在基因组中寻找方法的新可以性,并供给有关序列改变的机械假定。与拼写查看器类似,enformer 有些了解 dna 序列的词汇,因而可以杰出闪现可致使使基因表达改动的修改。
这种新模型的首要使用是猜测 dna 字母的哪些改变(也称为遗传变异)会改动基因的表达。与之前的模型比较,enformer 在猜测变异对基因表达的影响方面要精确得多,不管是在天然遗传变异的情况下,仍是在改动重要调控序列的组成变异的情况下。这一特性关于说明经过全基因组相关研讨获得的越来越多的疾病有关变异非常有用。与凌乱遗传疾病有关的变异首要位于基因组的非编码区域,可以经过改动基因表达致使疾病发生。但因为变异之间的内在有关性,许多这些与疾病有关的变异只是假有关而不是因果联络。

位于免疫反应基因 nlrc5 中的变体 rs11644125 与较低水平的单核细胞和淋巴细胞白细胞有关。经过体系的骤变环绕变体的每个方位并猜测 nlrc5 基因表达的成果改变(闪现为字母高度),deepmind调查到该变体致使 nlrc5 的全体较低表达并调度称为 sp1 的转录因子的已知联系基序。因而,enformer 的猜测标明,因为 sp1 联系遭到烦扰,该变体对白细胞计数的影响不和的生物学机制是降低 nlrc5 基因表达。
deepmind还远未处置人类基因组中存在的无法说明的疑团,但 enformer 有了解基因组序列的凌乱性方面向前跨进了一步。假定您有快乐喜爱运用 ai 来探究根柢细胞进程的作业原理、它们如何在 dna 序列中编码,以及如何构建新体系来推进基因组学和deepmiand 对疾病的了解,deepmind正在招聘. deepmind还等待扩展与其他盼望探究核算模型的研讨人员和组织的协作,以协助处置基因组学中心的翻开性疑问。