?
 
作者:赵广立 来源: 中国科学报 发布光阴:2019/4/4 8:30:11
抉择字号:
科学家找到深度学习基因组学应用的一顶“黑帽子”

 DARTS 的基本框架

研究职员初次将深度学习与贝叶斯假设检验结合,利用深度学习强化RNA可变剪接阐发的精确性。

■本报记者 赵广立

在性命科研领域,常有人说深度学习的基因组学应用好比是“一个盲人在一间黑暗的房子里寻找一顶并不存在的黑色帽子”。言下之意,是遗憾深度学习的基因组学应用并没有给人咱咱们带来太多欣喜。不过,近日宾夕法尼亚大学和费城儿童病院传授邢毅团队的一项研究,找到了如许一顶“黑帽子”。

这项发表在《自然—办法》上的论文效果,提出了一种新的计算框架——DARTS(“利用深度学习强化对RNA-seq的可变剪接阐发”英文的首字母缩写)。该计算框架初次将深度学习与贝叶斯假设检验结合,用于RNA可变剪接阐发。这种结合使得它即使对付测序深度不那么高的样品,也能有用提高RNA-seq定量差异剪接的精确度。

清华大学性命科学学院传授张强锋点评道:“DARTS综合了深度学习和贝叶斯假设检验统计模子的优点,为那些低测序深度的数据供给了更好的做可变剪接阐发的手腕,拓展了传统RNA-seq可变剪接阐发的敏感度和精确度。”

计算基因组学中

一个广受存眷的成就

邢毅等人在上述论文中指出,目前,RNA-seq技术是研究RNA剪接最常用的试验手腕。然而,RNA-seq技术虽然能较好地定量基因表达的结果,但对付差异剪接阐发来说,它依赖于更高的测序深度。而且即便如斯,现有的计算办法还不能较精确地定量低表达基因的剪接变更。因此,为了提高剪接定量的精确性,急需引入新的计算阐发办法。

“可变剪接现象从20世纪70年月被发现后,其基本的科学成就聚焦为可变剪接位点发现、差异阐发、调控元件和网络的发现和构建。RNA-seq 技术的创造,使得体系、定量的可变剪接差异阐发成为可能。”张强锋介绍说,大批测序数据的可变剪接差异阐发必要优越的统计模子和计算对象,因此不停是一个必要高度技能的生物信息学研究课题。

据张强锋介绍,邢毅研究组在针对大批测序数据的可变剪接差异阐发的计算阐发领域深耕多年,已经贡献了多个有影响力的算法和计算对象。该团队针对高通量RNA-seq数据开拓出的用于差异剪接阐发的rMATS等软件,对付测序较深、品格较好的数据集都能获得不错的结果,已在全世界规模内被普遍下载应用。

然而,因为本钱等原因,大批RNA-seq 测序试验计划的测序深度较浅。对付这些数据集,能利用来做差异阐发的可变剪接事件非常有限。

美国卡耐基梅隆大学计算机学院传授马坚也表示,在基因组学中,确切有很多类似的成就——如何在现有数据上对特定的基因组标注(譬如染色质布局、转录因子结合)训练一个机械学习模子并在全新的细胞系中有用预测,已经成为一个计算基因组学中普遍存眷的成就。“DARTS崭新的全体计划理念值得很多其余类似的成就借鉴。”

DARTS计算框架

给出成就谜底

据邢毅研究组这篇发表在《自然—办法》上的论文介绍,DARTS由两部分构成:深度神经网络模块(DNN)和贝叶斯推断模块(BHT)。此中,DNN基于顺式序列特征和样品特异的RNA结合蛋白表达程度特征来预测差异剪接的结果;而BHT则颠末过程整合试验样品测序数据自己和基于深度神经网络的先验概率来推断差异剪接的结果。

研究者在论文中夸大称,与其余计算办法分歧的是,在DARTS计算框架下,DNN不只颠末过程顺式序列特征来预测可变剪接的结果,而且还将样中RNA结合蛋白的表达程度整合进了RNA可变剪接结果的预测中,增长了预测参数的维度。

DARTS的逻辑是,颠末过程DNN对ENCODE和Roadmap数据库中大批RNA-seq结果的深度学习,可以或许或许获得高精度的预测值作为BHT中的贝叶斯先验概率,进而结合详细试验中RNA-seq的结果,来获得加倍精确的差异剪接推断。

在研究实践中,邢毅研究组发现,在低通量RNA-seq文库中,颠末过程应用DNN预测值停止强化阐发后,可以或许或许到达比应用传统办法阐发更高的精确度,而且这种晋升在越低通量的文库中越显著;即使在高通量的RNA-seq文库中,应用DNN预测仍能发如今低表达基因中的可变剪接变更。而在曩昔,这些低表达基因的可变剪接变更在传统阐发办法中往往会被忽略。

也便是说,研究结果证明了DARTS不只晋升了基于RNA-seq办法研究可变剪接的精确性,同时也供给了在低表达基因中研究可变剪接的研究手腕。

解析DARTS:

海量数据训练和新样本特征的综合

“从计算办法计划的战略和概念角度而言,此工作的最大亮点是充足利用海量公有数据如ENCODE,但模子自己又不完全依赖于这些公有数据。”马坚点评道,换言之,DARTS的全体思惟是用深度神经网络从现有海量数据中找出通用的有用信息作为先验,然后用贝叶斯假设检验结合来自样本自己的RNA-seq数据信息,做可变剪接的预测,“这有用综合了海量数据的训练和新样本的分外性”。

马坚解释说,从模子自己的技术角度而言,DARTS有用利用了深度神经网络对异质数据特征的整合,而且全体计算办法的评测和办法都比较“明智而审慎”。他举例说,比如DARTS的深度神经网络部分结合了剪接地位附近的序列信息、进化信息、可变剪接发生的RNA二级布局信息等;同时DARTS还巧妙地利用深度神经网络预测的结果来作为贝叶斯假设检验中的先验数据,结合样本自己的RNA-seq序列信息实现为了更靠得住的可变剪接预测。

马坚将基因组学形容为一个“存在太多未知和容易迷失的领域”,因此他认为,有用深度学习的应用必要有壮大的领域知识作为支撑。而DARTS工作恰恰表示了邢毅试验室多年以来对可变剪接机理的研究和计算办法立异的积聚。“由深入的领域知识和经验作为指点,是一个有用利用分歧计算模子和深度学习办法的优势实现基因组学新发现的经典工作。”

张强锋也直指“巧妙利用公开的RNA-seq大数据样本、应用深度神经网络学习取得了外显子差异剪接的贝叶斯假设检验统计模子的精确先验概率散布”是DARTS在办法上最大的特色。同时他也表示,该计算框架应用深度神经网络颠末过程顺式序列和反式因子RBP表达丰度停止差异剪接预测的思绪也值得借鉴。

别的,马坚认为论文中其余对付机械学习办法的评测同样可圈可点。例如,对常见的正负样本不均衡的成就对模子训练和评测可能带来的偏差有过细的节制。另外,该计算框架对模子中每个模块的贡献也做了详细阐发。

“跟着RNA-seq数据的赓续积聚,相信DARTS会有普遍的应用,分外是在RNA-seq测序深度并不高的试验环境下。”马坚说,这个计算对象对进一步懂得可变剪接在分歧细胞状况下的调控机理有深远的意义。

相干论文信息:DOI:https://doi.org/10.1038/s41592-019-0351-9

《中国科学报》 (2019-04-04 第7版 信息技术)
 
 打印  发E-mail给: 
    
 
如下评论只代表网友小我概念,不代表华人科技资讯网概念。 
相干新闻 相干论文
?
图片新闻
合肥大科学中央:光耀“科学城” 长臂浑元龙:一次意想不到的蓝天之旅
阿根廷科学家抗议削减预算 脸书为社会学家供给数据
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文
 
友情链接:九尾餐饮管理网  中国历史知识网  九三农垦网  速诚物流网  亚海展会网  跑步机维修网  手机皮套生产厂家  社区服务网  七叶植物网  塑料在线网