查看原文
其他

The Innovation | MicrobiotaProcess: 深度挖掘微生物组学数据的综合R包

Shuangbin Xu TheInnovation创新 2023-04-01

MicrobiotaProcess定义了MPSE数据结构以整合微生物组学上游输出的多种不同格式数据以及下游的输出数据,并配合整洁语法框架(tidy framework)开发的分析功能(如数据过滤与标准化,系统进化转换及差异物种鉴定与可视化等),为微生物组学数据的下游分析提供了统一且简洁的分析语法,促进了微生物组学数据的管理与可重复分析。该软件当前支持16S/ITS/18S、宏基因组、宏转录组以及相关生态学数据的处理与分析。


图1 图文摘要


微生物组学数据经上游生信分析产生多种不同格式的文件,且当前下游分析复杂,常需使用不同编程语言的平台或者不同语法的软件,缺乏灵活、全面、统一且用户友好的语法来简化微生物组学的下游分析。为此,我们开发了MicrobiotaProcess。首先,我们定义了MPSE数据结构(图2),该数据结构是在Bioconductor的核心结构SummarizedExperiment上进行构建的,以存储原始和标准化后的特征丰度表,样本信息以及特征信息等数据,同时它也纳入了我们课题组定义的treedata数据结构以存储系统发育树,物种注释信息以及相关的统计信息(如差异统计p值,丰度信息等),以及Bioconductor的另一个核心结构XStringSet以存储代表序列信息,并且下游的相关统计结果也可被整合进去。当然,这些相应的组件都可通过相应的提取函数(以mp_extract_开头)进行提取。总之,通过MPSE数据结构,与微生物组学相关的数据与结果都可以存储在单个实例中,从而改进下游的数据探索,促进数据共享与数据可重复性分析。

图2 MPSE数据结构剖析图

由于微生物组上游不同流程的输出结果格式差异较大,如何解析这些不同格式的数据结果往往是分析人员面临的第一个难题,为方便分析人员进行数据导入,我们开发了相应的导入函数,同时也提供了as.MPSE以方便用户将目前常用的一些R对象(如phyloseq, biom, SummarizedExperiment, TreeSummarizedExperiment)转成MPSE数据结构,并且提供MPSE同名函数以帮助用户从头构建(图3A)。这些功能可以方便用户更好地衔接上游分析结果,并解决下游基于MPSE结构的分析需求,同时也使得MicrobiotaProcess支持16S/ITS/18S等扩增子数据、宏基因组以及宏转录组数据。

图3 MicrobiotaProcess的整体设计框架,功能以及与其他软件的互通性


为促进基于MPSE结构的微生物组数据的操作与探索,我们基于tidy framework框架开发统一简洁的分析功能,为方便分析人员理解,这些分析功能主要以mp_开头,加一个动词以及相应可解释性的名词组成。我们也进一步拓展了dplyr软件包,使得用户可方便使用熟悉的dplyr动词进行自由探索。通过这种统一简洁的方式,MicrobiotaProcess使微生物组数据转换与分析变得灵活自由,并且可使用管道符(%>% 或者 |>)进行自由组合搭配,让用户能够高效轻松地构建可读性强且可重复的工作流程来分析微生物组等生态学数据(图3)。

数据可视化是探索和解释微生物组学数据的一种重要方法。为方便用户快速呈现不同数据整合的清晰、有意义的可视化结果,进而为相关的生物学问题探索提供帮助,我们基于ggplot2和自己开发的ggtree与ggtreeExtra软件包开发了相应的可视化功能,使可视化结果也可变成ggplot2或者ggtree对象,方便用户使用熟悉的ggplot2语法进行自定义修改与探索,促进数据的可重复使用。另外,我们也开发了left_join接口,方便用户将外部数据(如其他软件分析结果)整合到MPSE数据结构中,再进行探索与可视化(图4)。

图4 使用MicrobiotaProcess分析16s数据的可视化结果


总结与展望


微生物组学技术已成为探索微生物群与宿主或环境之间关系的一种常用方法。数据探索分析是其关键步骤之一,下游异构数据的整合以及可重复性分析尤为重要。MicrobiotaProcess定义的MPSE数据结构可整合多种类型的输入数据与结果数据,基于此,我们开发了统一且简洁的语法分析功能模块,随着微生物组数据分析方法的提出与更新,我们将持续维护并更新该软件包,以助力研究者更为高效、可重复地探索微生物组学数据。




责任编辑


叶 足    中国科学院大学附属肿瘤医院

孙 晶    中国石油大学(北京)




扫二维码|查看原文


原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00016-4

本文内容来自Cell Press合作期刊The Innovation第四卷第二期以Article发表的“MicrobiotaProcess: A comprehensive R package for deep mining microbiome” (投稿: 2022-08-19;接收: 2023-01-30;在线刊出: 2023-02-02)。


DOI: https://doi.org/10.1016/j.xinn.2023.100388


引用格式:Xu S., Zhan L., Tang W., et al. (2022). MicrobiotaProcess: A comprehensive R package for deep mining microbiome. The Innovation. 4(2),100388.



作者简介


余光创,南方医科大学基础医学院生物信息学系主任、教授、博导,一直专注于生物信息学方法工具开发及应用,在系统发育、组学数据分析和数据可视化上开发了多款广受同行认可的生物信息学工具。在Molecular Biology and Evolution, Methods in Ecology and Evolution, Briefings in Bioinformatics等学术期刊上发表论文40余篇,其中有9篇ESI高被引论文,并入选爱思唯尔2020年和2021年中国高被引学者。

课题组网站:http://yulab-smu.top




往期推荐

_

clusterProfiler:聚焦海量组学数据核心生物学意义

► 点击阅读

_

胚胎干细胞分化的重要临界点及关键转录因子

► 点击阅读

_

神经髓鞘脂质-神经信息传递的马其顿防线

► 点击阅读

_

单细胞新技术与应用


► 点击阅读

_

二维细胞牵引力测量技术的持续发展


► 点击阅读

_

单细胞测序技术促进新冠病毒研究


► 点击阅读

_

“器官”芯片到”患者”芯片


► 点击阅读



期刊简介



扫二维码 | 关注期刊官微


The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球50个国家;已被116个国家作者引用;每期1/4-1/3通讯作者来自海外。目前有195位编委会成员,来自21个国家;50%编委来自海外;包含1位诺贝尔奖获得者,33位各国院士;领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI等数据库收录。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。


期刊官网1(Owner):

www.the-innovation.org

期刊官网2(Publisher):

www.cell.com/the-innovation/home

期刊投稿(Submission):

www.editorialmanager.com/the-innovation

商务合作(Marketing):

marketing@the-innovation.org



Logo|期刊标识

See the unseen & change the unchanged

创新是一扇门,我们探索未知;  

创新是一道光,我们脑洞大开;  

创新是一本书,我们期待惊喜;  

创新是一个“1”,我们一路同行。



第4卷第1期

第3卷第6期

第3卷第5期

第3卷第4期

第3卷第3期

第3卷第2期

第3卷第1期

第2卷第4期

第2卷第3期

第2卷第2期

第2卷第1期

第1卷第3期

第1卷第2期

第1卷第1期



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存