16S流程知多少？

时间 2021-01-14 标签生物信息肠道微生物 16

除了引用最多的qiime流程，u/vsearch（usearch是一人一已之力单挑学术界）和mothur（用的人越来越少的感觉），最近又发现了一两个流程，一并分享给大家。

一、lotus:http://psbweb05.psb.ugent.be/lotus/

一个引用量刚刚突破一百的流程，难得的是还在继续更新中，同样的先进的去噪代替聚类，哪天也测试下效果。最初知道这个流程是hybyrid-denovo流程提到了它也可以使用未成功拼接的序列进行分析。以下内容基本翻译自其官网:

LotuS提供完整的轻量级16S / 18S / ITS流程

多路分解并过滤fasta或fastq序列
去噪，将嵌合序列和簇序列去除为非常高质量的OTU，其性能与mothur / dada2相似
使用5种以上的特殊通用数据库或统计算法确定每个OTU的分类起源
以.txt或.biom格式构建OTU，属，家族，类，顺序和门类丰度表
重建OTU系统树

同时是目前可用的最快的流程。这样，任何研究人员都可以轻松地在笔记本电脑上分析hiSeq扩增子数据。
LotuS面向需要简单流程的科学家和生物信息学家，该流程可以简化为以非常快的速度创建OTU和分类单元丰度表的核心功能（例如，在笔记本电脑上处理8GB 16S miSeq运行大约需要30分钟）。LotuS不包括样本的数值分析，而是我们设计了LotuS输出，可以轻松地将它们集成到现有的工作流程中，例如使用R，QIIME / mothur或Matlab等统计编程语言。
sdm是LotuS的一部分，但可以单独用于多路分解或仅用于质量过滤器序列（例如，也用于装配体等）。包括几个质量过滤测试，并且可以基于累积的错误率或低于阈值的质量窗口来截断序列。它用C ++实现并针对速度进行了优化。

LOTUS的优势

使用安装脚本轻松安装和更新流程，无需修改系统变量。一个命令执行流程。
快：〜2分钟（454）；MiSeq配对末端约45分钟（每个运行一个完整的音序器）。
OTU 的最先进的嵌合体检查和去噪，同时保留了高质量的全长读物，用于分类学分类和系统发育重建。
更多：与其他流程相比，您可以从序列中检索多达19％的读数。
多功能：可与ITS / SSU / LSU扩增子一起使用，具有3种不同的簇算法，默认情况下有8种不同的方法为OTU分配分类法-所有方法均在标志中进行设置。
标准化：与常见的数值生态软件直接集成。

如果您想了解有关该算法的更多详细信息，请参见**LotuS出版物**。
另请参阅包括ITS数据的比较论文。

LOTUS自发布以来的发展

highmem模式，适用于小型数据集，速度快100％，适用于大型数据集，速度快1000％
从集群直接映射到OTU成员资格
减少sdm IO和更可靠的格式转换
使用概率过滤器进行更严格的质量过滤
更多分类分配选项（utax，几个新数据库）
对现有子例程，输出和日志文件的各种较小改进
集成替代更快的映射器：lambda
两种可供选择的OTU聚类补充道：群为高清集群和一个在该领域站在经典：CD-命中
支持LSU和ITS扩增子，并具有针对这些扩增子的特定质量控制（例如ITSx）
PacBio支持
多个数据库，无论是常规数据库（RDP，Silva，greengenes）还是更具体的数据库（对于真菌，为UNITE；对于单细胞Protists，为PR2；对于人肠，是HITdb；对于蜂肠，是beeTax），并且支持自定义用户数据库。

二、swarm

最初知道这个流程是在ubiome的那篇论文里，可惜ubiome公司却倒闭了，一个还是比较有技术实力的公司，最后残值少的可怜。我也发现国内多家做消费级肠道微生物检测的公司也是一直不温不火，16S测序检测的几家公司的产品已经在各大电商平台纷纷下架，不清楚是产品的卖点不足，还是大众的接受度不高呢？

也是一个最近还在更新的算法，以下内容基本来自swarm的gihub-readme：

一种强大，快速的聚类方法，用于基于扩增子的研究

群的目的是提供一种新颖的聚类算法，用于处理大量扩增子。传统聚类算法的结果在很大程度上取决于输入顺序，并且依赖于任意全局聚类阈值。群体结果对输入顺序的变化具有弹性，并依靠小的局部链接阈值d，代表两个扩增子之间最大差异数。群形成稳定的高分辨率簇，并具有很高的生物学信息产量。

为了帮助用户，我们描述了一个完整的管道，该管道从原始fastq文件开始，与swarm集群并生成过滤后的OTU表。

swarm 3.0引入了：

更快的默认算法，
减少内存占用，
Windows x86-64，GNU / Linux ARM 64和GNU / Linux POWER8的二进制文件，
经过更新，强化和全面测试的代码。

请注意：

现在必须对输入序列进行严格的重复删除，
–seeds选项（-w）现在输出结果，该结果按递减的顺序排序，然后按顺序标签的字母顺序排序。

swarm 2.0引入了与swarm 1.0相比的一些新颖性和改进：

内置的中断阶段现在可以自动执行，
有可能以fasta格式输出OTU代表（选项 -w），
默认情况下，d = 1（线性时间复杂度）现在使用的快速算法，
一个名为fastidious的新选项，可以优化d = 1的结果并减少小型OTU的数量。

常见的误解

swarm是一种单链接聚类方法，与其他聚类方法有一些表面上的相似性（例如，Huse等人，2010年）。swarm的新颖之处在于其迭代增长过程以及使用序列丰度值来描述OTU。群体正确地描绘了大的OTU（高召回率），并且可以区分中心之间只有两个差异的OTU（高精度）。

swarm使用局部聚类阈值（d），而不像其他算法那样使用全局聚类阈值。用户可能会尝试将97％的全局相似性阈值转换为许多差异，并使用较大的d值。这不是对群的正确使用。群产生的OTU自然大于d，测试表明，使用默认d值（d = 1）在大多数数据集上均能获得良好的结果。使用新的严格选件可以进一步提高结果的质量。对于长扩增子或浅测序，可以使用更高的d值（d = 2或d = 3，很少使用更多）。

群可产生高分辨率结果，尤其是在使用d = 1 时。但是，在某些罕见条件下，给定标记可能发展得不够快，无法区分分子分类群。如果涉及大量序列，则群可能会形成一个半径较大的OTU，而经典的聚类方法将随机穿过，从而在阈值97％下降的地方进行描绘。因此，请记住，分子标记也有局限性。

写在最后的小感想：

打个不恰当的比方，16S只是一个粗略的“人口普查”，那么这个人是“好人”还是“坏人”，到底怎样就不得而知了，这就需要其他组学了。不得不说随着测序成本的降低，百元宏基因组时代的到来，一个样本几十块的16S正逐渐走向被淘汰的边缘，至少测个全长吧。可是pacbio不争气（成本降不下来），nanopore除了走pacbio那种一个序列测多次还是不能达到足够准确，当然更高准确度的R10版本芯片已经开始使用，期待有好消息传来。