除了引用最多的qiime流程,u/vsearch(usearch是一人一已之力单挑学术界)和mothur(用的人越来越少的感觉),最近又发现了一两个流程,一并分享给大家。
一个引用量刚刚突破一百的流程,难得的是还在继续更新中,同样的先进的去噪代替聚类,哪天也测试下效果。最初知道这个流程是hybyrid-denovo流程提到了它也可以使用未成功拼接的序列进行分析。以下内容基本翻译自其官网:
同时是目前可用的最快的流程。这样,任何研究人员都可以轻松地在笔记本电脑上分析hiSeq扩增子数据。
LotuS面向需要简单流程的科学家和生物信息学家,该流程可以简化为以非常快的速度创建OTU和分类单元丰度表的核心功能(例如,在笔记本电脑上处理8GB 16S miSeq运行大约需要30分钟)。LotuS不包括样本的数值分析,而是我们设计了LotuS输出,可以轻松地将它们集成到现有的工作流程中,例如使用R,QIIME / mothur或Matlab等统计编程语言。
sdm是LotuS的一部分,但可以单独用于多路分解或仅用于质量过滤器序列(例如,也用于装配体等)。包括几个质量过滤测试,并且可以基于累积的错误率或低于阈值的质量窗口来截断序列。它用C ++实现并针对速度进行了优化。
如果您想了解有关该算法的更多详细信息,请参见**LotuS出版物**。
另请参阅包括ITS数据的比较论文。
2020年1月24日
LotuS 1.62.1 / sdm 1.50:更新了autoInstall.pl以集成SLV 138版本。我们的测试表明,该数据库在OTU分配中更经常达到物种水平。
怎么样,有没有兴趣试试这个流程呀?
最初知道这个流程是在ubiome的那篇论文里,可惜ubiome公司却倒闭了,一个还是比较有技术实力的公司,最后残值少的可怜。我也发现国内多家做消费级肠道微生物检测的公司也是一直不温不火,16S测序检测的几家公司的产品已经在各大电商平台纷纷下架,不清楚是产品的卖点不足,还是大众的接受度不高呢?
也是一个最近还在更新的算法,以下内容基本来自swarm的gihub-readme:
一种强大,快速的聚类方法,用于基于扩增子的研究
群的目的是提供一种新颖的聚类算法,用于处理大量扩增子。传统聚类算法的结果在很大程度上取决于输入顺序,并且依赖于任意全局聚类阈值。群体结果对输入顺序的变化具有弹性,并依靠小的局部链接阈值d,代表两个扩增子之间最大差异数。群形成稳定的高分辨率簇,并具有很高的生物学信息产量。
为了帮助用户,我们描述了一个完整的管道, 该管道 从原始fastq文件开始,与swarm集群并生成过滤后的OTU表。
swarm 3.0引入了:
请注意:
swarm 2.0引入了与swarm 1.0相比的一些新颖性和改进:
-w
),swarm是一种单链接聚类方法,与其他聚类方法有一些表面上的相似性(例如,Huse等人,2010年)。swarm的新颖之处在于其迭代增长过程以及使用序列丰度值来描述OTU。群体正确地描绘了大的OTU(高召回率),并且可以区分中心之间只有两个差异的OTU(高精度)。
swarm使用局部聚类阈值(d),而不像其他算法那样使用全局聚类阈值。用户可能会尝试将97%的全局相似性阈值转换为许多差异,并使用较大的d值。这不是对群的正确使用。群产生的OTU自然大于d,测试表明,使用默认d值(d = 1)在大多数数据集上均能获得良好的结果。使用新的严格选件可以进一步提高结果的质量。对于长扩增子或浅测序,可以使用更高的d值(d = 2或d = 3,很少使用更多)。
群可产生高分辨率结果,尤其是在使用d = 1 时。但是,在某些罕见条件下,给定标记可能发展得不够快,无法区分分子分类群。如果涉及大量序列,则群可能会形成一个半径较大的OTU,而经典的聚类方法将随机穿过,从而在阈值97%下降的地方进行描绘。因此,请记住,分子标记也有局限性。
写在最后的小感想:
打个不恰当的比方,16S只是一个粗略的“人口普查”,那么这个人是“好人”还是“坏人”,到底怎样就不得而知了,这就需要其他组学了。不得不说随着测序成本的降低,百元宏基因组时代的到来,一个样本几十块的16S正逐渐走向被淘汰的边缘,至少测个全长吧。可是pacbio不争气(成本降不下来),nanopore除了走pacbio那种一个序列测多次还是不能达到足够准确,当然更高准确度的R10版本芯片已经开始使用,期待有好消息传来。