“整合”不同于“合并”(merge)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“整合”不同于“合并”(merge)相关的知识,希望对你有一定的参考价值。

参考技术A Seurat V3 一度被认为是整合(Integrate,CCA+MNN)不同RNA数据集的标杆工具,在其文章Comprehensive Integration of Single-Cell Data中提到:Seurat v3引入了集成多个单细胞数据集的新方法。这些方法的目的是识别存在于不同数据集的共享的细胞状态,即使它们是从不同的个体、实验条件、技术平台甚至物种,用到的函数是FindIntegrationAnchors。业内有不少拿它和去批次的工具在一起做benchmark,其实这不是一回事。强调,整合与批次不是一回事。在V4 中整合不同的RNA数据集你依然可以用‘FindIntegrationAnchors’。在V4的WNN中也有一个“整合”,这里的整合多为多模态数据之间的整合,用到的函数FindMultiModalNeighbors。可见,这个函数在v3中对应的位置应该是FindNeighbors,即构建细胞间的图结构用的部分。

然后,“整合”也不同于“合并”(merge),合并一般是在整合的前面,先把不同的dataset合并到一起看数据的最初概览,以判断需不需要整合或其他。整合这个概念是单细胞数据分析中继降维之后第二个容易语义混淆的概念。

问题:

After integration, which Assay should I use for differential expression testing?

首先,做差异分析用到的数据是integration之前的RNA

We recommend running your differential expression tests on the original / unintegrated data. By default this is stored in the RNA Assay. The integration procedure inherently introduces dependencies between data points. This violates the assumptions of the statistical tests used for differential expression.

原文链接

以上是关于“整合”不同于“合并”(merge)的主要内容,如果未能解决你的问题,请参考以下文章

C#中如何将好几个 datatable 的信息整合到一个datatable里?或许不是简单的合并!!在线等!!30分悬赏!

merge和rebase的区别

机器学习数据整合+pandas方法astypemergedropto_numericconcat等

Pandas中DataFrame数据合并连接(concatmergejoin)之merge

Pandas-多表操作

IDEA如何整合Git?