UMI
UMI,全称是Unique Molecular Identifier,中文意思是“独特分子标识符”。它在单细胞测序(尤其是scRNA-seq)中扮演着纠正定量偏差、实现更精确分子计数的“幕后英雄”角色。
-
UMI是什么?
UMI通常是一段短的(比如6-12个核苷酸)、随机合成的DNA序列。在单细胞实验的早期步骤中,这些UMI会被整合到我们想要研究的分子(比如mRNA)的反转录产物(cDNA)上。
-
UMI是如何被添加的?
在单细胞RNA测序流程中,当细胞裂解后释放出mRNA,这些mRNA会被带有oligo-dT(用于捕获mRNA的polyA尾)、细胞条形码(标记细胞身份)以及UMI的引物捕获。在反转录酶的作用下,当mRNA被逆转录成cDNA时,每一条原始的mRNA分子(理论上)就会在其对应的cDNA拷贝上“随机分配”并连接上一个独特的UMI序列。
-
UMI的核心作用:消除PCR扩增偏好,实现精确计数
这是UMI最重要的功能。在后续的实验步骤中,为了获得足够的DNA量进行测序,我们需要对产生的cDNA进行PCR扩增。然而,PCR扩增过程并非完美均一:
- 扩增偏差 (Amplification Bias):有些cDNA分子可能因为序列特性或其他随机因素,比其他cDNA分子更容易或更有效地被扩增。这意味着,如果一条原始的mRNA分子A被扩增了100次,而另一条原始的mRNA分子B只被扩增了10次,仅仅通过计算测序后A和B的读长数量,我们就会错误地认为细胞中A的原始数量是B的10倍,而实际上它们可能都只有1个原始分子。
UMI如何解决这个问题?
- 因为(理想情况下)每个原始的mRNA分子在反转录时都带上了一个独特的UMI,所以即使经过多轮PCR扩增,所有源自同一个原始mRNA分子的扩增产物(cDNA拷贝)都会共享相同的细胞条形码和相同的UMI。
- 在数据分析时,对于某个特定基因,在某个特定细胞(由细胞条形码确定)中,我们不再是简单地计算所有映射到这个基因的测序读长数量。相反,我们去统计有多少种不同的UMI序列与这个基因的读长相关联。
- 每种不同的UMI就代表了细胞中一个原始的mRNA分子。
举个例子:
假设在细胞X中,对于基因Y,我们有:- 一个原始的mRNA分子,我们称之为 mRNA_Y1。在反转录时,它被打上了一个独特的分子标识符,我们称之为 UMI_A。经过PCR扩增后,可能产生了50个都带有这个UMI_A的cDNA拷贝。
- 细胞X中,基因Y的另一个原始mRNA分子,我们称之为 mRNA_Y2。在反转录时,它被打上了另一个独特的分子标识符,我们称之为 UMI_B。经过PCR扩增后,可能产生了20个都带有这个UMI_B的cDNA拷贝。
在测序和数据分析后:
- 如果我们仅仅计算所有与基因Y相关的测序读长数量,那么我们会得到 50 (来自mRNA_Y1的扩增产物) + 20 (来自mRNA_Y2的扩增产物) = 70条读长。
- 但是,因为我们使用了UMI,我们会去识别这些读长所携带的UMI种类。我们发现,所有这70条读长,实际上只对应着两种不同的UMI序列:UMI_A 和 UMI_B。
因此,尽管总共检测到了70条基因Y的测序读长,但通过识别不同的UMI,我们就知道在细胞X中,基因Y最初实际上只有2个原始的mRNA分子(一个对应UMI_A,另一个对应UMI_B)。
-
更准确的基因表达定量:
通过这种方式,UMI能够帮助我们更准确地估计每个细胞中每个基因的原始转录本数量,从而得到更可靠的基因表达谱。这对于比较不同细胞间或不同条件下基因表达的细微差异至关重要。
总结一下,UMI就像是给每个原始RNA分子在变成cDNA时贴上了一个独一无二的小标签。无论这个分子后来被复制了多少次,通过识别这些独特的小标签,我们就能追溯到最初有多少个原始分子,从而实现更精确的定量。