18  RNA-seq 序列比对:理解“跨外显子比对”的第一性原理

18.1 【导语】万事之源:为何要这样做?

首先,我们必须理解真核生物基因组的一个根本特征:基因并非是连续分布的,其编码序列(外显子)被非编码序列(内含子)所分隔。在转录后,细胞内的剪接体(Spliceosome)会像一位精准的影片剪辑师,将前体mRNA中的内含子序列精确切除,并将外显子拼接在一起,形成成熟的mRNA。

这一生物学事实直接导致了RNA-seq比对的核心挑战:一条源自成熟mRNA的测序Read,有极高的可能性正好跨越了两个或多个外显子的连接处。如果此时我们使用为基因组DNA设计的“连续比对”工具(如BWA),这些“跨剪接位点”的Reads将因为无法在参考基因组上找到连续的匹配区域而被判定为无法比对,从而被丢弃。因此,RNA-seq比对的本质,就是必须利用“剪接感知型”(splice-aware)的比对算法,来系统性地解决“将连续的测序Reads,准确地映射回参考基因组上不连续的外显子区域”这一核心生物学挑战。

18.2 【核心实践】从原理到决策

18.2.1 【工具选择决策:HISAT2 vs. STAR

在剪接感知型比对工具中,HISAT2STAR是目前应用最广泛的两种。HISAT2以其极快的比对速度和相对较小的内存占用而著称,非常适合新手入门和在计算资源有限的环境下进行常规分析。STAR则在发现新的或复杂的剪接位点上更常被使用,但代价是内存需求更大;而HISAT2在资源有限的情况下仍能保持较高精度。我们的决策是,从HISAT2入手,建立一套完整、高效、可靠的比对流程。

18.2.2 【第一步:构建或下载基因组索引】

在进行比对之前,必须先对参考基因组FASTA文件进行“索引”。我们可以用一个实验室隐喻来理解:直接在数亿字的巨著(参考基因组)中查找一个短序列,相当于进行一次全文搜索,其过程将耗时巨大。基因组索引,则如同为这本巨著提前创建了一套极其详细的“偏旁部首检字表”。比对软件可以利用这个检字表,在几分钟内完成全基因组的定位。

对于人类、小鼠等常用模式生物,最高效、最不易出错的决策,是直接从HISAT2的官方网站下载由专家构建好的、预编译的索引文件。

18.2.3 【第二步:HISAT2 核心参数决策】

以下是一条典型的HISAT2双端比对命令,其中每一个参数都是一项深思熟虑的决策。

hisat2 -p 8 --dta \
    -x /path/to/genome_index \
    -1 sample_R1.cleaned.fq.gz \
    -2 sample_R2.cleaned.fq.gz \
    -S output/sample.sam

-p 8:这是一项计算资源分配决策,意为“调用8个CPU核心来并行执行比对任务”,以大幅缩短运行时间。

--dta:这是一个“着眼于下游兼容性”的关键决策。它会指示HISAT2在输出文件中,包含一些额外的信息,这些信息是下游进行转录本拼接与丰度估算的软件(如StringTie)所必需的。即便你本次分析流程只进行基因水平的定量,养成添加此参数的习惯,也能确保你的比对结果对未来可能的分析具有最大的兼容性。

-x, -1, -2, -S:这是一条完整的“实验操作指令”,它精确地定义了:使用哪个“检字表”(-x genome_index),处理哪个“R1样品”(-1 sample_R1...),以及其配对的“R2样品”(-2 sample_R2...),并将所有的原始比对记录,写入名为sample.sam的“实验记录本”(-S sample.sam)。

18.2.4 【第三步:解读 HISAT2 的比对日志】

HISAT2运行结束后,会在屏幕上打印一份比对总结报告。这是对比对质量进行诊断的第一份、也是最重要的文件。

核心诊断指标:日志末尾的overall alignment rate(总比对率)。

结果诊断:对于一个高质量的人类或小鼠bulk RNA-seq实验,总比对率通常应在70%到90%以上。如果你的比对率显著低于60%,这便是一个强烈的“红灯”信号。你需要立刻停下后续分析,回头排查可能的原因,包括:样本中是否存在物种污染、参考基因组的版本是否与物种完全匹配、原始测序数据的质量是否极差,或是上游的接头去除步骤是否彻底。需要注意的是,对于单细胞RNA-seq等技术上更为复杂的样本,由于起始RNA量极低等原因,比对率可能天然偏低,这是技术本身的特性,不一定表示实验失败。

18.3 【认知升维】常见的思维陷阱与对策

18.3.1 思维陷阱一:用DNA比对工具(如BWA)做RNA-seq比对

这是一个概念性的、根本性的错误。其直接后果是,数以百万计的、跨越外显子-外显子连接点的Reads,因为无法在基因组上找到连续匹配,而被BWA等工具错误地丢弃。这将导致基因(尤其是那些外显子数量多、内含子长的基因)的表达水平被严重低估,从而得出完全错误的生物学结论。

其对策是,必须通过清晰的图示,在脑海中建立一个不可动摇的心智模型:一条跨越两个外显子的Read,对于BWA是“无法比对”的,而对于HISAT2则是“一个标准的可比对事件”。

18.3.2 思维陷阱二:参考基因组与注释文件“版本不匹配”

在后续的定量分析中,我们需要使用基因注释(GTF/GFF)文件。新手常犯的错误是,使用了GRCh38版本的基因组FASTA文件进行比对,却在定量时搭配了一个GRCh37版本的基因注释GTF文件。

其对策是,必须将特定版本的基因组FASTA文件和其对应的GTF注释文件,视为一套不可分割的“配套试剂”。在下载和管理这些文件时,所有文件名中都必须包含明确的版本号(如GRCh38.p13),并在你的分析记录中清晰地注明你所使用的版本。

18.4 【总结与拓展】构建你的思维框架

我们必须将RNA-seq比对的过程,视为一次精密的“分子侦探”工作。你所使用的算法(HISAT2STAR),其角色不仅仅是找到每一条Read来自基因组的哪个“街区”(基因),更重要的是,它还需要通过复杂的算法,精确地推断出这条Read具体走过了哪几条“小巷”(外显子),以及这些小巷之间是如何被“拼接”起来的(剪接位点)。

基于此框架,请思考一个前沿的启发性问题:在癌症基因组学的研究中,一个重要的目标是检测“融合基因”。一个典型的融合基因事件,会导致其转录出的mRNA,其一端序列来自A基因,而另一端序列则来自B基因(这两个基因甚至可能位于不同的染色体上)。你认为,像HISAT2这样的标准剪接感知型比对工具,能够有效地发现这类跨基因、跨染色体的融合事件吗?如果不能,你认为一个专门为“融合基因检测”而设计的分析工具,其核心的比对算法思想,应该在HISAT2的基础之上,做出什么样的根本性改进?


探索生命科学前沿,提升实战技能!欢迎微信搜索并加入「生信实战圈」,获取最新技术干货、实战案例与行业动态。 点击关注,与同行一起成长!