24 ChIP/ATAC-seq 比对与后处理:比对、过滤与去重
24.1 【导语】万事之源:为何要这样做?
我们必须清晰地认识到,ChIP-seq与ATAC-seq实验所产生的测序Reads,其来源是经过物理或化学方法打断的基因组DNA片段。这些片段是“连续”的,它们在基因组上的序列与其在Read中的序列一一对应,不存在RNA-seq中那种需要跨越内含子的“剪接”问题。因此,我们的比对工具,必须选择为基因组DNA设计的“连续比对”算法,例如BWA或Bowtie2。
然而,比对完成仅仅是第一步。原始的BAM文件中,必然混杂着两种核心的“技术噪音”,它们若不被剔除,将严重干扰后续的生物学信号解读。第一种是“低质量与模糊比对”,例如一条Read由于序列本身的原因,可以几乎同等好地比对到基因组的多个不同位置。第二种是“PCR重复”,这是在文库构建的PCR扩增步骤中,由单个原始DNA片段被反复复制而产生的大量完全相同的Reads。因此,在进行最关键的Peak Calling之前,我们必须对BAM文件进行严格的“过滤”与“去重”,以确保我们最终找到的信号富集峰,是真实生物学事件的体现,而非技术假象的堆砌。
24.2 【核心实践】从原理到决策
24.2.1 【比对工具决策:BWA-MEM】
在众多短Reads基因组比对工具中,BWA-MEM算法是目前公认的最通用、最精准的选择之一,它在比对速度和准确性之间取得了卓越的平衡。
bwa mem -t 8 genome.fa \
sample_R1.fq.gz \
sample_R2.fq.gz | \
samtools view -Sb - > \
sample.bam
这是一条经典的、体现Unix哲学之美的“管道”命令。bwa mem的比对结果(SAM格式)并不会写入硬盘,而是直接通过管道|,实时地“流送”给samtools view命令,后者再将其高效地转换为压缩的BAM格式。这个决策避免了产生巨大且无用的中间SAM文件,极大地提升了效率和磁盘空间利用率。
24.2.2 【过滤决策:samtools view】
原始BAM文件如同未经筛选的矿石,包含了大量杂质。samtools view通过其强大的参数,让我们能够进行一系列复杂的“质量控制”决策。
samtools view -F 1804 -f 2 \
-q 30 -o sample.filtered.bam \
sample.sorted.bam
参数决策剖析: -F 1804:这是一项“排除性”决策。数字1804是多个FLAG(如4, 256, 512, 1024)的加和,它利用位操作符,一次性地过滤掉那些带有“Read未比对上”、“非主要比对”、“PCR或光学重复”等标记的Reads。
-f 2:这是一项“选择性”决策。它强制只保留那些FLAG中包含“双端Reads都正确比对上且方向合理”标记的片段(proper pair)。
-q 30:这是一项关于“比对唯一性”的决策。它会过滤掉所有比对质量值(MAPQ)低于30的Reads。MAPQ值低,通常意味着这条Read能够以相似的质量比对到基因组的多个不同位置。保留MAPQ>=30的Reads,是我们只分析那些能够被高置信度地定位到基因组唯一区域的信号的保证。
24.2.3 【去重决策:Picard MarkDuplicates】
PCR扩增的过程,如同用一台复印机去复印一张珍贵的照片。如果你有一张独特的DNA片段照片,经过10轮PCR(理论上扩增2^10倍),你可能会得到上千张一模一样的复印件。但从信息的角度看,这上千张复印件其实只代表了“一个”原始的生物学信号。Picard MarkDuplicates的作用,就是智能地识别出这些源自同一张“底片”的“复印件”,并将它们标记出来,从而确保在后续的定量分析中,每一个独特的DNA片段只被计算一次。
后果驱动:对于ChIP-seq,如果不进行PCR去重,一个在扩增中被偶然、高度偏好性放大的DNA片段,就可能在BAM文件中形成一个巨大的Reads堆积,从而被下游软件错误地识别为一个极强的Peak。这是一种典型的、由技术引入的假阳性信号。
24.3 【认知升维】常见的思维陷阱与对策
24.3.1 思维陷阱一:ATAC-seq数据过度去重
这是一个高级但至关重要的“零踩坑”知识点。ATAC-seq的实验原理,是利用Tn5转座酶去“攻击”染色质的开放区域。在一个高度开放的区域(例如一个活跃的启动子),成千上万个Tn5分子会独立地、随机地插入。其中,有可能会有两个或多个独立的转座事件,恰好产生了起始和终止坐标完全相同的DNA片段。这些片段虽然序列和坐标相同,但它们代表的是“多个独立”的生物学事件,而非PCR重复。
其对策是,必须明确ATAC-seq分析的“行业标准”:通常不进行严格的PCR去重,或者只进行非常有限的去重。这是因为它与ChIP-seq的去重逻辑存在根本性的区别。在ATAC-seq中,我们更关心一个区域被“攻击”的总次数,而不是有多少“独特”的片段被攻击。
24.3.2 思维陷阱二:过滤与去重的顺序颠倒
新手在构建流程时,可能会先进行去重,再进行质量过滤。这是一个逻辑错误。
其对策是,必须建立一个标准化的处理流程。正确的顺序应该是:先用samtools进行严格的质量过滤,再用Picard对过滤后的高质量Reads进行去重。其逻辑在于,我们必须首先确保BAM文件中留下的都是比对可靠的“精锐部队”,然后再从这些精锐中,识别并合并那些重复的“方阵”。如果顺序颠倒,你可能会因为保留了一组重复Reads中那个质量最差的代表,而在后续的过滤步骤中,错误地将整个信号丢弃。
24.4 【总结与拓展】构建你的思维框架
我们必须将ChIP-seq与ATAC-seq的比对后处理过程,视为一次极其严格的“阅兵筛选”仪式。序列比对,是所有“士兵”(Reads)的入场。samtools的质量过滤,则是严厉的“教官”,负责淘汰掉所有队列不整、装备不良的“不合格士兵”(低质量、模糊比对)。而Picard的去重,则是阅兵的“总指挥”,负责识别出那些重复上报的“方阵”,并将它们合并为一个单位。最终,只有通过层层筛选的、规模更小但战斗力极强的“信号军团”,才有资格进入后续的Peak Calling主战场。
基于此框架,请思考一个更深入的问题:对于某些特定类型的组蛋白修饰(例如,标记活跃启动子和增强子的H3K4me3),其在基因组上的ChIP-seq信号,通常并不会呈现为尖锐的“山峰”(Narrow Peak),而是表现为覆盖数千个碱基的、宽广的“山丘”(Broad Peak)。在这种情况下,你认为我们今天学习的、严格的PCR去重策略,是否仍然完全适用?它可能会对下游识别这些Broad Peak的任务,带来什么样的正面或负面影响?
探索生命科学前沿,提升实战技能!欢迎微信搜索并加入「生信实战圈」,获取最新技术干货、实战案例与行业动态。 点击关注,与同行一起成长!
