32 火山图与热图进阶：在“差异概览”中讲好“重点故事”

32.1 【导语】万事之源：为何要这样做？

标准的火山图和热图展示了“全局”的差异模式，但一篇优秀的论文需要讲述“重点”故事。图形进阶的本质，是通过添加“信息注释”图层，在全局背景下，高亮和解读那些对你的核心假说最重要的“明星分子”，引导读者的视线，将一张“数据图”升华为一张“叙事图”。这不仅是美化，更是数据叙事能力的体现，是区分“分析员”与“科学家”的关键一步。

32.2 【核心实践】从原理到决策

32.2.1 【火山图进阶：`ggrepel` 智能标签与区域高亮】

32.2.1.1 第一步：标签的科学决策——筛选“值得被讲述”的基因

我们绝不能为图上的每一个点都添加标签。为哪些基因添加标签，本身就是一项科学决策。其决策依据通常包括：1) 统计上最显著的基因（如padj最小的Top 10）；2) 生物学效应最大的基因（如abs(logFC)最大的Top 10）；3) 基于你的先验知识，已知的在该生物学过程中扮演关键角色的“重要基因”。

## 决策：选择最显著的前 10 个基因用于标注
top10_genes <- deg_results %>%
## 按调整后的 p 值升序排序
  arrange(padj) %>%
## 取前 10 行
  slice(1:10)

这段代码利用dplyr，精确地筛选出符合我们决策标准的基因子集，为后续的精准标注做好了准备。

32.2.1.2 第二步：`ggrepel`的精准应用——实现“优雅而不重叠”的标注

直接用geom_text标注，标签会像灾难现场一样堆叠在一起。ggrepel的geom_text_repel()函数是解决此问题的唯一专业方案。

my_volcano_plot +
    geom_text_repel(
        data = top10_genes,
        aes(label = gene_name),
        max.overlaps = Inf,
        box.padding = 0.5
    )

其核心参数决策：max.overlaps = Inf 是一项追求极致清晰的决策，它会指示算法尽可能地避免任何标签重叠。box.padding则用于微调标签文字与引导线之间的距离，是实现最终美学效果的关键。

32.2.1.3 第三步：区域高亮——用颜色和形状讲故事

除了标注单个基因，我们还可以将来自特定通路或基因家族的“基因群”，用不同的颜色或形状高亮出来，以讲述一个更宏大的故事。

## 决策：高亮一个特定的基因家族
## 例如“干扰素”（interferons）
plot_data <- deg_results %>%
  mutate(
    gene_group = case_when(
## 基因名以 IFN 开头归为 IFN 组
      grepl("^IFN", gene_name) ~ "IFN",
## 其余归为 Other
      TRUE ~ "Other"
    )
  )

ggplot(plot_data, ...) +
    geom_point(aes(color = gene_group))

这个决策利用dplyr::case_when()创建了一个新的分组变量，然后将其映射到aes()的color属性上，从而在数万个点的背景中，视觉化地凸显出我们感兴趣的特定基因群。

32.2.2 【热图进阶 (`pheatmap`)：从“信息展示”到“模式验证”】

32.2.2.1 第一步：构建“多维”注释条 (`annotation_col` & `annotation_row`)

为热图添加annotation_col，如同为每一个病人样本，贴上包含多层信息的标签，例如“分组（Treated/Control）”、“年龄（Old/Young）”、“测序批次（Batch1/Batch2）”。

## 决策：为列（样本）创建一个多层注释
sample_anno <- data.frame(
## 样本所属分组
  Group = c("A", "A", "B", "B"),
## 样本所属批次
  Batch = c("1", "2", "1", "2")
)

rownames(sample_anno) <- colnames(matrix)

pheatmap(matrix, annotation_col = sample_anno)

更进一步的决策是，通过annotation_colors参数，为你注释中的每一个变量，手动指定一套与你全文风格统一的、有意义的颜色方案。

32.2.2.2 第二步：用“符号矩阵”实现显著性标记

核心思想：创建一个与你的表达矩阵维度完全相同的矩阵，但其内容不是表达值，而是我们希望展示的“符号”（例如，用*标记padj < 0.01的基因）。

后果驱动：没有这个视觉辅助，读者（和审稿人）将无法直接从热图的颜色深浅变化中，判断出哪些变化是具有高度统计学意义的，哪些可能只是随机波动。这将极大地削弱你热图的说服力。

## 概念性决策代码
## 假设 significance_matrix
## 是一个包含 TRUE/FALSE 的矩阵
symbol_matrix <- ifelse(
## 如果显著则标记“*”，否则为空字符串
  significance_matrix, "*", ""
)


pheatmap(
    expression_matrix,
    display_numbers = symbol_matrix
)

32.3 【认知升维】常见的思维陷阱与对策

32.3.1 【思维陷阱一：“标签混沌”】

试图在火山图上标注过多的基因（通常超过20-30个），即使使用了ggrepel，图表依然会因为信息过载而变得拥挤不堪，失去视觉焦点。

其对策是，必须建立“少即是多”的注释原则。一张图，只讲一个核心故事。你应该只标注那些对你的核心论点最关键的基因。而所有差异基因的完整列表，应当在附表（Supplementary Table）中提供。

32.3.2 【思维陷阱二：“注释信息不匹配”】

在pheatmap中，提供给annotation_col的数据框，其行名与表达矩阵的列名不匹配，或顺序不一致。这是导致程序报错或注释信息错位的最常见原因。

其对策是，提供一个“黄金校验代码”，在运行pheatmap前，强制执行这行检查：

stopifnot(
    all(
        colnames(matrix) == rownames(annotation)
    )
)

这行代码可以前置性地、自动化地捕获这种最常见的低级错误，避免后续无谓的调试。

32.4 【总结与拓展】构建你的思维框架

核心思维框架：可视化进阶 = 默认图形 + 叙事信息图层。你的任务，是像一位电影导演一样，在宏大的场景（全局图）中，通过精准的“特写镜头”（基因标签）、巧妙的“舞台灯光”（区域高亮）和清晰的“背景字幕”（分组注释），来引导你的观众，让他们能够毫不费力地聚焦于你想要讲述的那个核心故事情节。

启发性问题：你完成了一张信息丰富的热图，其中样本按分组（处理/对照）和批次（Batch1/Batch2）进行了注释。在对样本进行层次聚类后，你发现样本首先按照“批次”清晰地聚成了两大簇，然后在每个批次内部，才进一步按照“分组”聚类。这张精心绘制的图，传递了一个关于你数据质量的、什么至关重要的信息？在进行任何下游的统计分析（如差异表达分析）之前，这个“视觉发现”强烈地提示你应该立即采取什么样的补救措施？

探索生命科学前沿，提升实战技能！欢迎微信搜索并加入「生信实战圈」，获取最新技术干货、实战案例与行业动态。点击关注，与同行一起成长！