跳转到内容

表格与公式

对“可读的 Markdown”来说,最难的是两类内容:表格与公式。它们往往决定了文档是否真的可用于检索与下游处理。

对 Markdown 来说,最稳定的目标是把表格还原成“行 × 列”的结构,避免错行、合并单元格丢失导致语义断裂。

当你发现表格错行时,先判断表格来源:

  • 文本表格:通常结构更稳定
  • 扫描表格:更依赖 OCR 与版面理解,错行概率更高

公式的“正确”不只是外观相似,更关键是能否被下游系统复用(例如渲染、计算或检索)。

如果你的目标是检索与 RAG:

  • 先保证公式文本存在(不要丢)
  • 再考虑统一格式(例如保留 LaTeX 表达)
  • 先做 10 份样本抽检,再决定默认模式
  • 对“表格密集型 PDF”,建议单独做一条解析策略与后处理链路
  • 把“错误样例 PDF”沉淀为回归样本,持续验证质量

延伸阅读: