跳转到内容

PDF 解析模式

Firecrawl 的 PDF 解析支持 3 种模式,核心目标是把速度与准确性在不同 PDF 类型上做平衡。

模式适用场景主要优点主要代价
fast文本 PDF(嵌入文本清晰)速度快无法从扫描页/图像页提取
auto大多数情况默认选择文本优先,必要时 OCR 兜底在“混合 PDF”上更稳但更复杂
ocr扫描件、拍照 PDF、auto 误判最稳妥成本与耗时更高

你可以把它理解为:fast 是“只读文字层”,ocr 是“每页都识别”,auto 是“先试文字层,不行再 OCR”。

parsers: [{ type: 'pdf', mode: 'ocr', maxPages: 20 }]
parsers: [{ type: 'pdf' }]
  • 不确定时先用 auto,只在命中失败/漏提取时再转 ocr
  • 明确是文本 PDF 的场景,优先 fast
  • 做批量任务时,先用小样本评估你的 PDF 分布,再决定默认模式

延伸阅读: