把复杂 PDF 变成可用的 Markdown
Fire-PDF 基于 Rust 构建,将扫描版、纯文本版与混合 PDF 统一转换为结构化 Markdown:阅读顺序正确,表格与 LaTeX 公式保留,多列布局不再错乱。
只把该做的事交给 GPU
纯文本页直接原生提取,完全跳过 GPU。只有扫描页或图像密集型内容才会进入神经布局模型和 OCR。
布局感知的结构化输出
分别检测文本块、表格、公式、图像、页眉页脚,再按区域类型采用不同提示与预算,换来可读的结果。
正确阅读顺序 + 多列兜底
阅读顺序由神经系统预测;遇到多列布局使用 XY-cut 投影作为备选方案,避免列间串行。
五阶段处理管道
分类 → 渲染 → 布局检测 → 提取 → 组装。表格转 Markdown 表,公式保留 LaTeX,几何去重清理重叠检测。
混合文档成本更低
财报常常“文本 + 扫描”混在一起。Fire-PDF 能消除大部分页面的 GPU 处理,从而直接降低成本。
立即开始
想了解 Firecrawl 文档解析 API 的参数与输出格式,直接阅读 Document Parsing。