Fire-PDF Rust

把复杂 PDF 变成可用的 Markdown

Fire-PDF 基于 Rust 构建,将扫描版、纯文本版与混合 PDF 统一转换为结构化 Markdown:阅读顺序正确,表格与 LaTeX 公式保留,多列布局不再错乱。

只把该做的事交给 GPU

纯文本页直接原生提取,完全跳过 GPU。只有扫描页或图像密集型内容才会进入神经布局模型和 OCR。

布局感知的结构化输出

分别检测文本块、表格、公式、图像、页眉页脚,再按区域类型采用不同提示与预算,换来可读的结果。

正确阅读顺序 + 多列兜底

阅读顺序由神经系统预测;遇到多列布局使用 XY-cut 投影作为备选方案,避免列间串行。

五阶段处理管道

分类 → 渲染 → 布局检测 → 提取 → 组装。表格转 Markdown 表,公式保留 LaTeX,几何去重清理重叠检测。

混合文档成本更低

财报常常“文本 + 扫描”混在一起。Fire-PDF 能消除大部分页面的 GPU 处理,从而直接降低成本。

立即开始

想了解 Firecrawl 文档解析 API 的参数与输出格式,直接阅读 Document Parsing