文档解析(Document Parsing)
Firecrawl 提供强大的文档解析能力,可将多种文档格式转换为清晰、结构化的 Markdown,便于后续检索、存储与处理。
支持的文档格式
Section titled “支持的文档格式”目前支持:
- Excel 表格(
.xlsx,.xls)- 每个工作表会被转换为 HTML 表格
- 不同工作表会用以工作表名称为标题的二级标题(H2)分隔
- 尽可能保留单元格格式与数据类型
- Word 文档(
.docx,.doc,.odt,.rtf)- 提取文本内容并保留文档结构
- 保留标题、段落、列表与表格
- 保留基础格式与样式
- PDF 文档(
.pdf)- 提取带布局信息的文本内容
- 保留章节、段落等结构
- 支持文本 PDF 与扫描 PDF(包含 OCR)
- 支持通过
mode控制解析策略:fast(仅文本)、auto(默认:文本优先 + OCR 兜底)、ocr(强制每页 OCR) - 计费为每页 1 credit(PDF → Markdown)
PDF 解析模式
Section titled “PDF 解析模式”使用 parsers 选项控制 PDF 的处理方式:
| 模式 | 说明 |
|---|---|
auto | 先尝试快速的文本提取,必要时回退到 OCR。默认模式。 |
fast | 仅做文本解析(嵌入文本)。最快,但无法从扫描页/图像密集页提取文本。 |
ocr | 强制每页 OCR。适用于扫描件或 auto 误判页面类型的情况。 |
parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]
parsers: [{ type: "pdf" }]
parsers: ["pdf"]
parsers: []当传入空数组 parsers: [] 时,会跳过 PDF 解析并返回 PDF 的 base64(整份 PDF 固定 1 credit)。
如何使用文档解析
Section titled “如何使用文档解析”当你提供一个指向受支持文档类型的 URL 时,系统会自动进行解析。Firecrawl 会根据 URL 后缀或响应头中的 content-type 自动识别文件类型并选择对应解析器。
示例:解析 Excel
Section titled “示例:解析 Excel”import Firecrawl from '@mendable/firecrawl-js';
const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });
const doc = await firecrawl.scrape('https://example.com/data.xlsx');
console.log(doc.markdown);示例:解析 Word
Section titled “示例:解析 Word”import Firecrawl from '@mendable/firecrawl-js';
const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });
const doc = await firecrawl.scrape('https://example.com/data.docx');
console.log(doc.markdown);所有受支持的文档都会被转换成干净、结构化的 Markdown。例如,一个包含多工作表的 Excel 文件可能会被转换为:
## Sheet1
| Name | Value ||-------|-------|| Item 1 | 100 || Item 2 | 200 |
## Sheet2
| Date | Description ||------------|--------------|| 2023-01-01 | First quarter|