Convert URL HTML to Markdown and Get Page Links

该工作流自动将网页内容从 HTML 格式转换为结构化的 Markdown,并提取网页中的所有链接。用户可以批量处理多个 URL,系统会自动管理 API 请求速率限制,确保高效稳定的数据抓取。工作流灵活,支持从用户数据库读取 URL,并将处理结果输出到指定的数据存储系统,适用于内容分析、市场调研及网站链接管理等场景。

流程图
Convert URL HTML to Markdown and Get Page Links 工作流程图

工作流名称

Convert URL HTML to Markdown and Get Page Links

主要功能和亮点

该工作流利用 Firecrawl.dev API 自动将网页内容从 HTML 转换为结构化的 Markdown 格式,并提取网页中的所有链接。它支持批量处理 URL,自动管理 API 请求速率限制,确保高效且稳定的网页数据抓取。此外,工作流设计灵活,支持从用户自有数据库中读取 URL,并将处理结果输出到用户指定的数据存储系统。

解决的核心问题

  • 自动将网页内容转换为易于人工智能和文本分析处理的 Markdown 格式,去除复杂的 HTML 标记。
  • 批量抓取和整理多个网页内容及其链接,节省手动采集和格式化的时间和人力成本。
  • 处理 API 调用限制,避免请求过载导致失败。
  • 支持数据源和输出端自定义,方便集成到现有业务流程。

应用场景

  • 需要将网页内容转换为 AI 友好格式以进行大语言模型(LLM)分析的场景。
  • 内容采集与整理,用于市场调研、竞争对手分析、内容聚合平台。
  • 自动化爬取网页链接,构建网站地图或链接库。
  • 企业或开发者希望通过 API 高效批量处理网页数据。

主要流程步骤

  1. 手动触发工作流:通过手动触发节点启动流程。
  2. 获取 URL 列表:从用户自有数据源或示例配置中读取待抓取的网页 URL,要求 URL 列以“Page”命名。
  3. 拆分 URL 批次:将 URL 分批(默认40个为一批,每批10个请求)处理以符合服务器内存和 API 限制。
  4. 等待节奏控制:在批次之间等待设定时间,防止触发 API 速率限制。
  5. 调用 Firecrawl API:针对每个 URL,调用 Firecrawl.dev 的抓取接口,获取网页的 Markdown 内容和所有链接。
  6. 数据格式化:将返回的标题、描述、内容和链接整理成结构化数据。
  7. 输出结果:将处理后的数据输出到用户指定的数据库或存储系统(如 Airtable)。

涉及的系统或服务

  • Firecrawl.dev API:网页内容抓取与转换服务。
  • 自有数据源:用户的 URL 存储数据库(列名需为“Page”)。
  • 数据输出服务:如 Airtable 等第三方数据库。
  • n8n 自动化平台:实现工作流编排和节点管理。

适用人群或使用价值

  • 内容运营人员和数据分析师,需批量抓取和整理网页内容用于后续分析。
  • AI 研究者和开发者,需获取高质量 Markdown 格式训练数据。
  • 市场调研团队,通过自动化方式快速汇总竞争对手网页信息。
  • 开发者和自动化工程师,希望快速集成网页数据抓取功能,提升工作效率。

此工作流由 Simon @ automake.io 制作,设计理念注重易用性和高效性,帮助用户轻松实现网页内容的结构化采集与管理。