Convert URL HTML to Markdown and Get Page Links(URL网页内容转Markdown并提取链接)

此工作流旨在将网页HTML内容转换为结构化的Markdown格式,并提取网页中的所有链接。通过调用Firecrawl.dev API,支持批量处理URL,自动管理请求速率,确保稳定高效地抓取和转换内容。适用于数据分析、内容聚合和市场调研等场景,帮助用户快速获取和处理大量网页信息,减少手动操作,提高工作效率。

流程图
Convert URL HTML to Markdown and Get Page Links(URL网页内容转Markdown并提取链接) 工作流程图

工作流名称

Convert URL HTML to Markdown and Get Page Links(URL网页内容转Markdown并提取链接)

主要功能和亮点

本工作流通过调用 Firecrawl.dev API,实现将网页的HTML内容转换为结构化的Markdown格式,同时提取该网页中的所有链接。支持批量处理URL,并自动控制请求速率以避免超过API限制,确保稳定高效地抓取和转换网页内容。

解决的核心问题

  • 需要将复杂的网页HTML内容转成易于AI处理的Markdown格式,去除冗余的HTML标签。
  • 同时提取网页中的所有超链接,便于后续数据分析或内容挖掘。
  • 自动管理API请求频率,防止因请求过多导致接口拒绝服务。
  • 支持从数据库批量导入URL,自动分批处理,提升大规模数据抓取的效率。

应用场景

  • 需要对大量网页内容进行结构化处理,如为大语言模型(LLM)准备训练或分析数据。
  • 内容聚合和信息抽取项目,需同时获取网页正文和内链。
  • SEO、市场调研或竞争分析中批量抓取网页内容和链接。
  • 自动化数据采集,减少手动复制粘贴工作。

主要流程步骤

  1. 手动触发工作流开始执行。
  2. 从用户自定义的数据源中获取网页URL列表(要求URL字段名为“Page”)。
  3. 将URL列表拆分成批次(最大40条,实际10条一批请求)。
  4. 通过Firecrawl.dev API逐条请求网页内容,转换为Markdown格式并抓取网页中的所有链接。
  5. 处理API限速,确保每分钟不超过10次请求。
  6. 将抓取得到的标题、描述、Markdown内容及链接等数据输出到用户指定的数据源(例如Airtable)。
  7. 完成批量处理,等待下一次触发。

涉及的系统或服务

  • Firecrawl.dev API(提供网页内容转换及链接提取)
  • 用户自定义数据源(用于输入URL和输出结果,支持如Airtable等数据库)
  • n8n自动化平台(实现流程编排、限速控制及批处理)

适用人群或使用价值

  • 数据分析师、内容运营者和AI开发人员,需快速批量处理网页内容并结构化输出。
  • 需要将网页内容转为Markdown供AI或其他下游系统使用的技术团队。
  • 市场调研、SEO优化和内容聚合项目团队。
  • 希望自动化网页内容抓取流程,减少人工操作,提高效率的企业和个人。

此工作流由Simon(automake.io)设计,用户只需配置Firecrawl API密钥及数据源,即可轻松实现网页内容的自动抓取与转换,助力高效数据处理与内容分析。