HTTP Request Tool(网页内容抓取与简化处理工具)

该工作流是一种网页内容抓取与处理工具,能够自动从指定URL获取网页内容,并将其转换为Markdown格式。它支持完整和简化两种抓取模式,简化模式减少了链接和图片,防止内容过长而浪费计算资源。内置的错误处理机制可智能反馈请求异常,确保抓取过程的稳定性和准确性,适用于AI聊天机器人、数据抓取和内容摘要等多种场景。

流程图
HTTP_Request_Tool(网页内容抓取与简化处理工具) 工作流程图

工作流名称

HTTP_Request_Tool(网页内容抓取与简化处理工具)

主要功能和亮点

该工作流专为从指定URL抓取网页内容设计,支持两种抓取模式:“full”(完整模式)和“simplified”(简化模式)。完整模式返回包含链接和图片链接的网页Markdown内容,简化模式则移除所有URL和图片链接,生成更精简的Markdown文本,从而有效降低页面长度,节省处理资源。工作流内置错误处理机制,智能反馈参数错误或请求失败信息,支持动态调整查询参数,提升抓取的准确性和稳定性。

解决的核心问题

  • 自动化抓取网页内容并转换为易于处理的Markdown格式。
  • 通过简化模式减少不必要的链接和图片数据,避免超长内容带来的处理瓶颈。
  • 智能识别并反馈查询参数错误或请求异常,支持AI代理自动调整查询。
  • 限制返回内容长度,防止过长页面浪费计算资源。

应用场景

  • AI聊天机器人或智能代理需要快速获取并理解网页内容。
  • 内容摘要、网页信息抽取与结构化处理。
  • 数据抓取与预处理,尤其是对长网页内容的优化处理。
  • 自动化工作流中调用网页数据作为输入的场景。

主要流程步骤

  1. 接收HTTP查询参数:输入格式为字符串形式的查询参数(如?url=VALIDURL&method=SELECTEDMETHOD)。
  2. 参数解析与配置设定:将查询字符串解析为JSON对象,设置最大返回内容长度。
  3. 发起HTTP请求:根据URL获取网页HTML内容,支持忽略证书错误。
  4. 错误判断:检测请求是否产生错误,分别返回错误提示或继续处理。
  5. HTML内容处理
    • 抽取<body>标签内的内容。
    • 移除所有脚本、样式、嵌套媒体、注释等标签,确保内容纯净。
  6. 简化处理判断:根据请求参数决定是否将所有链接和图片标签替换为占位符。
  7. 转换为Markdown格式:将处理后的HTML转换为Markdown,保留页面结构但大幅压缩内容长度。
  8. 长度限制判断:若内容超过最大限制,返回错误提示。
  9. 输出最终页面内容:以字符串形式返回处理后的Markdown页面内容。

涉及的系统或服务

  • n8n节点系统:包括HTTP请求、条件判断、文本处理、Markdown转换等基础节点。
  • LangChain AI代理与模型(OpenAI GPT-4o-mini):用于智能查询调整和错误反馈。
  • Webhook触发器:支持通过聊天消息触发工作流。
  • 内部工作流调用机制:支持被其他工作流调用,便于集成。

适用人群或使用价值

  • AI开发者和数据科学家:便捷集成网页数据抓取和预处理,提升AI模型输入质量。
  • 产品经理与自动化工程师:快速构建智能内容抓取与转换工具,支持多场景自动化需求。
  • 内容运营与信息抽取团队:有效获取结构化网页内容,辅助内容分析和摘要工作。
  • 开发者社区及n8n用户:提供强大且灵活的网页抓取模板,降低技术门槛,实现网页信息自动化处理。

此工作流通过结合AI智能代理与多步骤内容清洗,帮助用户高效、精准地抓取并转换网页内容,极大提升自动化信息处理的质量和效率。