Agent with custom HTTP Request

该工作流结合智能AI代理与OpenAI GPT-4模型,实现了网页内容的自动抓取与处理。用户输入聊天消息后,系统自动生成HTTP请求参数,从指定URL获取网页内容,并对HTML进行深度清洗,最后输出为Markdown格式。支持完整与简化两种抓取模式,智能处理请求错误,并提供反馈和建议,适用于内容监控、信息采集及AI问答系统,提升信息获取效率,减少人工干预。

流程图
Agent with custom HTTP Request 工作流程图

工作流名称

Agent with custom HTTP Request

主要功能和亮点

该工作流通过一个智能AI Agent(ReAct AI Agent)结合OpenAI GPT-4模型,接收用户手动输入的聊天消息,智能生成符合HTTP请求格式的查询参数,从指定URL抓取网页内容,并对网页HTML进行深度清洗和简化,最终将内容转换为Markdown格式输出。支持两种内容抓取模式(完整和简化),并能自动处理请求错误,给予合理反馈和调整建议。

解决的核心问题

  • 自动化抓取网页内容并智能提取有效信息,避免手动解析网页带来的繁琐和低效。
  • 通过AI Agent指导请求参数构建,降低API调用复杂度和错误率。
  • 清理网页中冗余的脚本、样式和多媒体标签,减少无效信息干扰。
  • 针对内容长度做限制,防止过长内容影响后续处理和存储。
  • 提供简化模式,进一步压缩内容体积,满足不同应用场景需求。

应用场景

  • 需要从网页抓取内容并智能整理的自动化流程,如内容监控、信息采集、数据分析前的清洗。
  • AI问答系统中,结合网页实时数据增强回答准确性。
  • 开发者或业务人员快速获取网页精简文本内容,方便后续处理或展示。
  • 自动化客服或知识管理系统,后台自动更新网页内容摘要。

主要流程步骤

  1. 监听用户手动触发的聊天消息(On new manual Chat Message)。
  2. 由ReAct AI Agent处理输入,生成HTTP请求参数(如url和method)。
  3. 解析查询参数并设置内容长度限制(CONFIG节点)。
  4. 发送HTTP请求获取网页HTML。
  5. 判断请求是否出错,错误则生成提示信息。
  6. 提取网页标签内内容。
  7. 移除
  8. 根据method参数决定是否简化内容(去除链接和图片URL)。
  9. 将清理后的HTML转换为Markdown格式。
  10. 检查内容长度,超长时返回错误提示。
  11. 返回最终的页面内容供后续使用。

涉及的系统或服务

  • OpenAI GPT-4(通过OpenAI Chat Model节点调用)
  • 自定义HTTP请求(n8n内置HTTP Request节点)
  • n8n Langchain插件(ReAct AI Agent及相关工具节点)
  • Markdown转换节点(将HTML转换为Markdown格式)

适用人群或使用价值

  • 自动化开发者和技术人员,帮助构建智能内容采集与处理工具。
  • 内容运营和数据分析人员,快速获得结构化网页文本。
  • AI应用开发者,利用网页实时数据增强智能问答和知识库。
  • 企业和团队希望提升信息获取效率,减少人工干预的业务场景。

该工作流集成AI智能与网页数据抓取,极大提升了内容获取的自动化和智能化水平,是构建现代信息服务平台的重要基础组件。