Agent with custom HTTP Request
该工作流结合智能AI代理与OpenAI GPT-4模型,实现了网页内容的自动抓取与处理。用户输入聊天消息后,系统自动生成HTTP请求参数,从指定URL获取网页内容,并对HTML进行深度清洗,最后输出为Markdown格式。支持完整与简化两种抓取模式,智能处理请求错误,并提供反馈和建议,适用于内容监控、信息采集及AI问答系统,提升信息获取效率,减少人工干预。
流程图

工作流名称
Agent with custom HTTP Request
主要功能和亮点
该工作流通过一个智能AI Agent(ReAct AI Agent)结合OpenAI GPT-4模型,接收用户手动输入的聊天消息,智能生成符合HTTP请求格式的查询参数,从指定URL抓取网页内容,并对网页HTML进行深度清洗和简化,最终将内容转换为Markdown格式输出。支持两种内容抓取模式(完整和简化),并能自动处理请求错误,给予合理反馈和调整建议。
解决的核心问题
- 自动化抓取网页内容并智能提取有效信息,避免手动解析网页带来的繁琐和低效。
- 通过AI Agent指导请求参数构建,降低API调用复杂度和错误率。
- 清理网页中冗余的脚本、样式和多媒体标签,减少无效信息干扰。
- 针对内容长度做限制,防止过长内容影响后续处理和存储。
- 提供简化模式,进一步压缩内容体积,满足不同应用场景需求。
应用场景
- 需要从网页抓取内容并智能整理的自动化流程,如内容监控、信息采集、数据分析前的清洗。
- AI问答系统中,结合网页实时数据增强回答准确性。
- 开发者或业务人员快速获取网页精简文本内容,方便后续处理或展示。
- 自动化客服或知识管理系统,后台自动更新网页内容摘要。
主要流程步骤
- 监听用户手动触发的聊天消息(On new manual Chat Message)。
- 由ReAct AI Agent处理输入,生成HTTP请求参数(如url和method)。
- 解析查询参数并设置内容长度限制(CONFIG节点)。
- 发送HTTP请求获取网页HTML。
- 判断请求是否出错,错误则生成提示信息。
- 提取网页标签内内容。
- 移除
- 根据method参数决定是否简化内容(去除链接和图片URL)。
- 将清理后的HTML转换为Markdown格式。
- 检查内容长度,超长时返回错误提示。
- 返回最终的页面内容供后续使用。
涉及的系统或服务
- OpenAI GPT-4(通过OpenAI Chat Model节点调用)
- 自定义HTTP请求(n8n内置HTTP Request节点)
- n8n Langchain插件(ReAct AI Agent及相关工具节点)
- Markdown转换节点(将HTML转换为Markdown格式)
适用人群或使用价值
- 自动化开发者和技术人员,帮助构建智能内容采集与处理工具。
- 内容运营和数据分析人员,快速获得结构化网页文本。
- AI应用开发者,利用网页实时数据增强智能问答和知识库。
- 企业和团队希望提升信息获取效率,减少人工干预的业务场景。
该工作流集成AI智能与网页数据抓取,极大提升了内容获取的自动化和智能化水平,是构建现代信息服务平台的重要基础组件。