HTTP Request Tool(网页内容抓取与简化处理工具)
该工作流是一种网页内容抓取与处理工具,能够自动从指定URL获取网页内容,并将其转换为Markdown格式。它支持完整和简化两种抓取模式,简化模式减少了链接和图片,防止内容过长而浪费计算资源。内置的错误处理机制可智能反馈请求异常,确保抓取过程的稳定性和准确性,适用于AI聊天机器人、数据抓取和内容摘要等多种场景。
流程图

工作流名称
HTTP_Request_Tool(网页内容抓取与简化处理工具)
主要功能和亮点
该工作流专为从指定URL抓取网页内容设计,支持两种抓取模式:“full”(完整模式)和“simplified”(简化模式)。完整模式返回包含链接和图片链接的网页Markdown内容,简化模式则移除所有URL和图片链接,生成更精简的Markdown文本,从而有效降低页面长度,节省处理资源。工作流内置错误处理机制,智能反馈参数错误或请求失败信息,支持动态调整查询参数,提升抓取的准确性和稳定性。
解决的核心问题
- 自动化抓取网页内容并转换为易于处理的Markdown格式。
- 通过简化模式减少不必要的链接和图片数据,避免超长内容带来的处理瓶颈。
- 智能识别并反馈查询参数错误或请求异常,支持AI代理自动调整查询。
- 限制返回内容长度,防止过长页面浪费计算资源。
应用场景
- AI聊天机器人或智能代理需要快速获取并理解网页内容。
- 内容摘要、网页信息抽取与结构化处理。
- 数据抓取与预处理,尤其是对长网页内容的优化处理。
- 自动化工作流中调用网页数据作为输入的场景。
主要流程步骤
- 接收HTTP查询参数:输入格式为字符串形式的查询参数(如
?url=VALIDURL&method=SELECTEDMETHOD
)。 - 参数解析与配置设定:将查询字符串解析为JSON对象,设置最大返回内容长度。
- 发起HTTP请求:根据URL获取网页HTML内容,支持忽略证书错误。
- 错误判断:检测请求是否产生错误,分别返回错误提示或继续处理。
- HTML内容处理:
- 抽取
<body>
标签内的内容。 - 移除所有脚本、样式、嵌套媒体、注释等标签,确保内容纯净。
- 抽取
- 简化处理判断:根据请求参数决定是否将所有链接和图片标签替换为占位符。
- 转换为Markdown格式:将处理后的HTML转换为Markdown,保留页面结构但大幅压缩内容长度。
- 长度限制判断:若内容超过最大限制,返回错误提示。
- 输出最终页面内容:以字符串形式返回处理后的Markdown页面内容。
涉及的系统或服务
- n8n节点系统:包括HTTP请求、条件判断、文本处理、Markdown转换等基础节点。
- LangChain AI代理与模型(OpenAI GPT-4o-mini):用于智能查询调整和错误反馈。
- Webhook触发器:支持通过聊天消息触发工作流。
- 内部工作流调用机制:支持被其他工作流调用,便于集成。
适用人群或使用价值
- AI开发者和数据科学家:便捷集成网页数据抓取和预处理,提升AI模型输入质量。
- 产品经理与自动化工程师:快速构建智能内容抓取与转换工具,支持多场景自动化需求。
- 内容运营与信息抽取团队:有效获取结构化网页内容,辅助内容分析和摘要工作。
- 开发者社区及n8n用户:提供强大且灵活的网页抓取模板,降低技术门槛,实现网页信息自动化处理。
此工作流通过结合AI智能代理与多步骤内容清洗,帮助用户高效、精准地抓取并转换网页内容,极大提升自动化信息处理的质量和效率。