HTTP Request Tool(网页内容抓取与简化处理工具)
该工作流是一种网页内容抓取与处理工具,能够自动从指定URL获取网页内容,并将其转换为Markdown格式。它支持完整和简化两种抓取模式,简化模式减少了链接和图片,防止内容过长而浪费计算资源。内置的错误处理机制可智能反馈请求异常,确保抓取过程的稳定性和准确性,适用于AI聊天机器人、数据抓取和内容摘要等多种场景。
Tags
工作流名称
HTTP_Request_Tool(网页内容抓取与简化处理工具)
主要功能和亮点
该工作流专为从指定URL抓取网页内容设计,支持两种抓取模式:“full”(完整模式)和“simplified”(简化模式)。完整模式返回包含链接和图片链接的网页Markdown内容,简化模式则移除所有URL和图片链接,生成更精简的Markdown文本,从而有效降低页面长度,节省处理资源。工作流内置错误处理机制,智能反馈参数错误或请求失败信息,支持动态调整查询参数,提升抓取的准确性和稳定性。
解决的核心问题
- 自动化抓取网页内容并转换为易于处理的Markdown格式。
- 通过简化模式减少不必要的链接和图片数据,避免超长内容带来的处理瓶颈。
- 智能识别并反馈查询参数错误或请求异常,支持AI代理自动调整查询。
- 限制返回内容长度,防止过长页面浪费计算资源。
应用场景
- AI聊天机器人或智能代理需要快速获取并理解网页内容。
- 内容摘要、网页信息抽取与结构化处理。
- 数据抓取与预处理,尤其是对长网页内容的优化处理。
- 自动化工作流中调用网页数据作为输入的场景。
主要流程步骤
- 接收HTTP查询参数:输入格式为字符串形式的查询参数(如
?url=VALIDURL&method=SELECTEDMETHOD
)。 - 参数解析与配置设定:将查询字符串解析为JSON对象,设置最大返回内容长度。
- 发起HTTP请求:根据URL获取网页HTML内容,支持忽略证书错误。
- 错误判断:检测请求是否产生错误,分别返回错误提示或继续处理。
- HTML内容处理:
- 抽取
<body>
标签内的内容。 - 移除所有脚本、样式、嵌套媒体、注释等标签,确保内容纯净。
- 抽取
- 简化处理判断:根据请求参数决定是否将所有链接和图片标签替换为占位符。
- 转换为Markdown格式:将处理后的HTML转换为Markdown,保留页面结构但大幅压缩内容长度。
- 长度限制判断:若内容超过最大限制,返回错误提示。
- 输出最终页面内容:以字符串形式返回处理后的Markdown页面内容。
涉及的系统或服务
- n8n节点系统:包括HTTP请求、条件判断、文本处理、Markdown转换等基础节点。
- LangChain AI代理与模型(OpenAI GPT-4o-mini):用于智能查询调整和错误反馈。
- Webhook触发器:支持通过聊天消息触发工作流。
- 内部工作流调用机制:支持被其他工作流调用,便于集成。
适用人群或使用价值
- AI开发者和数据科学家:便捷集成网页数据抓取和预处理,提升AI模型输入质量。
- 产品经理与自动化工程师:快速构建智能内容抓取与转换工具,支持多场景自动化需求。
- 内容运营与信息抽取团队:有效获取结构化网页内容,辅助内容分析和摘要工作。
- 开发者社区及n8n用户:提供强大且灵活的网页抓取模板,降低技术门槛,实现网页信息自动化处理。
此工作流通过结合AI智能代理与多步骤内容清洗,帮助用户高效、精准地抓取并转换网页内容,极大提升自动化信息处理的质量和效率。
Trustpilot客户评价智能分析工作流
该工作流旨在自动化抓取Trustpilot上指定公司的客户评价,利用向量数据库进行高效管理与分析。通过K-means聚类算法识别评价主题,并应用大型语言模型进行深入总结,最终将分析结果导出到Google Sheets,便于团队共享和决策。此流程显著提高了客户评价数据处理的效率,帮助企业快速识别客户关注的热点主题与情感趋势,从而优化客户体验和产品策略。
Twitter与表单内容情感分析与存储自动化工作流
该工作流实现了Twitter和外部表单内容的自动化抓取与情感分析,定时监控与“strapi”或“n8n.io”相关的最新推文,并过滤不必要的信息。通过自然语言处理技术,智能判断文本情绪,自动存储正面评分的内容到Strapi内容管理系统,提升了数据整合效率。适用于品牌舆情监控、市场调研和客户关系管理,为决策提供数据支持和高质量内容。
智能电商产品信息采集与结构化处理工作流
该工作流实现了电商产品信息的自动化采集与结构化处理。通过抓取指定网页的HTML内容,利用AI模型智能提取产品名称、描述、评分、评论数和价格等关键信息,并对数据进行清洗和结构化,最终将结果存储到Google Sheets中。此流程显著提高了数据采集的效率与准确性,适用于市场调研、电商运营及数据分析等场景。
My workflow 2
该工作流自动从意大利地区的Google Trends抓取热门关键词及相关资讯,筛选出新趋势关键词,并利用jina.ai接口获取相关网页内容生成摘要,最终将数据存入Google Sheets作为编辑计划数据库。通过这一流程,用户能够高效监测市场动态,避免遗漏重要信息,提升关键词监测的准确度与效率,适合内容营销、SEO优化及市场分析等场景。
GitHub Stars 分页获取与网页数据提取示例工作流
该工作流展示了如何自动化获取和处理API数据,特别是通过分页请求抓取GitHub用户的收藏项目。它支持自动递增页码,判断数据结束条件,实现完整数据获取。同时,该流程还演示了如何从维基百科随机页面提取文章标题,结合HTTP请求与HTML内容提取,适用于需要批量抓取和处理多来源数据的场景,帮助用户高效搭建自动化工作流。
Dashboard
Dashboard 工作流通过自动抓取和整合来自 Docker Hub、npm、GitHub 和 Product Hunt 等多个平台的关键指标,实时更新并展示在自定义仪表盘上。它解决了开发者在管理开源项目时面临的数据分散和更新不及时的问题,提高了数据获取的效率和准确性。适用于开源项目维护者、产品经理等,帮助他们全面监控项目健康状况,优化决策和社区运营。
HubSpot联系人数据分页获取与整合
该工作流通过HubSpot CRM API自动化实现联系人数据的分页获取与整合,简化了手动管理分页逻辑的复杂性。用户只需手动触发流程,系统便会循环请求所有分页数据,并将其整合为完整列表。这一过程避免了数据遗漏,提升了数据获取的效率与准确性,适用于市场营销、客户管理和数据分析等多种场景,助力企业更有效地管理客户资源。
批量导入联系人(Bulk Upload Contacts Through CSV)| Airtable接口与网格视图同步
此工作流通过自动化处理,从CSV文件批量上传联系人数据至Airtable,支持实时监听新上传文件,自动下载和解析内容。它能够智能判断营销活动字段,批量创建或更新联系人记录,并实时更新上传状态,确保数据管理的高效与准确,解决了手动导入的繁琐和易错问题,非常适合市场营销和销售团队使用。