Vision-Based AI Agent Scraper - with Google Sheets, ScrapingBee, and Gemini
该工作流通过视觉智能AI和HTML抓取相结合,自动从网页截图中提取结构化数据,支持电商信息监控、竞争对手数据收集及市场分析。它能够在截图信息不足时自动补充数据,确保高准确性和完整性,最终将提取的信息转换为JSON格式,便于后续处理和分析。此解决方案大幅提高了数据采集的自动化程度,适用于需要快速获取网页多维度信息的用户。
流程图

工作流名称
Vision-Based AI Agent Scraper - with Google Sheets, ScrapingBee, and Gemini
主要功能和亮点
该工作流利用视觉智能AI代理,结合Google Sheets、ScrapingBee和Google Gemini-1.5-Pro模型,实现从网页截图中自动提取结构化数据。工作流支持全页截图为主的视觉数据抓取,并在截图信息不足时自动调用HTML抓取作为补充,保证数据完整性和准确性。通过结构化输出解析器,将抓取结果转为JSON格式,方便后续处理和分析。同时,HTML内容转换为Markdown格式,提升处理效率,降低成本。
解决的核心问题
- 传统网页抓取往往依赖HTML代码,面对复杂页面结构或动态渲染时难以精准提取数据
- 视觉识别方式能够直接从页面截图提取信息,但可能存在信息缺失或识别不完整的风险
- 该工作流通过AI视觉与HTML抓取结合的方式,自动判断并补充数据缺失,极大提升抓取的准确性和鲁棒性
- 实现了自动化、结构化的数据采集,减少人工标注和处理工作量
应用场景
- 电商产品信息监控,如价格、品牌、促销状态的自动采集
- 竞争对手网站数据收集
- 市场调研与分析,尤其适合需要从视觉层面理解页面内容的场景
- 需要将多页面数据统一汇总到电子表格进行后续处理的业务流程
主要流程步骤
- 手动触发工作流启动
- 从Google Sheets中获取待抓取的URL列表
- 利用ScrapingBee API获取目标网页的全页截图
- 视觉AI代理(基于Google Gemini-1.5-Pro模型)分析截图,识别并提取产品标题、价格、品牌及促销信息
- 若截图提取不完整,自动调用HTML抓取工具获取页面源码,并转换为Markdown供AI辅助识别
- 使用结构化输出解析器将提取数据格式化为JSON数组
- 通过“Split Out”节点拆分数据项,逐条写入Google Sheets的“Results”表格
- 结果实时保存,方便查看和后续使用
涉及的系统或服务
- Google Sheets:存储待抓取URL及最终结构化结果
- ScrapingBee:负责网页截图和HTML页面内容抓取
- Google Gemini-1.5-Pro模型:核心视觉AI模型,实现截图信息识别和文本理解
- n8n内置节点:任务触发、数据拆分、JSON解析、Markdown转换等辅助处理
适用人群或使用价值
- 电商运营和市场分析人员,快速获取竞争产品信息和促销动态
- 数据科学家和开发者,构建定制化的视觉网页数据抓取解决方案
- 业务自动化专家,提升跨平台数据整合效率
- 任何需要结合视觉和文本信息,自动化采集网页多维度数据的用户
该工作流模板针对电商页面设计,结构化字段包括产品标题、价格、品牌和促销详情,用户可以根据自身需求自定义输出格式及抓取内容,实现灵活多样的网页视觉数据采集。请注意使用前确认相关网页抓取的法律合规性。