Read sitemap and filter URLs
该工作流能够自动读取网站的 sitemap.xml 文件,并将其 XML 数据转换为 JSON 格式,提取出所有 URL 条目。用户可以根据自定义的过滤条件,迅速筛选出符合要求的链接,例如以 .pdf 结尾的文档链接。此流程大幅提升了 sitemap 数据处理的效率,便于用户快速获取特定类型的资源,适用于SEO优化、内容管理和数据分析等多种场景。
流程图

工作流名称
Read sitemap and filter URLs
主要功能和亮点
该工作流能够自动读取指定网站的 sitemap.xml 文件,将其中的 XML 格式数据转换为 JSON 格式,拆分出所有 URL 条目,并根据用户自定义的过滤条件筛选出符合要求的链接。默认示例中,最终筛选出以 .pdf 结尾的文档链接,方便快速定位和获取特定类型的资源。
解决的核心问题
很多网站的 sitemap.xml 文件包含大量不同类型的页面和资源链接,人工提取和筛选效率低且易出错。该工作流通过自动化流程实现快速解析和精准过滤,显著提升了 sitemap 数据的处理效率,方便用户直接获取所需的目标链接。
应用场景
- SEO 优化人员需要提取网站中特定类型的页面链接进行分析。
- 内容运营或资料管理人员快速定位并下载网站上的 PDF、图片等资源。
- 开发者或数据分析师自动抓取和整理网站结构数据。
- 自动化测试中需要校验网站链接有效性和资源分布。
主要流程步骤
- 手动触发工作流启动。
- 设置并传入目标网站的 sitemap.xml URL。
- 通过 HTTP 请求获取 sitemap.xml 文件内容。
- 将 XML 格式的 sitemap 转换为可操作的 JSON 格式。
- 拆分 JSON 中的所有 URL 条目,逐条处理。
- 依据用户自定义的过滤规则筛选符合条件的链接(如默认筛选以 .pdf 结尾的链接)。
- 输出筛选结果,供后续使用或进一步处理。
涉及的系统或服务
- HTTP 请求节点:用于抓取 sitemap.xml 文件。
- XML 转换节点:实现 XML 到 JSON 的格式转换。
- 过滤节点:按照规则筛选 URL。
- 手动触发节点:支持用户主动启动流程。
- 备注节点(Sticky Note):用于流程说明和配置提示。
适用人群或使用价值
- 网站管理员和SEO优化专家,帮助快速获取网站结构和资源链接。
- 内容管理人员,便于整理和下载指定格式资源。
- 自动化和数据分析工程师,提升数据抓取和预处理效率。
- 任何需要自动化处理 sitemap 数据以节省时间和降低人工误差的用户。
该工作流结构清晰,配置灵活,用户只需修改 sitemap URL 及过滤规则,即可快速应用于不同网站和多样需求,极大简化了 sitemap 数据提取和筛选的复杂度。