Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

该工作流通过自动处理Screaming Frog导出的CSV文件,生成符合AI训练标准的`llms.txt`文件。它支持多语言环境,具备智能URL过滤和可选的AI文本分类功能,确保提取的内容高质量且相关性强。用户只需上传文件,即可获得结构化的数据,便于AI模型训练和网站内容优化,显著提升工作效率和数据处理的精准度。最终文件可方便地下载或直接保存至云存储。

流程图
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls 工作流程图

工作流名称

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

主要功能和亮点

该工作流基于Screaming Frog网站爬虫导出的CSV文件,自动生成符合AI训练需求的llms.txt文本文件。支持多语言环境下的字段自动适配,内置灵活且可扩展的URL过滤条件,且可选用AI文本分类器进行智能筛选,确保生成文件内容高质量、高相关性。最终生成的llms.txt文件可直接在n8n界面下载,或轻松集成上传至Google Drive、OneDrive等云盘,实现文件自动保存。

解决的核心问题

传统的网页爬取数据往往杂乱无章,难以直接用于训练大型语言模型(LLM)。本工作流自动清洗并筛选出网站中高质量、可索引的页面信息,生成结构化且易于机器学习模型理解的文本文件,大幅降低手动筛选和格式整理的工作量,提高训练数据的精准度和效率。

应用场景

  • SEO专家和内容策略师需快速生成网站内容索引文件,辅助内容优化和发现
  • AI开发者通过网站爬取数据训练定制化语言模型
  • 数字营销团队整理网站结构与内容描述,用于自动化报告和分析
  • 多语言网站内容整理,支持法语、意大利语、德语、西班牙语等环境

主要流程步骤

  1. 表单触发:上传网站名称、简短描述及Screaming Frog导出的internal_html.csv文件
  2. 数据提取:解析CSV文件,提取网址、标题、描述、状态码等7个关键字段
  3. URL过滤:过滤状态码为200,且可被搜索引擎索引(indexable),内容类型为HTML的页面
  4. (可选)文本分类:启用AI文本分类器,根据URL、标题、描述和字数智能区分优质内容与其他内容
  5. 格式设置:生成每条记录的文本行,格式为- [标题](链接): 描述,无描述则省略冒号和描述
  6. 内容汇总:将所有符合条件的行合并为完整的llms.txt文件内容
  7. 文件生成与下载:生成最终文本文件,可直接下载或替换上传节点自动保存到网盘

涉及的系统或服务

  • Screaming Frog SEO Spider(网站爬虫,CSV导出)
  • n8n自动化平台(工作流引擎)
  • OpenAI GPT-4o-mini(可选文本分类AI模型)
  • 云存储服务(如Google Drive、OneDrive,需用户自行配置替换上传节点)

适用人群或使用价值

  • 网站管理员和SEO专家:快速整理网站内容结构,提升SEO内容筛选效率
  • AI工程师与数据科学家:构建高质量训练语料,助力语言模型性能提升
  • 内容运营和数字营销人员:自动化生成内容目录,支持内容管理和优化决策
  • 多语言网站运营团队:无需担心语言差异,自动适配字段,简化操作流程

通过此工作流,用户只需上传简单的Screaming Frog导出文件,即可轻松获取结构化的llms.txt文件,极大提升网站内容AI应用的便捷性与精准度。