Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
该工作流通过自动处理Screaming Frog导出的CSV文件,生成符合AI训练标准的`llms.txt`文件。它支持多语言环境,具备智能URL过滤和可选的AI文本分类功能,确保提取的内容高质量且相关性强。用户只需上传文件,即可获得结构化的数据,便于AI模型训练和网站内容优化,显著提升工作效率和数据处理的精准度。最终文件可方便地下载或直接保存至云存储。
流程图

工作流名称
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
主要功能和亮点
该工作流基于Screaming Frog网站爬虫导出的CSV文件,自动生成符合AI训练需求的llms.txt
文本文件。支持多语言环境下的字段自动适配,内置灵活且可扩展的URL过滤条件,且可选用AI文本分类器进行智能筛选,确保生成文件内容高质量、高相关性。最终生成的llms.txt
文件可直接在n8n界面下载,或轻松集成上传至Google Drive、OneDrive等云盘,实现文件自动保存。
解决的核心问题
传统的网页爬取数据往往杂乱无章,难以直接用于训练大型语言模型(LLM)。本工作流自动清洗并筛选出网站中高质量、可索引的页面信息,生成结构化且易于机器学习模型理解的文本文件,大幅降低手动筛选和格式整理的工作量,提高训练数据的精准度和效率。
应用场景
- SEO专家和内容策略师需快速生成网站内容索引文件,辅助内容优化和发现
- AI开发者通过网站爬取数据训练定制化语言模型
- 数字营销团队整理网站结构与内容描述,用于自动化报告和分析
- 多语言网站内容整理,支持法语、意大利语、德语、西班牙语等环境
主要流程步骤
- 表单触发:上传网站名称、简短描述及Screaming Frog导出的
internal_html.csv
文件 - 数据提取:解析CSV文件,提取网址、标题、描述、状态码等7个关键字段
- URL过滤:过滤状态码为200,且可被搜索引擎索引(indexable),内容类型为HTML的页面
- (可选)文本分类:启用AI文本分类器,根据URL、标题、描述和字数智能区分优质内容与其他内容
- 格式设置:生成每条记录的文本行,格式为
- [标题](链接): 描述
,无描述则省略冒号和描述 - 内容汇总:将所有符合条件的行合并为完整的
llms.txt
文件内容 - 文件生成与下载:生成最终文本文件,可直接下载或替换上传节点自动保存到网盘
涉及的系统或服务
- Screaming Frog SEO Spider(网站爬虫,CSV导出)
- n8n自动化平台(工作流引擎)
- OpenAI GPT-4o-mini(可选文本分类AI模型)
- 云存储服务(如Google Drive、OneDrive,需用户自行配置替换上传节点)
适用人群或使用价值
- 网站管理员和SEO专家:快速整理网站内容结构,提升SEO内容筛选效率
- AI工程师与数据科学家:构建高质量训练语料,助力语言模型性能提升
- 内容运营和数字营销人员:自动化生成内容目录,支持内容管理和优化决策
- 多语言网站运营团队:无需担心语言差异,自动适配字段,简化操作流程
通过此工作流,用户只需上传简单的Screaming Frog导出文件,即可轻松获取结构化的llms.txt
文件,极大提升网站内容AI应用的便捷性与精准度。