Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

该工作流通过自动处理Screaming Frog导出的CSV文件,生成符合AI训练标准的`llms.txt`文件。它支持多语言环境,具备智能URL过滤和可选的AI文本分类功能,确保提取的内容高质量且相关性强。用户只需上传文件,即可获得结构化的数据,便于AI模型训练和网站内容优化,显著提升工作效率和数据处理的精准度。最终文件可方便地下载或直接保存至云存储。

Tags

网站爬虫文本生成

工作流名称

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

主要功能和亮点

该工作流基于Screaming Frog网站爬虫导出的CSV文件,自动生成符合AI训练需求的llms.txt文本文件。支持多语言环境下的字段自动适配,内置灵活且可扩展的URL过滤条件,且可选用AI文本分类器进行智能筛选,确保生成文件内容高质量、高相关性。最终生成的llms.txt文件可直接在n8n界面下载,或轻松集成上传至Google Drive、OneDrive等云盘,实现文件自动保存。

解决的核心问题

传统的网页爬取数据往往杂乱无章,难以直接用于训练大型语言模型(LLM)。本工作流自动清洗并筛选出网站中高质量、可索引的页面信息,生成结构化且易于机器学习模型理解的文本文件,大幅降低手动筛选和格式整理的工作量,提高训练数据的精准度和效率。

应用场景

  • SEO专家和内容策略师需快速生成网站内容索引文件,辅助内容优化和发现
  • AI开发者通过网站爬取数据训练定制化语言模型
  • 数字营销团队整理网站结构与内容描述,用于自动化报告和分析
  • 多语言网站内容整理,支持法语、意大利语、德语、西班牙语等环境

主要流程步骤

  1. 表单触发:上传网站名称、简短描述及Screaming Frog导出的internal_html.csv文件
  2. 数据提取:解析CSV文件,提取网址、标题、描述、状态码等7个关键字段
  3. URL过滤:过滤状态码为200,且可被搜索引擎索引(indexable),内容类型为HTML的页面
  4. (可选)文本分类:启用AI文本分类器,根据URL、标题、描述和字数智能区分优质内容与其他内容
  5. 格式设置:生成每条记录的文本行,格式为- [标题](链接): 描述,无描述则省略冒号和描述
  6. 内容汇总:将所有符合条件的行合并为完整的llms.txt文件内容
  7. 文件生成与下载:生成最终文本文件,可直接下载或替换上传节点自动保存到网盘

涉及的系统或服务

  • Screaming Frog SEO Spider(网站爬虫,CSV导出)
  • n8n自动化平台(工作流引擎)
  • OpenAI GPT-4o-mini(可选文本分类AI模型)
  • 云存储服务(如Google Drive、OneDrive,需用户自行配置替换上传节点)

适用人群或使用价值

  • 网站管理员和SEO专家:快速整理网站内容结构,提升SEO内容筛选效率
  • AI工程师与数据科学家:构建高质量训练语料,助力语言模型性能提升
  • 内容运营和数字营销人员:自动化生成内容目录,支持内容管理和优化决策
  • 多语言网站运营团队:无需担心语言差异,自动适配字段,简化操作流程

通过此工作流,用户只需上传简单的Screaming Frog导出文件,即可轻松获取结构化的llms.txt文件,极大提升网站内容AI应用的便捷性与精准度。

推荐模板

Building RAG Chatbot for Movie Recommendations with Qdrant and Open AI

该工作流构建了一个智能电影推荐聊天机器人,利用检索增强生成(RAG)技术,结合Qdrant向量数据库和OpenAI语言模型,为用户提供个性化的电影推荐。通过导入丰富的IMDb数据,生成文本向量并进行高效的相似度搜索,能够深刻理解用户的电影偏好,优化推荐结果,提升用户互动体验,特别适用于在线影视平台和影评社区。

电影推荐向量检索

竞争对手调研智能代理

该工作流通过自动化智能代理,帮助用户高效进行竞争对手调研。用户只需输入目标公司官网链接,系统便能自动发现相似公司,采集并分析其基本信息、产品服务和客户评价。最终,所有数据将整合成详尽的报告,存储在Notion中,显著提升调研效率,解决了传统调研中信息分散和整理繁琐的问题,助力市场分析和战略决策。

竞争对手调研多智能体分析

RAG & GenAI App With WordPress Content

该工作流通过自动化抓取WordPress网站的文章和页面内容,实现基于检索增强生成式人工智能的智能问答系统。它对内容进行过滤、转换和向量化处理,并将数据存储在Supabase数据库中,支持高效的语义检索和动态问答。结合OpenAI的GPT-4模型,用户可以享受更精准的查询体验,同时实现了聊天记忆的持久化管理,增强了交互的上下文连续性,提升了网站内容的智能化利用价值。

RAG应用智能问答

Slack AI Chatbot with RAG for company staff

该工作流构建了一个智能聊天机器人,集成于Slack平台,使用RAG技术实时连接企业内部知识库,帮助员工快速查询公司文件、政策和流程。机器人支持自然语言交互,能够精准提取相关信息并以友好的格式回复,确保信息准确可靠。此系统不仅提升了信息获取效率,还自动化了IT支持和人力资源相关问题的响应,极大地改善了员工的工作体验和沟通效率。

Slack机器人RAG问答

YouTube视频智能摘要与问答生成

这个工作流能够自动从指定的YouTube视频中提取转录文本,生成简明摘要,并智能地提供与视频内容相关的问答示例。通过集成先进的文本处理和自然语言生成技术,它大幅提升了信息获取的效率,适用于内容创作者、教育工作者和市场分析师等专业人士,帮助他们快速掌握视频主旨并进行知识管理和内容再利用。

视频摘要智能问答

欧盟可持续立法议程自动筛选与任务创建工作流

该工作流自动抓取欧盟议会官网最近18天的立法程序数据,利用先进的AI技术智能筛选与环境可持续性相关的议题。筛选结果将被存储到Google Sheets,并为每个相关议题生成Google任务提醒,帮助用户高效跟踪和管理立法动态。此流程显著提升了信息处理效率,确保用户能够及时关注关键的可持续发展政策。

可持续立法智能筛选

Perplexity Researcher

该工作流通过接收用户查询,自动生成符合AI模型要求的提示语,并调用相关API进行深度内容检索,提取并输出简洁、结构化的回答。它能够提供带有引用的权威资料,确保结果的专业性和可信度,帮助用户快速获取某一领域的最新研究材料,提升信息检索效率与内容质量,适用于学术研究、内容创作和行业分析等多个场景。

智能检索内容提取

Notion知识库智能助理(Notion Knowledge Base Assistant)

该工作流结合了先进的AI语言模型与Notion知识库,提供智能问答服务。用户可以通过输入问题,系统会自动检索相关内容并生成准确回答,同时附带Notion页面链接,确保信息的可靠性和可追溯性。该助手提升了知识查询的效率,适用于企业内部知识管理、客户支持和个人信息检索等多种场景,帮助用户快速获取所需信息。

知识库问答智能检索