Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

该工作流通过自动处理Screaming Frog导出的CSV文件，生成符合AI训练标准的`llms.txt`文件。它支持多语言环境，具备智能URL过滤和可选的AI文本分类功能，确保提取的内容高质量且相关性强。用户只需上传文件，即可获得结构化的数据，便于AI模型训练和网站内容优化，显著提升工作效率和数据处理的精准度。最终文件可方便地下载或直接保存至云存储。

网站爬虫文本生成

工作流名称

主要功能和亮点

该工作流基于Screaming Frog网站爬虫导出的CSV文件，自动生成符合AI训练需求的llms.txt文本文件。支持多语言环境下的字段自动适配，内置灵活且可扩展的URL过滤条件，且可选用AI文本分类器进行智能筛选，确保生成文件内容高质量、高相关性。最终生成的llms.txt文件可直接在n8n界面下载，或轻松集成上传至Google Drive、OneDrive等云盘，实现文件自动保存。

解决的核心问题

传统的网页爬取数据往往杂乱无章，难以直接用于训练大型语言模型（LLM）。本工作流自动清洗并筛选出网站中高质量、可索引的页面信息，生成结构化且易于机器学习模型理解的文本文件，大幅降低手动筛选和格式整理的工作量，提高训练数据的精准度和效率。

应用场景

SEO专家和内容策略师需快速生成网站内容索引文件，辅助内容优化和发现
AI开发者通过网站爬取数据训练定制化语言模型
数字营销团队整理网站结构与内容描述，用于自动化报告和分析
多语言网站内容整理，支持法语、意大利语、德语、西班牙语等环境

主要流程步骤

表单触发：上传网站名称、简短描述及Screaming Frog导出的internal_html.csv文件
数据提取：解析CSV文件，提取网址、标题、描述、状态码等7个关键字段
URL过滤：过滤状态码为200，且可被搜索引擎索引（indexable），内容类型为HTML的页面
（可选）文本分类：启用AI文本分类器，根据URL、标题、描述和字数智能区分优质内容与其他内容
格式设置：生成每条记录的文本行，格式为- [标题](链接): 描述，无描述则省略冒号和描述
内容汇总：将所有符合条件的行合并为完整的llms.txt文件内容
文件生成与下载：生成最终文本文件，可直接下载或替换上传节点自动保存到网盘

涉及的系统或服务

Screaming Frog SEO Spider（网站爬虫，CSV导出）
n8n自动化平台（工作流引擎）
OpenAI GPT-4o-mini（可选文本分类AI模型）
云存储服务（如Google Drive、OneDrive，需用户自行配置替换上传节点）

适用人群或使用价值

网站管理员和SEO专家：快速整理网站内容结构，提升SEO内容筛选效率
AI工程师与数据科学家：构建高质量训练语料，助力语言模型性能提升
内容运营和数字营销人员：自动化生成内容目录，支持内容管理和优化决策
多语言网站运营团队：无需担心语言差异，自动适配字段，简化操作流程

通过此工作流，用户只需上传简单的Screaming Frog导出文件，即可轻松获取结构化的llms.txt文件，极大提升网站内容AI应用的便捷性与精准度。

Building RAG Chatbot for Movie Recommendations with Qdrant and Open AI

该工作流构建了一个智能电影推荐聊天机器人，利用检索增强生成（RAG）技术，结合Qdrant向量数据库和OpenAI语言模型，为用户提供个性化的电影推荐。通过导入丰富的IMDb数据，生成文本向量并进行高效的相似度搜索，能够深刻理解用户的电影偏好，优化推荐结果，提升用户互动体验，特别适用于在线影视平台和影评社区。

电影推荐向量检索

竞争对手调研智能代理

该工作流通过自动化智能代理，帮助用户高效进行竞争对手调研。用户只需输入目标公司官网链接，系统便能自动发现相似公司，采集并分析其基本信息、产品服务和客户评价。最终，所有数据将整合成详尽的报告，存储在Notion中，显著提升调研效率，解决了传统调研中信息分散和整理繁琐的问题，助力市场分析和战略决策。

竞争对手调研多智能体分析

RAG & GenAI App With WordPress Content

该工作流通过自动化抓取WordPress网站的文章和页面内容，实现基于检索增强生成式人工智能的智能问答系统。它对内容进行过滤、转换和向量化处理，并将数据存储在Supabase数据库中，支持高效的语义检索和动态问答。结合OpenAI的GPT-4模型，用户可以享受更精准的查询体验，同时实现了聊天记忆的持久化管理，增强了交互的上下文连续性，提升了网站内容的智能化利用价值。

RAG应用智能问答

Slack AI Chatbot with RAG for company staff

该工作流构建了一个智能聊天机器人，集成于Slack平台，使用RAG技术实时连接企业内部知识库，帮助员工快速查询公司文件、政策和流程。机器人支持自然语言交互，能够精准提取相关信息并以友好的格式回复，确保信息准确可靠。此系统不仅提升了信息获取效率，还自动化了IT支持和人力资源相关问题的响应，极大地改善了员工的工作体验和沟通效率。

Slack机器人RAG问答

YouTube视频智能摘要与问答生成

这个工作流能够自动从指定的YouTube视频中提取转录文本，生成简明摘要，并智能地提供与视频内容相关的问答示例。通过集成先进的文本处理和自然语言生成技术，它大幅提升了信息获取的效率，适用于内容创作者、教育工作者和市场分析师等专业人士，帮助他们快速掌握视频主旨并进行知识管理和内容再利用。

视频摘要智能问答

欧盟可持续立法议程自动筛选与任务创建工作流

该工作流自动抓取欧盟议会官网最近18天的立法程序数据，利用先进的AI技术智能筛选与环境可持续性相关的议题。筛选结果将被存储到Google Sheets，并为每个相关议题生成Google任务提醒，帮助用户高效跟踪和管理立法动态。此流程显著提升了信息处理效率，确保用户能够及时关注关键的可持续发展政策。

可持续立法智能筛选

Perplexity Researcher

该工作流通过接收用户查询，自动生成符合AI模型要求的提示语，并调用相关API进行深度内容检索，提取并输出简洁、结构化的回答。它能够提供带有引用的权威资料，确保结果的专业性和可信度，帮助用户快速获取某一领域的最新研究材料，提升信息检索效率与内容质量，适用于学术研究、内容创作和行业分析等多个场景。

智能检索内容提取

Notion知识库智能助理（Notion Knowledge Base Assistant）

该工作流结合了先进的AI语言模型与Notion知识库，提供智能问答服务。用户可以通过输入问题，系统会自动检索相关内容并生成准确回答，同时附带Notion页面链接，确保信息的可靠性和可追溯性。该助手提升了知识查询的效率，适用于企业内部知识管理、客户支持和个人信息检索等多种场景，帮助用户快速获取所需信息。

知识库问答智能检索