Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
该工作流通过自动处理Screaming Frog导出的CSV文件,生成符合AI训练标准的`llms.txt`文件。它支持多语言环境,具备智能URL过滤和可选的AI文本分类功能,确保提取的内容高质量且相关性强。用户只需上传文件,即可获得结构化的数据,便于AI模型训练和网站内容优化,显著提升工作效率和数据处理的精准度。最终文件可方便地下载或直接保存至云存储。
Tags
工作流名称
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
主要功能和亮点
该工作流基于Screaming Frog网站爬虫导出的CSV文件,自动生成符合AI训练需求的llms.txt
文本文件。支持多语言环境下的字段自动适配,内置灵活且可扩展的URL过滤条件,且可选用AI文本分类器进行智能筛选,确保生成文件内容高质量、高相关性。最终生成的llms.txt
文件可直接在n8n界面下载,或轻松集成上传至Google Drive、OneDrive等云盘,实现文件自动保存。
解决的核心问题
传统的网页爬取数据往往杂乱无章,难以直接用于训练大型语言模型(LLM)。本工作流自动清洗并筛选出网站中高质量、可索引的页面信息,生成结构化且易于机器学习模型理解的文本文件,大幅降低手动筛选和格式整理的工作量,提高训练数据的精准度和效率。
应用场景
- SEO专家和内容策略师需快速生成网站内容索引文件,辅助内容优化和发现
- AI开发者通过网站爬取数据训练定制化语言模型
- 数字营销团队整理网站结构与内容描述,用于自动化报告和分析
- 多语言网站内容整理,支持法语、意大利语、德语、西班牙语等环境
主要流程步骤
- 表单触发:上传网站名称、简短描述及Screaming Frog导出的
internal_html.csv
文件 - 数据提取:解析CSV文件,提取网址、标题、描述、状态码等7个关键字段
- URL过滤:过滤状态码为200,且可被搜索引擎索引(indexable),内容类型为HTML的页面
- (可选)文本分类:启用AI文本分类器,根据URL、标题、描述和字数智能区分优质内容与其他内容
- 格式设置:生成每条记录的文本行,格式为
- [标题](链接): 描述
,无描述则省略冒号和描述 - 内容汇总:将所有符合条件的行合并为完整的
llms.txt
文件内容 - 文件生成与下载:生成最终文本文件,可直接下载或替换上传节点自动保存到网盘
涉及的系统或服务
- Screaming Frog SEO Spider(网站爬虫,CSV导出)
- n8n自动化平台(工作流引擎)
- OpenAI GPT-4o-mini(可选文本分类AI模型)
- 云存储服务(如Google Drive、OneDrive,需用户自行配置替换上传节点)
适用人群或使用价值
- 网站管理员和SEO专家:快速整理网站内容结构,提升SEO内容筛选效率
- AI工程师与数据科学家:构建高质量训练语料,助力语言模型性能提升
- 内容运营和数字营销人员:自动化生成内容目录,支持内容管理和优化决策
- 多语言网站运营团队:无需担心语言差异,自动适配字段,简化操作流程
通过此工作流,用户只需上传简单的Screaming Frog导出文件,即可轻松获取结构化的llms.txt
文件,极大提升网站内容AI应用的便捷性与精准度。
Building RAG Chatbot for Movie Recommendations with Qdrant and Open AI
该工作流构建了一个智能电影推荐聊天机器人,利用检索增强生成(RAG)技术,结合Qdrant向量数据库和OpenAI语言模型,为用户提供个性化的电影推荐。通过导入丰富的IMDb数据,生成文本向量并进行高效的相似度搜索,能够深刻理解用户的电影偏好,优化推荐结果,提升用户互动体验,特别适用于在线影视平台和影评社区。
竞争对手调研智能代理
该工作流通过自动化智能代理,帮助用户高效进行竞争对手调研。用户只需输入目标公司官网链接,系统便能自动发现相似公司,采集并分析其基本信息、产品服务和客户评价。最终,所有数据将整合成详尽的报告,存储在Notion中,显著提升调研效率,解决了传统调研中信息分散和整理繁琐的问题,助力市场分析和战略决策。
RAG & GenAI App With WordPress Content
该工作流通过自动化抓取WordPress网站的文章和页面内容,实现基于检索增强生成式人工智能的智能问答系统。它对内容进行过滤、转换和向量化处理,并将数据存储在Supabase数据库中,支持高效的语义检索和动态问答。结合OpenAI的GPT-4模型,用户可以享受更精准的查询体验,同时实现了聊天记忆的持久化管理,增强了交互的上下文连续性,提升了网站内容的智能化利用价值。
Slack AI Chatbot with RAG for company staff
该工作流构建了一个智能聊天机器人,集成于Slack平台,使用RAG技术实时连接企业内部知识库,帮助员工快速查询公司文件、政策和流程。机器人支持自然语言交互,能够精准提取相关信息并以友好的格式回复,确保信息准确可靠。此系统不仅提升了信息获取效率,还自动化了IT支持和人力资源相关问题的响应,极大地改善了员工的工作体验和沟通效率。
YouTube视频智能摘要与问答生成
这个工作流能够自动从指定的YouTube视频中提取转录文本,生成简明摘要,并智能地提供与视频内容相关的问答示例。通过集成先进的文本处理和自然语言生成技术,它大幅提升了信息获取的效率,适用于内容创作者、教育工作者和市场分析师等专业人士,帮助他们快速掌握视频主旨并进行知识管理和内容再利用。
欧盟可持续立法议程自动筛选与任务创建工作流
该工作流自动抓取欧盟议会官网最近18天的立法程序数据,利用先进的AI技术智能筛选与环境可持续性相关的议题。筛选结果将被存储到Google Sheets,并为每个相关议题生成Google任务提醒,帮助用户高效跟踪和管理立法动态。此流程显著提升了信息处理效率,确保用户能够及时关注关键的可持续发展政策。
Perplexity Researcher
该工作流通过接收用户查询,自动生成符合AI模型要求的提示语,并调用相关API进行深度内容检索,提取并输出简洁、结构化的回答。它能够提供带有引用的权威资料,确保结果的专业性和可信度,帮助用户快速获取某一领域的最新研究材料,提升信息检索效率与内容质量,适用于学术研究、内容创作和行业分析等多个场景。
Notion知识库智能助理(Notion Knowledge Base Assistant)
该工作流结合了先进的AI语言模型与Notion知识库,提供智能问答服务。用户可以通过输入问题,系统会自动检索相关内容并生成准确回答,同时附带Notion页面链接,确保信息的可靠性和可追溯性。该助手提升了知识查询的效率,适用于企业内部知识管理、客户支持和个人信息检索等多种场景,帮助用户快速获取所需信息。