RAG & GenAI App With WordPress Content
该工作流通过自动抓取WordPress网站的公开内容,利用生成式AI和向量数据库,实现了智能问答系统。它将文章和页面内容转换为Markdown格式,并生成向量表示,支持快速语义检索。用户可实时提问,系统结合相关内容生成准确回答,提升网站互动体验。这一方案适合需要智能客服和知识管理的企业或个人网站,确保内容始终更新并高效服务访客。
流程图

工作流名称
RAG & GenAI App With WordPress Content
主要功能和亮点
该工作流实现了基于WordPress网站内容的检索增强生成式AI(RAG)应用。它能够自动抓取WordPress的文章和页面内容,过滤仅公开且未受保护的内容,将内容转换为Markdown格式,并通过OpenAI的文本嵌入模型生成向量表示,存储于Supabase的向量数据库中。用户可通过集成的聊天接口,实时向AI提问,AI结合向量数据库中的相关内容,基于GPT-4模型生成带有内容来源元数据的准确回答,提升网站交互体验。
解决的核心问题
- 自动化抓取和更新WordPress网站内容,实现内容的动态嵌入向量生成,避免手动维护知识库。
- 通过向量检索技术,实现对海量网站内容的高效语义搜索和精准匹配。
- 将检索结果与生成式AI结合,提升用户提问的回答质量和信息可信度。
- 支持内容的版本更新检测,确保知识库内容始终最新。
应用场景
- 企业或个人网站搭建智能问答机器人,提升访客的互动体验。
- 内容驱动型网站快速构建基于内容的聊天助手。
- 利用网站内容做知识管理、客服自动化、智能推荐等应用。
- 需要持续同步网站内容并基于此进行语义搜索与问答的场景。
主要流程步骤
- 触发器:手动或定时触发工作流。
- WordPress内容抓取:通过WordPress API获取所有文章和页面。
- 内容过滤:筛选已发布且非保护的内容。
- 内容格式转换:将HTML内容转换为Markdown。
- 文本切分:对长文本进行分块处理以适应模型输入限制。
- 生成嵌入向量:调用OpenAI的text-embedding-3-small模型为内容生成向量。
- 存储向量和元数据:将内容及其向量存储到Supabase向量数据库。
- 版本控制:使用Postgres数据库记录上次执行时间,获取并更新修改后的内容。
- 聊天触发:当用户发送聊天消息时,调用Supabase检索相关文档。
- 生成回答:结合检索到的文档和聊天上下文,调用GPT-4模型生成回答,包含内容的URL、类型、发布日期和修改日期等元数据。
- 响应输出:通过Webhook将回答返回给前端。
涉及的系统或服务
- WordPress API(获取文章和页面)
- OpenAI(文本嵌入模型text-embedding-3-small和GPT-4o-mini聊天模型)
- Supabase(向量数据库用于存储和检索嵌入向量及相关文档)
- Postgres数据库(存储聊天历史和工作流执行记录)
- n8n自动化平台(工作流管理与节点执行)
适用人群或使用价值
- 网站运营者和内容管理者,想要将网站内容智能化、自动化地服务于访客。
- 开发者和自动化专家,需构建基于现有网站内容的智能聊天机器人或知识库系统。
- 企业客户服务团队,希望通过AI提升用户自助服务效率。
- 内容创作者和营销人员,想要通过AI辅助提升内容的交互性和用户粘性。
该工作流通过自动化的内容抓取、智能嵌入生成和高效的语义检索,为WordPress网站打造了一个智能问答引擎,极大提升内容利用价值和用户体验,是构建现代内容驱动型AI应用的理想选择。