RAG & GenAI App With WordPress Content

该工作流通过自动抓取WordPress网站的公开内容,利用生成式AI和向量数据库,实现了智能问答系统。它将文章和页面内容转换为Markdown格式,并生成向量表示,支持快速语义检索。用户可实时提问,系统结合相关内容生成准确回答,提升网站互动体验。这一方案适合需要智能客服和知识管理的企业或个人网站,确保内容始终更新并高效服务访客。

流程图
RAG & GenAI App With WordPress Content 工作流程图

工作流名称

RAG & GenAI App With WordPress Content

主要功能和亮点

该工作流实现了基于WordPress网站内容的检索增强生成式AI(RAG)应用。它能够自动抓取WordPress的文章和页面内容,过滤仅公开且未受保护的内容,将内容转换为Markdown格式,并通过OpenAI的文本嵌入模型生成向量表示,存储于Supabase的向量数据库中。用户可通过集成的聊天接口,实时向AI提问,AI结合向量数据库中的相关内容,基于GPT-4模型生成带有内容来源元数据的准确回答,提升网站交互体验。

解决的核心问题

  • 自动化抓取和更新WordPress网站内容,实现内容的动态嵌入向量生成,避免手动维护知识库。
  • 通过向量检索技术,实现对海量网站内容的高效语义搜索和精准匹配。
  • 将检索结果与生成式AI结合,提升用户提问的回答质量和信息可信度。
  • 支持内容的版本更新检测,确保知识库内容始终最新。

应用场景

  • 企业或个人网站搭建智能问答机器人,提升访客的互动体验。
  • 内容驱动型网站快速构建基于内容的聊天助手。
  • 利用网站内容做知识管理、客服自动化、智能推荐等应用。
  • 需要持续同步网站内容并基于此进行语义搜索与问答的场景。

主要流程步骤

  1. 触发器:手动或定时触发工作流。
  2. WordPress内容抓取:通过WordPress API获取所有文章和页面。
  3. 内容过滤:筛选已发布且非保护的内容。
  4. 内容格式转换:将HTML内容转换为Markdown。
  5. 文本切分:对长文本进行分块处理以适应模型输入限制。
  6. 生成嵌入向量:调用OpenAI的text-embedding-3-small模型为内容生成向量。
  7. 存储向量和元数据:将内容及其向量存储到Supabase向量数据库。
  8. 版本控制:使用Postgres数据库记录上次执行时间,获取并更新修改后的内容。
  9. 聊天触发:当用户发送聊天消息时,调用Supabase检索相关文档。
  10. 生成回答:结合检索到的文档和聊天上下文,调用GPT-4模型生成回答,包含内容的URL、类型、发布日期和修改日期等元数据。
  11. 响应输出:通过Webhook将回答返回给前端。

涉及的系统或服务

  • WordPress API(获取文章和页面)
  • OpenAI(文本嵌入模型text-embedding-3-small和GPT-4o-mini聊天模型)
  • Supabase(向量数据库用于存储和检索嵌入向量及相关文档)
  • Postgres数据库(存储聊天历史和工作流执行记录)
  • n8n自动化平台(工作流管理与节点执行)

适用人群或使用价值

  • 网站运营者和内容管理者,想要将网站内容智能化、自动化地服务于访客。
  • 开发者和自动化专家,需构建基于现有网站内容的智能聊天机器人或知识库系统。
  • 企业客户服务团队,希望通过AI提升用户自助服务效率。
  • 内容创作者和营销人员,想要通过AI辅助提升内容的交互性和用户粘性。

该工作流通过自动化的内容抓取、智能嵌入生成和高效的语义检索,为WordPress网站打造了一个智能问答引擎,极大提升内容利用价值和用户体验,是构建现代内容驱动型AI应用的理想选择。