RAG & GenAI App With WordPress Content

该工作流通过自动化抓取WordPress网站的文章和页面内容,实现基于检索增强生成式人工智能的智能问答系统。它对内容进行过滤、转换和向量化处理,并将数据存储在Supabase数据库中,支持高效的语义检索和动态问答。结合OpenAI的GPT-4模型,用户可以享受更精准的查询体验,同时实现了聊天记忆的持久化管理,增强了交互的上下文连续性,提升了网站内容的智能化利用价值。

流程图
RAG & GenAI App With WordPress Content 工作流程图

工作流名称

RAG & GenAI App With WordPress Content

主要功能和亮点

该工作流实现了基于WordPress网站内容的检索增强生成式人工智能(RAG)应用。它自动抓取WordPress的文章和页面内容,进行内容过滤、转换和向量化处理,然后将嵌入数据存储在Supabase向量数据库中,支持基于内容的智能问答。结合OpenAI GPT-4模型和Postgres持久化聊天记忆,实现了网站内容的动态更新与智能互动。

解决的核心问题

  • 自动化从WordPress网站同步最新内容,避免手动更新数据。
  • 通过向量嵌入技术,实现对大规模网站内容的高效语义检索。
  • 解决传统问答系统无法准确利用网站丰富内容的问题,提升用户查询体验。
  • 支持内容的发布状态和保护状态过滤,确保敏感内容不被暴露。
  • 实现聊天历史的持久化管理,增强用户交互的上下文连续性。

应用场景

  • 企业或个人网站通过智能问答机器人,提升用户访问体验和内容利用率。
  • 内容丰富的WordPress网站,如博客、资讯站点,构建基于内容的智能客服或助手。
  • 需要定期同步网站内容并构建知识库的场景。
  • 结合GenAI技术,实现智能内容推荐、问答和交互。

主要流程步骤

  1. 触发与内容获取
    • 手动触发或定时触发工作流。
    • 通过WordPress节点抓取所有文章和页面,支持基于上次执行时间的增量获取。
  2. 数据过滤与处理
    • 过滤仅保留已发布且未受保护的内容。
    • 将HTML内容转换为Markdown格式,便于后续处理。
  3. 内容拆分与嵌入生成
    • 使用Token Splitter将内容拆分为指定大小的片段,保证上下文连续性。
    • 利用OpenAI文本嵌入模型(text-embedding-3-small)生成内容向量。
  4. 向量数据存储与更新
    • 判断内容是否已存在于Supabase向量数据库。
    • 对已更新内容执行删除并重新插入操作,新增内容直接插入。
    • 记录工作流执行历史,便于增量更新控制。
  5. 智能问答交互
    • 监听聊天触发器,接收用户输入。
    • 根据用户输入,从Supabase检索相关文档。
    • 结合OpenAI GPT-4模型和Postgres聊天记忆,生成包含文档元信息的回答。
    • 通过Webhook节点响应用户请求,完成问答交互。

涉及的系统或服务

  • WordPress:获取网站文章和页面内容。
  • OpenAI:文本嵌入生成(text-embedding-3-small模型)和对话生成(gpt-4o-mini模型)。
  • Supabase:存储和管理向量数据及工作流执行历史。
  • Postgres:持久化存储聊天历史,支持向量检索。
  • n8n核心节点:手动触发、定时触发、HTTP请求、Webhook响应、数据处理(聚合、过滤、设置字段等)。

适用人群或使用价值

  • 网站运营者和内容管理者,期望通过自动化工具提升内容智能化利用。
  • 开发者和技术团队,快速搭建基于WordPress内容的智能问答系统。
  • 企业客户服务团队,打造集成网站内容的智能客服机器人。
  • 希望结合生成式AI和检索增强技术,提升用户交互质量和内容搜索体验的各类组织。

该工作流通过高度自动化和多系统集成,实现了WordPress内容到智能问答的闭环,极大提升了网站内容的智能化应用价值。