RAG on living data

该工作流通过实时更新数据,实现了检索增强生成(RAG)功能,能够自动从Notion知识库获取最新内容,并进行文本分块和向量化处理,存储于Supabase向量数据库。结合OpenAI的GPT-4模型,提供上下文相关的智能问答,显著提升知识库的利用效率和准确性,适用于企业知识管理、客服支持、教育培训等场景,确保用户获取最新信息。

流程图
RAG on living data 工作流程图

工作流名称

RAG on living data

主要功能和亮点

本工作流实现了基于实时更新数据的RAG(Retrieval-Augmented Generation,检索增强生成)流程,能够自动从Notion知识库中获取最新内容,进行文本分块与向量化处理,并存储于Supabase向量数据库中。结合OpenAI的GPT-4模型,实现上下文相关的智能问答,提升知识库内容的利用效率和准确性。

解决的核心问题

解决了知识库内容动态更新后,如何高效同步、更新向量化数据并支持基于上下文的智能问答的问题。通过自动检测Notion页面更新,删除旧向量数据并插入新向量,确保问答基于最新信息,避免数据冗余和信息过时。

应用场景

  • 企业内部知识管理:自动同步和增强企业内部文档、手册、FAQ,实现智能问答。
  • 客服支持系统:基于动态知识库,为客服提供准确、实时的答复支持。
  • 教育培训:整合教学资料库,辅助学生和教师进行智能问答和内容检索。
  • 产品文档查询:为用户提供实时更新的产品使用指南问答服务。

主要流程步骤

  1. 数据触发
    • 通过定时器(Schedule Trigger)每分钟拉取Notion知识库中最近更新的页面。
  2. 数据获取与处理
    • 获取更新页面的所有内容块(Get page blocks)。
    • 将页面内容合并为单行文本(Concatenate to single string)。
    • 按照设定的令牌数分割文本(Token Splitter),便于处理和向量化。
  3. 旧数据清理
    • 删除Supabase向量存储中该页面对应的旧向量数据,避免数据冗余(Delete old embeddings if exist)。
  4. 向量化与存储
    • 利用OpenAI Embeddings节点将文本块转换为向量。
    • 将向量及相关元数据存入Supabase向量数据库(Supabase Vector Store)。
  5. 智能问答触发
    • 通过聊天消息触发器(When chat message received)启动问答流程。
    • 使用向量检索器(Vector Store Retriever)从向量数据库中检索相关内容。
    • 结合OpenAI GPT-4模型进行上下文问答生成(OpenAI Chat Model + Question and Answer Chain)。
  6. 结果输出
    • 返回基于最新知识库内容的智能问答结果。

涉及的系统或服务

  • Notion:作为知识库数据源,提供实时页面和内容块访问。
  • OpenAI:提供文本嵌入生成(Embeddings)和聊天语言模型(GPT-4)支持。
  • Supabase:作为向量存储数据库,存储和检索文本向量数据。
  • n8n:自动化工作流平台,协调各节点执行,实现流程自动化。

适用人群或使用价值

  • 知识管理人员和企业数字化转型团队,助力构建智能知识库。
  • 客服和支持团队,提升响应效率和准确率。
  • 教育机构和培训师,方便内容智能检索和互动问答。
  • 开发者和自动化爱好者,快速搭建基于实时数据的智能问答系统。

该工作流通过结合Notion的动态数据源与OpenAI强大的语言理解能力,配合Supabase高效的向量存储,实现了一个实时、智能且自动化的知识库问答解决方案,极大提升了信息获取的便捷性和精准度。