Vector DB Loader from Google Drive

该工作流旨在自动从Google Drive中下载并处理PDF、纯文本和JSON文件,通过OpenAI的文本嵌入模型将其转化为向量数据,并存储到Postgres数据库中的PGVector向量库。此过程实现了文档的高效管理与检索,同时自动归档已处理文件,提升了工作效率和自动化程度,适合数据工程师、知识管理团队及研究机构使用。

Tags

向量化管理Google Drive自动化

工作流名称

Vector DB Loader from Google Drive

主要功能和亮点

该工作流自动从指定的Google Drive文件夹中搜索并下载文件,支持PDF、纯文本和JSON三种格式的内容提取,利用OpenAI的文本嵌入模型将文本内容转化为向量表示,最终存储进Postgres数据库中的PGVector向量库,实现文档的高效向量化管理。同时,处理完成的文件会被自动移动到另一个指定文件夹,确保文件管理清晰有序。工作流支持手动触发及定时自动运行,极大提升自动化程度和工作效率。

解决的核心问题

  • 自动批量处理多种格式文件(PDF、文本、JSON)
  • 将非结构化文档内容转为结构化向量数据,方便后续相似度搜索和知识库构建
  • 自动化文件下载、处理和归档,减少人工操作和遗漏风险
  • 集成OpenAI强大的文本嵌入功能,实现高质量的文本向量化

应用场景

  • 企业知识库建设与维护
  • 研究资料的向量化存储与快速检索
  • 文档智能分析和内容推荐系统
  • 自动化文档处理和归档管理
  • 需要将Google Drive中大量文档内容转化为向量数据库的场景

主要流程步骤

  1. 定时触发或手动启动工作流
  2. 在Google Drive指定文件夹中搜索目标文件
  3. 逐个文件循环下载
  4. 根据文件类型通过Switch节点分流处理:
    • PDF文件提取文本内容
    • 纯文本文件直接提取内容
    • JSON文件解析内容
  5. 使用OpenAI的text-embedding-3-small模型生成文本向量
  6. 将向量数据插入Postgres PGVector数据库指定表和集合
  7. 文件处理完毕后,自动移动至Google Drive的“vectorized”归档文件夹
  8. 完成后等待下一次触发

涉及的系统或服务

  • Google Drive(文件搜索、下载、移动)
  • OpenAI(文本嵌入模型)
  • Postgres数据库(PGVector向量存储)

适用人群或使用价值

  • 数据工程师与自动化运维人员:实现文档数据自动化处理与管理
  • 知识管理与信息检索团队:构建高效的向量化知识库
  • 研究机构和企业:快速将大量文档转化为结构化向量数据,支持智能搜索和分析
  • 开发者和产品经理:快速搭建基于向量数据库的智能应用和服务

此工作流采用Creative Commons Attribution-ShareAlike 4.0国际许可协议(CC BY-SA 4.0),允许自由使用、改编和共享,助力更多用户构建智能文档向量化解决方案。

推荐模板

My workflow 6

该工作流通过Slack的Slash命令实现智能AI聊天机器人,能够接收用户请求并调用OpenAI GPT-4o-mini模型生成实时回复。支持多条命令的分流处理,自动化响应减少人工负担,同时结合Webhook和LangChain技术提升对话的上下文理解。适用于企业内部沟通、客户支持等场景,旨在提高沟通效率并提供灵活的智能交互体验。

智能聊天机器人Slack集成

Travel Planning Agent with Couchbase Vector Search, Gemini 2.0 Flash and OpenAI

该工作流是一个智能旅行规划助手,通过结合大型语言模型和向量搜索技术,能够快速为用户提供个性化的旅行推荐。用户可以通过聊天与AI代理互动,基于兴趣点数据获取精准的旅游建议。工作流支持批量数据插入和高效检索,解决了传统旅行规划中信息分散和查询效率低的问题,适用于旅游服务平台、旅行社及相关应用场景。

智能旅行向量搜索

AI Agent for Realtime Insights on Meetings(实时会议智能助理)

该工作流通过智能助理自动加入在线会议,实现实时语音转录,精准捕捉和整理会议对话。结合AI技术,能够基于关键词进行智能分析和笔记生成,并将结构化数据存储,方便后续检索。此解决方案显著提升会议记录的效率和准确性,适用于远程团队、项目管理及各行业的会议纪要自动生成,助力团队协作和信息透明化。

智能会议实时转录

Image Generation API

该工作流通过Webhook接口实时接收用户的文本提示,并利用OpenAI的图像生成API生成对应的图片。用户只需将带提示词的URL粘贴到浏览器,即可快速获取AI生成的图像,整个过程自动化且响应迅速。它简化了传统图像生成的复杂流程,让用户无需编写代码,轻松实现创作,适用于设计师、内容创作者和开发者等多种场景。

AI图像生成Webhook接口

Airtop Web Agent

Airtop Web Agent是一款智能网页自动化工具,能够根据用户的自然语言指令执行复杂的网页交互操作,如查询、点击和输入。它利用AI技术自动解析指令,简化了传统网页自动化的复杂性,并通过Slack实时推送执行结果,方便团队沟通与协作。适用于数据抓取、市场调研及企业内部工作流集成,提升了工作效率与响应速度。

网页自动化AI代理

POC - Chatbot Order by Sheet Data

该工作流实现了一个智能聊天助手Pizzaro,主要用于披萨订购。通过自然语言交互,客户可以方便地查询菜单、提交订单和查询订单状态。系统集成了AI模型和多种工具,实时获取产品信息并自动处理订单,有效解决了传统订购流程中的响应慢和易出错问题,提升了客户服务的效率和准确性,适用于餐饮和电商平台等多种场景。

智能客服订单管理

Line_Chatbot_Extract_Text_from_Pay_Slip_with_Gemini

该工作流主要通过AI技术自动识别并提取用户在聊天工具中发送的工资单图片中的关键信息,包括状态、发起方、接收方、日期和金额。提取后的数据实时回复给用户,并同步保存至电子表格。此流程不仅提升了工资单信息处理的效率,减少了人工输入错误,还实现了智能分类和上下文记忆,极大改善了用户交互体验,适用于企业HR和财务部门的自动化需求。

工资单识别智能提取

Whisper Transkription copy

该工作流通过自动监控Google Drive中的音频文件上传,下载后利用OpenAI的Whisper模型进行高质量转录,并通过GPT-4 Turbo模型生成结构化摘要,最后将结果同步保存至Notion页面。它有效解决了传统音频管理与信息提取的低效问题,极大提升了音频资料的利用效率,适用于会议记录、采访整理、学术讲座等多种场景,帮助用户快速获取关键信息。

音频转录智能摘要