[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)

该工作流实现了从Google Cloud Storage批量导入农作物图片数据集,并将其进行多模态特征嵌入。生成的向量及相关元数据将批量上传至Qdrant向量数据库,支持自动创建集合和索引,确保数据结构规范。特别针对异常检测场景,过滤特定类别图片,以便于后续模型训练和验证。适用于农业图像分类、异常检测及大规模图片数据管理,提升数据处理效率和准确性。

Tags

向量数据库Qdrant

工作流名称

[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)

主要功能和亮点

本工作流实现了从Google Cloud Storage批量导入农作物图片数据集,对图片进行多模态特征嵌入(Embedding),并将生成的向量和相关元数据批量上传至Qdrant向量数据库。支持自动创建Qdrant集合及索引,保证数据结构和上传流程的规范性与高效性。特别针对异常检测场景,过滤掉特定类别(如“tomato”)的图片进行测试,便于后续异常检测模型的训练和验证。

解决的核心问题

  • 自动化批量导入和处理大规模图片数据集,避免手动繁琐操作
  • 统一图片数据的向量化表示,方便后续基于向量的相似度检索和分类
  • Qdrant集合的存在性检测及动态创建,防止重复创建报错
  • 生成唯一UUID作为Qdrant点ID,确保数据点唯一性
  • 支持按批次处理和上传,提高上传效率,避免接口压力
  • 通过创建payload索引,优化基于元数据字段(如crop_name)的查询性能

应用场景

  • 农业图像分类与异常检测:对不同农作物图片进行向量化存储,支持后续的异常识别和分类任务
  • 任何需要将图像数据转换为向量并存储于向量数据库的机器学习和AI应用
  • 大规模图片数据集的批量处理和管理
  • 基于Qdrant的向量检索系统建设

主要流程步骤

  1. 手动触发工作流启动。
  2. 设置Qdrant云端连接变量,包括集群URL、集合名称、嵌入向量维度和批次大小。
  3. 检查指定名称的Qdrant集合是否存在,若不存在则创建集合并建立payload索引。
  4. 从Google Cloud Storage指定桶和前缀路径获取农作物图片数据列表。
  5. 构造公开可访问的图片URL,并从路径中提取作物名称。
  6. 过滤掉“tomato”类别图片(用于异常检测测试)。
  7. 将图片数据按照批次大小分割,并为每个数据点生成唯一UUID。
  8. 格式化数据以适配Voyage AI多模态嵌入API的输入格式。
  9. 调用Voyage多模态嵌入API,获取图片的向量表示。
  10. 将生成的向量与对应元数据批量上传至Qdrant集合。

涉及的系统或服务

  • Google Cloud Storage:存储和读取图片数据集。
  • Qdrant Cloud:向量数据库,用于存储和检索图片嵌入向量。
  • Voyage AI多模态嵌入API:负责将图片转换为高维向量表示。
  • n8n自动化平台:协调各节点执行,管理整个工作流。

适用人群或使用价值

  • AI工程师和数据科学家:快速搭建图像向量化和存储流程,推动异常检测和分类模型开发。
  • 农业科技企业:实现农作物图片的智能分析和异常识别。
  • 机器学习研发团队:批量处理和管理大规模图片数据,提升数据预处理效率。
  • 向量数据库用户:示范如何结合数据存储、向量生成与批量上传,实现端到端的向量数据管理。

该工作流模板结构清晰,便于适配其他图像数据集,只需替换存储桶路径和集合配置,即可复用到不同场景。通过批量处理和自动化的集成方案,极大地简化了图像向量数据准备工作,为后续的机器学习任务奠定坚实基础。

推荐模板

Stackby数据写入与读取自动化流程

该工作流实现了通过手动触发,自动向Stackby数据库指定表格写入一条数据,并立即读取该表中的所有数据列表。通过这一自动化流程,用户无需进行繁琐的手动操作,显著提高了数据管理的效率与准确性,适合需要频繁更新和查询数据的团队与个人。此流程有效降低了操作复杂度,适用于各种自动化办公场景。

Stackby自动化n8n集成

Google Sheets 自动导出并同步至 Dropbox

该工作流自动从 Google Sheets 中读取数据,并将其转换为 XLS 格式文件,随后上传至 Dropbox 云存储。每 15 分钟触发一次,确保数据同步及时且稳定。通过自动化操作,减少了手动导出和上传的繁琐过程,提高了工作效率,确保团队共享和备份文件的实时性,适合财务、销售等需要频繁更新和共享表格的团队。

Google SheetsDropbox同步

导出SQL表数据为CSV文件

该工作流能够自动从Microsoft SQL数据库中读取指定表的数据,并将其转换为CSV文件。用户只需点击“执行工作流”按钮,便可轻松完成数据导出,适用于数据分析师、业务人员及IT运维。通过自动化操作,简化了传统手动导出流程,提高了效率和准确性,降低了人为错误,便于后续的数据分析和管理。

SQL导出CSV转换

PostgreSQL export to CSV

该工作流旨在简化从PostgreSQL数据库导出数据至CSV格式的过程。用户只需手动触发工作流,系统便会自动执行查询并生成CSV文件,方便数据备份、共享和分析。此流程有效解决了繁琐的手动导出和格式转换问题,提高了数据处理的效率和准确性,适合数据分析师、产品经理及开发人员等多种应用场景。

PostgreSQL导出CSV转换

Box 文件夹事件触发器

该工作流主要功能是实时监控 Box 云存储平台上指定文件夹的“移动”和“下载”事件。一旦检测到相关操作,系统会自动触发后续处理流程,如发送通知或数据同步。此流程确保用户能够快速响应关键文件夹的状态变动,提高工作效率,降低人工监控成本,适用于企业IT管理员和项目经理等需要自动化文件管理的用户。

Box触发器文件夹监控

SQLite MCP Server 数据库管理工作流

该工作流通过构建基于SQLite的MCP服务器,实现了本地数据库的自动化管理,包括安全的增删改查操作。用户可以通过MCP客户端远程执行数据库操作,确保操作的安全性和规范性。同时,工作流提供数据库表结构的描述和查询功能,支持智能路由请求,简化业务流程,适用于企业内部数据管理、智能分析和与AI助手的集成,助力数字化转型。

SQLite管理MCP协议

产品标签自动生成与打印工作流

该工作流通过接收Webhook请求,自动获取并整合产品及其卷材的详细信息,生成完整的产品标签数据,支持快速准确的打印。它有效减少了人工输入和数据遗漏,提高了标签生成的效率和准确性,适用于服装、纺织和制造行业的批量打印需求,优化了仓库管理和电商发货流程,提升了整体业务效能。

产品标签自动打印

Create a table and insert data into it

该工作流的主要功能是自动化创建和插入数据到QuestDB数据库中的表。用户只需通过简单的点击触发,系统便会执行建表和数据插入操作,简化传统数据库操作的复杂流程。此工作流特别适合开发和测试环境,能够快速初始化数据库表结构,自动化数据录入,降低操作风险,提高工作效率。

QuestDB数据库自动化