[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)

该工作流实现了农业作物图像数据集的批量导入至Qdrant向量数据库,涵盖数据预处理、图像向量生成及高效上传。通过自动创建集合、生成唯一UUID并调用多模态嵌入API,确保数据结构规范且上传高效,支持后续的相似度搜索和异常检测。适合农业领域及机器学习应用的数据准备,优化了大规模图像数据管理的流程。

流程图
[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset) 工作流程图

工作流名称

[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)

主要功能和亮点

本工作流实现了批量导入农业作物图像数据集到Qdrant向量数据库的全过程,涵盖数据预处理、批量生成多模态图像嵌入向量、以及高效上传。亮点包括自动检测并创建Qdrant集合,支持批量UUID生成以保证数据唯一性,结合Voyage AI多模态嵌入API实现图像向量转换,并通过Google Cloud Storage稳定获取数据源。

解决的核心问题

解决了大规模图像数据集从云存储到向量数据库的批量上传难题,特别是针对带有类别标签(如作物名称)结构化管理的图像集合,保障数据结构规范、上传高效且支持后续基于向量的相似度搜索和异常检测。

应用场景

  • 农业领域作物图像的异常检测与分类模型构建前的数据准备
  • 任何基于图像嵌入的机器学习应用的数据批量导入
  • 向量数据库Qdrant的快速数据集初始化
  • 多模态嵌入技术在图像检索与分类场景中的应用

主要流程步骤

  1. 手动触发工作流启动
  2. 配置并校验Qdrant云端集合是否存在,若无则创建集合并建立基于“crop_name”的载荷索引
  3. 从Google Cloud Storage批量拉取作物图像数据(过滤掉“tomato”类,用于异常检测测试)
  4. 为每张图片构造公开访问URL及提取作物名称作为标签
  5. 将数据按批次分组,批次大小可配置,同时生成对应UUID作为Qdrant点的唯一标识
  6. 调用Voyage AI的多模态嵌入API,将图像批量转为1024维向量
  7. 按批次将向量及对应元数据上传至Qdrant集合,实现批量数据持久化

涉及的系统或服务

  • Qdrant Cloud:向量数据库服务,支持集合管理和点批量上传
  • Google Cloud Storage:图像数据云存储,作为数据源
  • Voyage AI Multimodal Embeddings API:多模态图像向量生成
  • n8n自动化平台:跨系统工作流编排与执行

适用人群或使用价值

  • 数据科学家和机器学习工程师:简化图像数据预处理与向量化上传流程,提升模型训练数据准备效率
  • 农业智能化解决方案开发者:快速搭建作物图像异常检测和分类的基础数据集
  • AI应用开发者:便捷接入多模态嵌入API与向量数据库,支持复杂的相似度搜索和分析
  • 企业数据工程团队:实现云端数据存储与向量数据库的无缝集成,优化大规模图像数据管理

该工作流是构建“异常检测”与“KNN分类”系统的第一步,后续工作流将基于此完成聚类中心设定和实际的异常检测/分类任务。整体流程高度模块化,易于迁移到其他图像数据集和向量搜索应用场景。