[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)
该工作流实现了从Google Cloud Storage批量导入农作物图片数据集,并将其进行多模态特征嵌入。生成的向量及相关元数据将批量上传至Qdrant向量数据库,支持自动创建集合和索引,确保数据结构规范。特别针对异常检测场景,过滤特定类别图片,以便于后续模型训练和验证。适用于农业图像分类、异常检测及大规模图片数据管理,提升数据处理效率和准确性。
流程图
![[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset) 工作流程图](/_next/image?url=https%3A%2F%2Fimg.n8ntemplates.dev%2Fcdn-cgi%2Fimage%2Fwidth%3D1024%2Cheight%3D640%2Cquality%3D85%2Cformat%3Dauto%2Cfit%3Dcover%2Conerror%3Dredirect%2Ftemplates%2Fanomaly-detection-knn-batch-upload-qdrant-crops-bf9769.png&w=3840&q=75)
工作流名称
[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)
主要功能和亮点
本工作流实现了从Google Cloud Storage批量导入农作物图片数据集,对图片进行多模态特征嵌入(Embedding),并将生成的向量和相关元数据批量上传至Qdrant向量数据库。支持自动创建Qdrant集合及索引,保证数据结构和上传流程的规范性与高效性。特别针对异常检测场景,过滤掉特定类别(如“tomato”)的图片进行测试,便于后续异常检测模型的训练和验证。
解决的核心问题
- 自动化批量导入和处理大规模图片数据集,避免手动繁琐操作
- 统一图片数据的向量化表示,方便后续基于向量的相似度检索和分类
- Qdrant集合的存在性检测及动态创建,防止重复创建报错
- 生成唯一UUID作为Qdrant点ID,确保数据点唯一性
- 支持按批次处理和上传,提高上传效率,避免接口压力
- 通过创建payload索引,优化基于元数据字段(如crop_name)的查询性能
应用场景
- 农业图像分类与异常检测:对不同农作物图片进行向量化存储,支持后续的异常识别和分类任务
- 任何需要将图像数据转换为向量并存储于向量数据库的机器学习和AI应用
- 大规模图片数据集的批量处理和管理
- 基于Qdrant的向量检索系统建设
主要流程步骤
- 手动触发工作流启动。
- 设置Qdrant云端连接变量,包括集群URL、集合名称、嵌入向量维度和批次大小。
- 检查指定名称的Qdrant集合是否存在,若不存在则创建集合并建立payload索引。
- 从Google Cloud Storage指定桶和前缀路径获取农作物图片数据列表。
- 构造公开可访问的图片URL,并从路径中提取作物名称。
- 过滤掉“tomato”类别图片(用于异常检测测试)。
- 将图片数据按照批次大小分割,并为每个数据点生成唯一UUID。
- 格式化数据以适配Voyage AI多模态嵌入API的输入格式。
- 调用Voyage多模态嵌入API,获取图片的向量表示。
- 将生成的向量与对应元数据批量上传至Qdrant集合。
涉及的系统或服务
- Google Cloud Storage:存储和读取图片数据集。
- Qdrant Cloud:向量数据库,用于存储和检索图片嵌入向量。
- Voyage AI多模态嵌入API:负责将图片转换为高维向量表示。
- n8n自动化平台:协调各节点执行,管理整个工作流。
适用人群或使用价值
- AI工程师和数据科学家:快速搭建图像向量化和存储流程,推动异常检测和分类模型开发。
- 农业科技企业:实现农作物图片的智能分析和异常识别。
- 机器学习研发团队:批量处理和管理大规模图片数据,提升数据预处理效率。
- 向量数据库用户:示范如何结合数据存储、向量生成与批量上传,实现端到端的向量数据管理。
该工作流模板结构清晰,便于适配其他图像数据集,只需替换存储桶路径和集合配置,即可复用到不同场景。通过批量处理和自动化的集成方案,极大地简化了图像向量数据准备工作,为后续的机器学习任务奠定坚实基础。