[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)
该工作流实现了从Google Cloud Storage批量导入农作物图片数据集,并将其进行多模态特征嵌入。生成的向量及相关元数据将批量上传至Qdrant向量数据库,支持自动创建集合和索引,确保数据结构规范。特别针对异常检测场景,过滤特定类别图片,以便于后续模型训练和验证。适用于农业图像分类、异常检测及大规模图片数据管理,提升数据处理效率和准确性。
Tags
工作流名称
[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)
主要功能和亮点
本工作流实现了从Google Cloud Storage批量导入农作物图片数据集,对图片进行多模态特征嵌入(Embedding),并将生成的向量和相关元数据批量上传至Qdrant向量数据库。支持自动创建Qdrant集合及索引,保证数据结构和上传流程的规范性与高效性。特别针对异常检测场景,过滤掉特定类别(如“tomato”)的图片进行测试,便于后续异常检测模型的训练和验证。
解决的核心问题
- 自动化批量导入和处理大规模图片数据集,避免手动繁琐操作
- 统一图片数据的向量化表示,方便后续基于向量的相似度检索和分类
- Qdrant集合的存在性检测及动态创建,防止重复创建报错
- 生成唯一UUID作为Qdrant点ID,确保数据点唯一性
- 支持按批次处理和上传,提高上传效率,避免接口压力
- 通过创建payload索引,优化基于元数据字段(如crop_name)的查询性能
应用场景
- 农业图像分类与异常检测:对不同农作物图片进行向量化存储,支持后续的异常识别和分类任务
- 任何需要将图像数据转换为向量并存储于向量数据库的机器学习和AI应用
- 大规模图片数据集的批量处理和管理
- 基于Qdrant的向量检索系统建设
主要流程步骤
- 手动触发工作流启动。
- 设置Qdrant云端连接变量,包括集群URL、集合名称、嵌入向量维度和批次大小。
- 检查指定名称的Qdrant集合是否存在,若不存在则创建集合并建立payload索引。
- 从Google Cloud Storage指定桶和前缀路径获取农作物图片数据列表。
- 构造公开可访问的图片URL,并从路径中提取作物名称。
- 过滤掉“tomato”类别图片(用于异常检测测试)。
- 将图片数据按照批次大小分割,并为每个数据点生成唯一UUID。
- 格式化数据以适配Voyage AI多模态嵌入API的输入格式。
- 调用Voyage多模态嵌入API,获取图片的向量表示。
- 将生成的向量与对应元数据批量上传至Qdrant集合。
涉及的系统或服务
- Google Cloud Storage:存储和读取图片数据集。
- Qdrant Cloud:向量数据库,用于存储和检索图片嵌入向量。
- Voyage AI多模态嵌入API:负责将图片转换为高维向量表示。
- n8n自动化平台:协调各节点执行,管理整个工作流。
适用人群或使用价值
- AI工程师和数据科学家:快速搭建图像向量化和存储流程,推动异常检测和分类模型开发。
- 农业科技企业:实现农作物图片的智能分析和异常识别。
- 机器学习研发团队:批量处理和管理大规模图片数据,提升数据预处理效率。
- 向量数据库用户:示范如何结合数据存储、向量生成与批量上传,实现端到端的向量数据管理。
该工作流模板结构清晰,便于适配其他图像数据集,只需替换存储桶路径和集合配置,即可复用到不同场景。通过批量处理和自动化的集成方案,极大地简化了图像向量数据准备工作,为后续的机器学习任务奠定坚实基础。
Stackby数据写入与读取自动化流程
该工作流实现了通过手动触发,自动向Stackby数据库指定表格写入一条数据,并立即读取该表中的所有数据列表。通过这一自动化流程,用户无需进行繁琐的手动操作,显著提高了数据管理的效率与准确性,适合需要频繁更新和查询数据的团队与个人。此流程有效降低了操作复杂度,适用于各种自动化办公场景。
Google Sheets 自动导出并同步至 Dropbox
该工作流自动从 Google Sheets 中读取数据,并将其转换为 XLS 格式文件,随后上传至 Dropbox 云存储。每 15 分钟触发一次,确保数据同步及时且稳定。通过自动化操作,减少了手动导出和上传的繁琐过程,提高了工作效率,确保团队共享和备份文件的实时性,适合财务、销售等需要频繁更新和共享表格的团队。
导出SQL表数据为CSV文件
该工作流能够自动从Microsoft SQL数据库中读取指定表的数据,并将其转换为CSV文件。用户只需点击“执行工作流”按钮,便可轻松完成数据导出,适用于数据分析师、业务人员及IT运维。通过自动化操作,简化了传统手动导出流程,提高了效率和准确性,降低了人为错误,便于后续的数据分析和管理。
PostgreSQL export to CSV
该工作流旨在简化从PostgreSQL数据库导出数据至CSV格式的过程。用户只需手动触发工作流,系统便会自动执行查询并生成CSV文件,方便数据备份、共享和分析。此流程有效解决了繁琐的手动导出和格式转换问题,提高了数据处理的效率和准确性,适合数据分析师、产品经理及开发人员等多种应用场景。
Box 文件夹事件触发器
该工作流主要功能是实时监控 Box 云存储平台上指定文件夹的“移动”和“下载”事件。一旦检测到相关操作,系统会自动触发后续处理流程,如发送通知或数据同步。此流程确保用户能够快速响应关键文件夹的状态变动,提高工作效率,降低人工监控成本,适用于企业IT管理员和项目经理等需要自动化文件管理的用户。
SQLite MCP Server 数据库管理工作流
该工作流通过构建基于SQLite的MCP服务器,实现了本地数据库的自动化管理,包括安全的增删改查操作。用户可以通过MCP客户端远程执行数据库操作,确保操作的安全性和规范性。同时,工作流提供数据库表结构的描述和查询功能,支持智能路由请求,简化业务流程,适用于企业内部数据管理、智能分析和与AI助手的集成,助力数字化转型。
产品标签自动生成与打印工作流
该工作流通过接收Webhook请求,自动获取并整合产品及其卷材的详细信息,生成完整的产品标签数据,支持快速准确的打印。它有效减少了人工输入和数据遗漏,提高了标签生成的效率和准确性,适用于服装、纺织和制造行业的批量打印需求,优化了仓库管理和电商发货流程,提升了整体业务效能。
Create a table and insert data into it
该工作流的主要功能是自动化创建和插入数据到QuestDB数据库中的表。用户只需通过简单的点击触发,系统便会执行建表和数据插入操作,简化传统数据库操作的复杂流程。此工作流特别适合开发和测试环境,能够快速初始化数据库表结构,自动化数据录入,降低操作风险,提高工作效率。