[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)

该工作流实现了农业作物图像数据集的批量导入至Qdrant向量数据库,涵盖数据预处理、图像向量生成及高效上传。通过自动创建集合、生成唯一UUID并调用多模态嵌入API,确保数据结构规范且上传高效,支持后续的相似度搜索和异常检测。适合农业领域及机器学习应用的数据准备,优化了大规模图像数据管理的流程。

Tags

向量数据库Qdrant上传

工作流名称

[1/3 - anomaly detection] [1/2 - KNN classification] Batch upload dataset to Qdrant (crops dataset)

主要功能和亮点

本工作流实现了批量导入农业作物图像数据集到Qdrant向量数据库的全过程,涵盖数据预处理、批量生成多模态图像嵌入向量、以及高效上传。亮点包括自动检测并创建Qdrant集合,支持批量UUID生成以保证数据唯一性,结合Voyage AI多模态嵌入API实现图像向量转换,并通过Google Cloud Storage稳定获取数据源。

解决的核心问题

解决了大规模图像数据集从云存储到向量数据库的批量上传难题,特别是针对带有类别标签(如作物名称)结构化管理的图像集合,保障数据结构规范、上传高效且支持后续基于向量的相似度搜索和异常检测。

应用场景

  • 农业领域作物图像的异常检测与分类模型构建前的数据准备
  • 任何基于图像嵌入的机器学习应用的数据批量导入
  • 向量数据库Qdrant的快速数据集初始化
  • 多模态嵌入技术在图像检索与分类场景中的应用

主要流程步骤

  1. 手动触发工作流启动
  2. 配置并校验Qdrant云端集合是否存在,若无则创建集合并建立基于“crop_name”的载荷索引
  3. 从Google Cloud Storage批量拉取作物图像数据(过滤掉“tomato”类,用于异常检测测试)
  4. 为每张图片构造公开访问URL及提取作物名称作为标签
  5. 将数据按批次分组,批次大小可配置,同时生成对应UUID作为Qdrant点的唯一标识
  6. 调用Voyage AI的多模态嵌入API,将图像批量转为1024维向量
  7. 按批次将向量及对应元数据上传至Qdrant集合,实现批量数据持久化

涉及的系统或服务

  • Qdrant Cloud:向量数据库服务,支持集合管理和点批量上传
  • Google Cloud Storage:图像数据云存储,作为数据源
  • Voyage AI Multimodal Embeddings API:多模态图像向量生成
  • n8n自动化平台:跨系统工作流编排与执行

适用人群或使用价值

  • 数据科学家和机器学习工程师:简化图像数据预处理与向量化上传流程,提升模型训练数据准备效率
  • 农业智能化解决方案开发者:快速搭建作物图像异常检测和分类的基础数据集
  • AI应用开发者:便捷接入多模态嵌入API与向量数据库,支持复杂的相似度搜索和分析
  • 企业数据工程团队:实现云端数据存储与向量数据库的无缝集成,优化大规模图像数据管理

该工作流是构建“异常检测”与“KNN分类”系统的第一步,后续工作流将基于此完成聚类中心设定和实际的异常检测/分类任务。整体流程高度模块化,易于迁移到其他图像数据集和向量搜索应用场景。

推荐模板

Apify Youtube MCP Server 工作流

该工作流通过 MCP 服务器触发器实现对 YouTube 视频的自动搜索和字幕抓取,利用 Apify 的服务绕过官方限制,确保高效稳定的数据采集。支持视频搜索、字幕下载和使用情况报告,简化数据处理,便于后续分析与展示。同时,内置的配额监控功能能够实时反馈使用情况,帮助用户合理管理资源,适用于研究人员、内容创作者和数据工程师等多种场景。

Youtube抓取自动化采集

图片智能识别与整理自动化流程

该自动化流程利用谷歌自定义搜索API获取街景照片,接着通过AWS Rekognition进行内容标签识别,并将图片名称、链接及识别标签整理后保存至Google Sheets。它有效解决了传统人工分类的低效和错误问题,自动化地实现图片获取、智能分析及结构化存储,提升了信息管理效率,适用于媒体、广告、电子商务等多个领域,帮助用户节省时间和成本。

图片识别自动整理

Youtube Video Transcript Extraction

该工作流能够自动从YouTube视频中提取字幕文本,并对其进行清理和格式优化,生成易读的文字稿。通过调用第三方API,用户只需输入视频链接,便可快速获取整理后的字幕,省去繁琐的手动操作。适用于内容创作者、教育机构和市场分析人员,提升了视频转录的效率和准确度,极大地简化了内容处理过程。

视频转录字幕提取

Telegram天气查询机器人工作流

该工作流通过Telegram机器人为用户提供便捷的实时天气查询服务,支持多个欧洲首都的天气信息获取。用户只需简单的聊天命令,便可收到文字和专业的可视化天气数据。机器人智能识别命令,友好提示无效输入,并在出现错误时及时反馈,提升了交互体验。无论是个人查询、旅游规划,还是企业提醒,该工具都能有效满足不同需求。

Telegram机器人天气可视化

随机用户数据获取与多格式处理自动化工作流

该工作流通过调用随机用户API,自动抓取用户信息并实现数据的多格式转换与存储。它将用户数据实时追加到Google Sheets,生成CSV文件并转换为JSON格式,随后通过邮件发送。此流程提高了数据采集与共享的效率,减少手动操作的风险,适用于市场调研、数据处理及团队协作等场景,显著提升工作效率。

数据自动化多格式转换

国际空间站轨迹数据采集与存储自动化

该工作流实现了国际空间站轨迹数据的自动化采集与存储。通过定时调用API获取实时的纬度、经度和时间戳信息,并将这些数据高效地存入TimescaleDB数据库,确保数据的实时性和准确性。此方案解决了手动记录的低效问题,适用于航天科研、教育展示及数据分析等多种场景,为相关人员提供了可靠的时序数据支持,提升了数据应用的价值。

空间站轨迹时序数据库

Extract information from an image of a receipt(从收据图片中提取信息)

该工作流能够自动从收据图片中提取关键信息,如商户、金额和日期等。通过HTTP请求获取收据图片并调用智能文档识别API,实现精准识别与解析,显著提高手动录入的效率和准确度。适用于财务报销、费用管理及票据数字化存档等场景,帮助用户快速获取结构化信息,减少错误,提升数据管理与分析能力。

收据识别OCR提取

ETL pipeline

该工作流实现了自动化的ETL数据管道,定期从Twitter抓取特定话题的推文,进行情感分析,并将数据存储至MongoDB和Postgres数据库。分析结果会被筛选并推送至Slack频道,以便团队实时获取重要信息。此流程有效避免了手动监控社交媒体的繁琐,提高了数据处理效率,支持快速响应市场动态和品牌声誉管理。

社交媒体分析情感分析