[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)

该工作流主要用于农作物图像数据集中的聚类分析,自动化设置聚类的代表中心点(medoids)及其阈值分数,以支持后续的异常检测。通过结合传统距离矩阵方法和多模态文本-图像嵌入技术,精准定位聚类中心并计算合理的阈值,提升异常检测的效果。适用于农业领域的病虫害识别及异常预警等应用场景,确保数据处理的高效与准确。

流程图
[2/3] Set up medoids (2 types) for anomaly detection (crops dataset) 工作流程图

工作流名称

[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)

主要功能和亮点

本工作流旨在为农作物图像数据集中的聚类设置代表中心点(medoids)及其阈值分数,作为后续异常检测的基础。通过两种方法——基于距离矩阵的传统聚类中心选取和基于多模态嵌入模型的语义描述匹配,实现对各类农作物簇的中心点定位及阈值设定。结合Qdrant向量数据库和Voyage AI多模态嵌入API,自动化完成聚类分析与阈值计算,提升异常检测的精准度和效率。

解决的核心问题

  • 如何准确确定每个聚类的代表中心点(medoid),以作为异常检测的基准。
  • 如何设定合理的阈值分数,用于区分正常样本和异常样本。
  • 解决仅依赖单一特征难以精确刻画聚类中心的问题,结合图像和文本多模态信息提高代表性。
  • 自动化、可复用的流程,支持对不同农作物类别及其他图像数据集的适配。

应用场景

  • 农业领域农作物图像的异常检测,如病虫害识别、种植异常预警等。
  • 任何基于图像和文本多模态数据的聚类中心点识别及异常检测准备工作。
  • 使用Qdrant向量数据库进行大规模向量数据管理和分析的场景。

主要流程步骤

  1. 手动触发工作流,初始化变量和参数。
  2. 读取Qdrant中农作物数据集的总点数和聚类信息,获取农作物类别及其数据数量。
  3. 分别对每个农作物类别执行:
    • 距离矩阵方法:调用Qdrant的距离矩阵API,计算聚类内点的相似度矩阵,利用Scipy sparse矩阵计算确定最具代表性的medoid。
    • 多模态嵌入方法:通过硬编码的文本描述,调用Voyage AI多模态嵌入API生成文本向量,再以文本向量查询Qdrant,找到与描述最匹配的图像点作为medoid。
  4. 将确定的medoid标记回Qdrant,分别设置“is_medoid”和“is_text_anchor_medoid”标记。
  5. 计算每个medoid的阈值分数(基于与最不相似点的余弦相似度距离),并写回聚类中心点作为异常检测阈值。
  6. 完成所有类别的medoid及阈值设置,为后续异常检测工作流提供数据基础。

涉及的系统或服务

  • Qdrant Cloud:作为向量数据库,存储农作物图像向量及聚类信息,提供距离矩阵和向量查询API。
  • Voyage AI API:提供多模态文本-图像嵌入服务,实现基于文本描述的medoid定位。
  • n8n自动化工作流平台:串联调用各API节点,协调数据流转与处理。
  • Python代码节点(Scipy):计算稀疏距离矩阵,辅助确定代表点。

适用人群或使用价值

  • 数据科学家和机器学习工程师:快速构建基于向量数据库的异常检测预处理流程。
  • 农业技术研发人员:实现农作物图像异常自动识别的基础设施搭建。
  • AI开发者和自动化工程师:借助n8n平台实现多系统集成和自动化数据处理。
  • 任何需要基于聚类中心点进行异常检测的行业用户,特别是涉及多模态数据的复杂场景。

本工作流是一个关键的中间步骤,配合上传数据和异常检测工作流,构建完整的农作物图像异常检测解决方案。通过灵活调用Qdrant和多模态API,兼顾传统距离矩阵分析与现代语义理解,极大提升了聚类中心点的准确性和阈值的合理性,为异常检测提供坚实基础。