[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)

该工作流通过两种方法为农作物图像数据集设置聚类代表点和阈值,为异常检测提供基础。利用向量数据库API和Python库进行稀疏矩阵计算,确保聚类中心和阈值的高效准确确定。适用于农业智能监控、机器学习模型预处理等多个场景,显著提升了异常检测的准确性和可靠性,简化了复杂的聚类分析过程。

流程图
[2/3] Set up medoids (2 types) for anomaly detection (crops dataset) 工作流程图

工作流名称

[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)

主要功能和亮点

该工作流通过两种方法(距离矩阵法与多模态嵌入模型法)为农作物图像数据集中的聚类设置代表点(medoids)和聚类阈值分数,为后续的异常检测奠定基础。利用Qdrant向量数据库的API,结合Python的Scipy库进行稀疏矩阵计算,实现高效且精准的聚类中心确定和阈值设定。

解决的核心问题

对于农作物图像集中的不同类别,如何准确识别每个类别的“中心”样本(medoid)及其边界阈值,保证后续异常检测能够基于合理的聚类代表点和阈值,提升检测异常点的准确性和可靠性。

应用场景

  • 农业智能监控与异常检测:通过图像数据识别农作物生长异常、病虫害等异常情况
  • 机器学习模型的聚类分析预处理:为后续模型提供准确的代表点和阈值
  • 任何基于向量数据库进行聚类中心和阈值设定的多类别图像或多模态数据场景

主要流程步骤

  1. 手动触发工作流,初始化变量(Qdrant集群URL、集合名等)
  2. 获取集合中数据点总数及作物类别的分布信息
  3. 对每个作物类别进行拆分,分别调用Qdrant距离矩阵API,获取点之间的相似度矩阵
  4. 利用Scipy稀疏矩阵计算,基于余弦相似度找到距离矩阵法的聚类代表点(medoid)
  5. 基于Voyage多模态嵌入模型,对作物的文本描述进行嵌入,找到文本嵌入法的聚类代表点
  6. 将两种方法得到的medoid点标记回Qdrant数据库,分别设置不同的payload标记
  7. 计算每个类别中与中心最远(最不相似)的点,确定聚类阈值分数
  8. 将阈值分数保存至Qdrant数据库对应的medoid点的payload中
  9. 完成聚类代表点和阈值的配置,为后续异常检测做准备

涉及的系统或服务

  • Qdrant Cloud:托管向量数据库,存储和查询向量数据,提供距离矩阵和向量查询API
  • Voyage AI API:提供多模态嵌入模型接口,将文本描述转换为向量
  • Python Scipy库:用于稀疏矩阵的数值计算和medoid确定
  • n8n自动化平台:集成触发、HTTP请求、代码执行等节点实现整个工作流自动化

适用人群或使用价值

  • 数据科学家与机器学习工程师:需要在向量数据库中进行高效聚类中心与阈值设定的用户
  • 农业科技从业者:基于农作物图像数据进行异常检测与分析的研究和应用场景
  • 自动化运维和工作流设计者:希望构建复杂的异构API调用和数据处理流程的用户
  • 多模态数据分析开发者:结合文本与图像数据进行聚类分析的技术实践者

该工作流通过自动化流程,降低了复杂的聚类代表点和阈值设定难度,提升了异常检测模型的实用性与准确率,能够适应多种图像及多模态数据集的预处理需求。