[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)

该工作流通过两种方法为农作物图像数据集设置聚类代表点和阈值,为异常检测提供基础。利用向量数据库API和Python库进行稀疏矩阵计算,确保聚类中心和阈值的高效准确确定。适用于农业智能监控、机器学习模型预处理等多个场景,显著提升了异常检测的准确性和可靠性,简化了复杂的聚类分析过程。

Tags

异常检测聚类代表点

工作流名称

[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)

主要功能和亮点

该工作流通过两种方法(距离矩阵法与多模态嵌入模型法)为农作物图像数据集中的聚类设置代表点(medoids)和聚类阈值分数,为后续的异常检测奠定基础。利用Qdrant向量数据库的API,结合Python的Scipy库进行稀疏矩阵计算,实现高效且精准的聚类中心确定和阈值设定。

解决的核心问题

对于农作物图像集中的不同类别,如何准确识别每个类别的“中心”样本(medoid)及其边界阈值,保证后续异常检测能够基于合理的聚类代表点和阈值,提升检测异常点的准确性和可靠性。

应用场景

  • 农业智能监控与异常检测:通过图像数据识别农作物生长异常、病虫害等异常情况
  • 机器学习模型的聚类分析预处理:为后续模型提供准确的代表点和阈值
  • 任何基于向量数据库进行聚类中心和阈值设定的多类别图像或多模态数据场景

主要流程步骤

  1. 手动触发工作流,初始化变量(Qdrant集群URL、集合名等)
  2. 获取集合中数据点总数及作物类别的分布信息
  3. 对每个作物类别进行拆分,分别调用Qdrant距离矩阵API,获取点之间的相似度矩阵
  4. 利用Scipy稀疏矩阵计算,基于余弦相似度找到距离矩阵法的聚类代表点(medoid)
  5. 基于Voyage多模态嵌入模型,对作物的文本描述进行嵌入,找到文本嵌入法的聚类代表点
  6. 将两种方法得到的medoid点标记回Qdrant数据库,分别设置不同的payload标记
  7. 计算每个类别中与中心最远(最不相似)的点,确定聚类阈值分数
  8. 将阈值分数保存至Qdrant数据库对应的medoid点的payload中
  9. 完成聚类代表点和阈值的配置,为后续异常检测做准备

涉及的系统或服务

  • Qdrant Cloud:托管向量数据库,存储和查询向量数据,提供距离矩阵和向量查询API
  • Voyage AI API:提供多模态嵌入模型接口,将文本描述转换为向量
  • Python Scipy库:用于稀疏矩阵的数值计算和medoid确定
  • n8n自动化平台:集成触发、HTTP请求、代码执行等节点实现整个工作流自动化

适用人群或使用价值

  • 数据科学家与机器学习工程师:需要在向量数据库中进行高效聚类中心与阈值设定的用户
  • 农业科技从业者:基于农作物图像数据进行异常检测与分析的研究和应用场景
  • 自动化运维和工作流设计者:希望构建复杂的异构API调用和数据处理流程的用户
  • 多模态数据分析开发者:结合文本与图像数据进行聚类分析的技术实践者

该工作流通过自动化流程,降低了复杂的聚类代表点和阈值设定难度,提升了异常检测模型的实用性与准确率,能够适应多种图像及多模态数据集的预处理需求。

推荐模板

Google Analytics: Weekly Report

该工作流通过自动化生成每周的Google Analytics数据报告,重点比较最近7天与去年同期的关键指标表现。利用AI技术进行智能分析和格式化,报告可通过邮件和Telegram多渠道推送,帮助用户节省时间、洞察趋势、提升报告质量,适合网站运营团队、数据分析师及管理层,支持科学决策和高效沟通。

Google Analytics自动化报表

Hacker News 评论聚类与洞察生成工作流

该工作流自动从 Hacker News 抓取指定故事的所有评论,并使用向量数据库存储评论文本向量。通过 K-means 算法对评论进行聚类,利用 GPT-4 模型生成内容总结和情感分析,最终将分析结果导出至 Google Sheets。这一流程高效处理大量评论,帮助用户识别社区热点话题并提炼有价值的反馈,适用于社区管理、产品优化及数据分析等多种场景。

评论聚类情感分析

SERPBear analytics template

该工作流通过定时或手动触发,自动获取关键词排名数据,并利用自定义代码进行趋势解析。解析后的数据会发送至人工智能模型进行深入分析,最终将结果存储在低代码数据库中,便于后续管理与查看。整合了数据采集、智能分析及结果存储,提升了SEO监控与优化的效率,适合SEO团队、数字营销人员和网站管理员使用。

SEO自动化智能分析

AI Agent to chat with you Search Console Data, using OpenAI and Postgres

该工作流通过集成 OpenAI GPT-4o 语言模型和 Postgres 数据库,实现了一种智能聊天代理,用户可以通过自然语言与 Google Search Console 数据进行交互。它能自动解析用户请求,生成相应的 API 查询,并以 Markdown 表格形式返回数据。此工具简化了数据访问流程,提升了用户体验,适合网站运营人员、SEO 专家及数据分析师等,方便他们快速获取和分析网站性能数据。

智能聊天Search Console

🤖🧑‍💻 AI Agent for Top n8n Creators Leaderboard Reporting

该工作流通过自动化方式收集和分析社区顶尖创作者及其工作流的活跃数据,生成详细的统计报告。利用先进的AI语言模型,结合GitHub数据,提供清晰的Markdown格式报告,支持多种分发方式,如邮件和云存储。这一系统化的流程帮助社区管理者高效识别优秀创作者,促进知识共享,提升用户体验,推动自动化流程的推广与应用。

n8n统计AI报告

AI智能客户数据查询代理

该工作流通过集成AI技术与Google表格,实现智能化的客户数据查询与分析。用户可以通过自然语言提问,AI代理会解析意图并调用相应工具,精准返回客户信息,避免了传统手动查询的低效与易错。该平台支持快速获取列名、指定列值和完整客户数据,提升响应速度与准确度,适用于客户服务、销售和数据分析等多种场景,简化了数据操作,降低了使用门槛。

客户数据查询智能助手

Convert Parquet, Avro, ORC & Feather via ParquetReader to JSON

该工作流通过Webhook接收Parquet、Avro、ORC或Feather格式的文件,利用在线API将其转换为JSON格式。它自动化处理复杂的二进制大数据文件,简化数据预处理,降低技术门槛,适用于数据分析、ETL流程及开发团队,提升数据利用效率。用户可以方便地上传文件并快速获取解析后的JSON数据,支持多种应用场景,助力数据驱动决策和系统集成。

大数据转换JSON解析

用户调研洞察自动化分析工作流

该工作流自动化处理用户调研数据,从Google Sheets导入问卷回答,使用OpenAI生成文本向量并存储于Qdrant数据库。通过K-means聚类算法识别主要群组,并利用大型语言模型对群组回答进行智能摘要和情感分析,最终将洞察结果自动导出回Google Sheets,形成结构化的调研报告。此过程提升了分析效率,帮助决策者快速获取深度洞察。

调研分析情感洞察