[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)
该工作流主要用于农作物图像数据集中的聚类分析,自动化设置聚类的代表中心点(medoids)及其阈值分数,以支持后续的异常检测。通过结合传统距离矩阵方法和多模态文本-图像嵌入技术,精准定位聚类中心并计算合理的阈值,提升异常检测的效果。适用于农业领域的病虫害识别及异常预警等应用场景,确保数据处理的高效与准确。
Tags
工作流名称
[2/3] Set up medoids (2 types) for anomaly detection (crops dataset)
主要功能和亮点
本工作流旨在为农作物图像数据集中的聚类设置代表中心点(medoids)及其阈值分数,作为后续异常检测的基础。通过两种方法——基于距离矩阵的传统聚类中心选取和基于多模态嵌入模型的语义描述匹配,实现对各类农作物簇的中心点定位及阈值设定。结合Qdrant向量数据库和Voyage AI多模态嵌入API,自动化完成聚类分析与阈值计算,提升异常检测的精准度和效率。
解决的核心问题
- 如何准确确定每个聚类的代表中心点(medoid),以作为异常检测的基准。
- 如何设定合理的阈值分数,用于区分正常样本和异常样本。
- 解决仅依赖单一特征难以精确刻画聚类中心的问题,结合图像和文本多模态信息提高代表性。
- 自动化、可复用的流程,支持对不同农作物类别及其他图像数据集的适配。
应用场景
- 农业领域农作物图像的异常检测,如病虫害识别、种植异常预警等。
- 任何基于图像和文本多模态数据的聚类中心点识别及异常检测准备工作。
- 使用Qdrant向量数据库进行大规模向量数据管理和分析的场景。
主要流程步骤
- 手动触发工作流,初始化变量和参数。
- 读取Qdrant中农作物数据集的总点数和聚类信息,获取农作物类别及其数据数量。
- 分别对每个农作物类别执行:
- 距离矩阵方法:调用Qdrant的距离矩阵API,计算聚类内点的相似度矩阵,利用Scipy sparse矩阵计算确定最具代表性的medoid。
- 多模态嵌入方法:通过硬编码的文本描述,调用Voyage AI多模态嵌入API生成文本向量,再以文本向量查询Qdrant,找到与描述最匹配的图像点作为medoid。
- 将确定的medoid标记回Qdrant,分别设置“is_medoid”和“is_text_anchor_medoid”标记。
- 计算每个medoid的阈值分数(基于与最不相似点的余弦相似度距离),并写回聚类中心点作为异常检测阈值。
- 完成所有类别的medoid及阈值设置,为后续异常检测工作流提供数据基础。
涉及的系统或服务
- Qdrant Cloud:作为向量数据库,存储农作物图像向量及聚类信息,提供距离矩阵和向量查询API。
- Voyage AI API:提供多模态文本-图像嵌入服务,实现基于文本描述的medoid定位。
- n8n自动化工作流平台:串联调用各API节点,协调数据流转与处理。
- Python代码节点(Scipy):计算稀疏距离矩阵,辅助确定代表点。
适用人群或使用价值
- 数据科学家和机器学习工程师:快速构建基于向量数据库的异常检测预处理流程。
- 农业技术研发人员:实现农作物图像异常自动识别的基础设施搭建。
- AI开发者和自动化工程师:借助n8n平台实现多系统集成和自动化数据处理。
- 任何需要基于聚类中心点进行异常检测的行业用户,特别是涉及多模态数据的复杂场景。
本工作流是一个关键的中间步骤,配合上传数据和异常检测工作流,构建完整的农作物图像异常检测解决方案。通过灵活调用Qdrant和多模态API,兼顾传统距离矩阵分析与现代语义理解,极大提升了聚类中心点的准确性和阈值的合理性,为异常检测提供坚实基础。
FileMaker 数据联系人提取与处理工作流
该工作流通过自动调用 FileMaker 数据 API,有效提取和处理联系人信息。它能够解析复杂的嵌套数据结构,将联系人数据标准化,便于后续的分析、同步与自动化。适用于企业客户关系管理、营销活动准备等场景,极大提升数据处理效率,减少人工干预,帮助用户轻松管理和利用联系人信息,增强数字化运营能力。
客户数据同步至Google表格
该工作流自动提取客户数据存储库中的信息,并将其格式化后同步至Google表格,实现高效的数据管理。通过“Set”节点进行字段调整,确保数据符合要求,避免手动操作中的错误。此流程解决了客户数据分散和格式不统一的问题,适用于市场营销和客户服务团队,帮助他们实时更新和维护客户信息,提升数据的准确性和运营效率。
近期创业融资信息自动采集与整理
该工作流实现了创业融资信息的自动化采集与整理,每日定时从Piloterr获取最新的Seed、Serie A和Serie B融资事件。通过多步骤的数据处理,关键融资信息被整合并更新至Google Sheets,方便用户实时查看和管理。此自动化流程显著提升了数据更新的效率与准确性,帮助投资人和创业服务机构快速掌握市场动态,节省了大量的人力资源。
Bubble Data Access
该工作流通过手动触发,自动向Bubble应用的API发送安全的HTTP请求,便捷地访问和获取用户数据。旨在帮助非技术用户和业务人员无须编写代码即可快速、安全地提取所需信息,简化数据获取流程,提升工作效率。适用于数据分析、用户管理及CRM系统集成等场景。
Spot Workplace Discrimination Patterns with AI
该工作流通过自动抓取Glassdoor上的员工评价数据,并利用AI进行智能分析,识别职场中的歧视和偏见模式。它计算不同族群的评分差异,生成直观图表,帮助用户深入理解公司多样性与包容性状况。此工具特别适合人力资源部门、研究机构及企业管理层,能够快速识别潜在的不公平现象,推动更公平和包容的工作环境。
大学学期重要日期自动提取与日历生成工作流
该工作流自动化地从大学官方网站下载学期日期的Excel文件,利用Markdown转换服务和大语言模型提取关键事件与日期,生成符合ICS标准的日历文件。最终,系统将日历文件作为邮件附件发送给指定人员,显著减少了人工整理学期安排的时间和错误,提升了高校教务管理的效率,非常适合学生、教师及团队进行时间管理与信息共享。
Moving metrics from Google Sheets to Orbit
该工作流实现了自动将Google Sheets中的社区成员及其活动数据同步到Orbit平台。通过智能匹配GitHub用户名,工作流可实时更新成员信息并关联活动,减少了手动操作的繁琐与错误。适用于需要定期分析社区数据的团队,提高了数据一致性和运营效率,特别适合社区运营经理和数据分析师使用。
AI SQL Agent 数据分析与可视化工作流
该工作流通过智能SQL查询代理和自动图表生成技术,实现自然语言提问与数据库高效交互。用户无需具备SQL知识,可直接提问,系统会自动生成合适的SQL查询,并判断是否需要图表辅助展示。通过结合文本答案与图形展示,简化数据分析过程,提升非技术用户的数据洞察能力,非常适合企业分析、销售趋势、团队协作和教育培训等场景。