基于Google Gemini 2.0的提示式对象检测与图像标注演示工作流

该工作流利用Google Gemini 2.0多模态AI模型，实现基于文本提示的图像对象检测与标注。通过自动识别特定对象（如兔子）并绘制精准的边界框，提升了图像分析和标注的效率。它解决了传统模型灵活性不足的问题，支持动态定位不同语义目标，并确保检测结果与原图尺寸匹配，适用于智能图像分析、异常行为检测、电子商务自动标注等场景。

对象检测图像标注

工作流名称

主要功能和亮点

该工作流展示了如何利用Google Gemini 2.0多模态AI模型，实现基于文本提示的图像对象检测，自动识别图片中特定对象（如兔子）的位置，并在原图上绘制精准的边界框。支持对检测坐标进行归一化缩放，保证标注与原图尺寸完全匹配。整个流程自动化，无需人工干预，极大提升图像分析与标注效率。

解决的核心问题

传统的图像对象检测多依赖固定模型，难以灵活指定检测目标。此工作流通过提示式请求，解决了用户需要针对不同语义目标动态定位对象的难题，实现上下文驱动的智能图像识别和定位。并且通过坐标缩放与图像编辑节点，解决了检测结果与原始图像尺寸不匹配的问题，使得结果直观易用。

应用场景

智能图像内容分析与标注
视觉搜索与分类，如“标注所有含有儿童的成年人”
监控场景的异常行为检测
电子商务产品图像自动标注
媒体内容管理与检索
AI辅助的图像编辑与增强

主要流程步骤

下载测试图片：通过HTTP请求节点获取目标图像。
获取图片尺寸信息：利用编辑图片节点提取图像的宽高参数。
调用Google Gemini 2.0对象检测API：发送带有文本提示“识别图片中所有兔子”的请求，返回对象的边界框坐标（归一化形式）。
提取并处理返回坐标：通过代码节点，将归一化坐标缩放至原图尺寸。
绘制边界框：利用编辑图片节点，在原图上绘制检测到的对象边界框，实现可视化标注。

涉及的系统或服务

Google Gemini 2.0 API：用于多模态文本提示驱动的对象检测。
n8n HTTP请求节点：下载图片与调用API。
n8n 编辑图片节点：获取图片信息及绘制边界框。
n8n 代码节点：坐标缩放计算。
n8n 手动触发节点：触发整个工作流执行。

适用人群或使用价值

AI开发者及图像处理工程师，希望快速搭建并验证多模态对象检测能力。
内容审核与管理人员，需自动标注和筛选图像内容。
产品经理和业务人员，探索AI驱动的智能图像解决方案。
任何需要基于文本描述自动识别和标注图像中特定对象的用户，显著节省人工标注时间，提高效率和准确度。

此工作流以实用且直观的方式演示了前沿多模态AI技术在图像理解领域的应用潜力，助力用户轻松构建智能视觉自动化流程。

⚡📽️ Ultimate AI-Powered Chatbot for YouTube Summarization & Analysis

该工作流通过AI技术实现对YouTube视频的自动转录、信息获取与内容分析。用户可以通过聊天界面与系统互动，快速提问并获得视频摘要与重点解析，节省观看时间。集成了YouTube数据API与开源工具，结合强大的语言模型，提供精准的内容输出。适用于教育、内容创作与市场分析等场景，提升了信息获取的便捷性和效率。

视频转录内容分析

Ultimate Personal Assistant（终极个人助理）

该工作流旨在提供全面的个人助理服务，自动处理用户的邮件、日历、联系人、内容创作及信息搜索等请求。通过智能代理，用户可以通过文字或语音与系统交互，实现多模态操作。集成了先进的自然语言处理技术，确保高效识别和路由请求，简化日常事务管理，提升工作效率与响应速度，适用于职场人士及内容创作者，助力智能化工作体验。

智能助理多模态交互

AI驱动的公司信息自动化调研与数据丰富工作流

该工作流通过先进的AI模型与多种数据抓取工具，实现对公司信息的自动化调研和结构化输出。用户可从公司名称或域名出发，快速获取包括LinkedIn链接、市场定位和价格计划等多维度信息。支持定时和手动触发，极大提高调研效率，降低人工成本，确保数据准确且易于管理，适合市场调研、销售、产品分析等多种场景，助力业务决策与市场洞察。

公司调研自动化采集

AI-Powered WhatsApp Chatbot for Text, Voice, Images & PDFs

该工作流利用WhatsApp平台和OpenAI的AI技术，创建了一个智能聊天机器人，支持文本、语音、图片和PDF文档的自动识别与回复。通过分析不同类型的消息，机器人能够快速理解用户需求，提供精准反馈，提升客服响应速度和信息获取效率，满足多样化的沟通场景，极大增强了用户体验。

多模态AIWhatsApp机器人

Text automations using Apple Shortcuts（基于Apple快捷指令的文本自动化工作流）

这个工作流利用Apple快捷指令和OpenAI模型，实现对选中文本的智能自动化处理。用户可以快速进行翻译、语法校正、文本缩短或扩展等多种操作，显著提升文本编辑的效率和质量。通过Webhook的无缝集成，操作便捷且高效，适合内容创作者、编辑和需要跨语言沟通的用户，满足移动办公和实时文本处理的需求。

文本自动化Apple快捷指令

🧠 Give Your AI Agent Chatbot Long Term Memory Tools Router

该工作流为AI聊天机器人提供长期记忆管理功能，能够持久保存和调用历史对话及关键信息。通过动态工具路由器，自动根据任务指令调用不同工具，实现高效的任务分发。此外，结合OpenAI GPT-4o-mini模型，提升了上下文理解和智能应答能力，并支持通过Telegram和Gmail等渠道进行多渠道通知，显著增强了信息传达效率，提供个性化的用户体验。

长期记忆工具路由器

Dynamically generate HTML page from user request using OpenAI Structured Output

该工作流能够根据用户的输入动态生成符合结构化输出规范的HTML页面。通过调用OpenAI的接口，自动将用户描述转换为预定义的JSON格式，再生成标准HTML代码，并应用Tailwind CSS进行样式美化。整体流程简化了网页设计，适用于快速原型设计、个性化网页生成以及AI辅助UI设计等场景，提升了网页生成的效率和可控性。

结构化输出动态网页生成

AI Agent To Chat With Youtube

该工作流通过集成多种API，实现对YouTube视频及评论的智能解析，帮助内容创作者和营销人员深入了解观众偏好。它自动获取视频信息、批量分析评论、转录内容并评估缩略图设计，同时利用AI代理处理用户请求，实现数据管理与会话记忆。此工具显著降低人工分析成本，提升视频内容的相关性和观看效果，是优化YouTube运营的有效利器。

YouTube分析智能对话