视频视觉理解与自动配音工作流

该工作流实现了视频内容的自动化解说制作，涵盖视频下载、帧提取、解说脚本生成和配音音频制作。通过结合多模态大语言模型和文本转语音技术，大幅提升视频解说的效率与质量，并将生成的音频文件自动上传至Google Drive，方便存储与分享。适用于媒体制作、教育培训和市场营销等领域，简化了传统的内容创作流程。

视频解说自动配音

工作流名称

视频视觉理解与自动配音工作流

主要功能和亮点

该工作流实现了从在线视频下载、视频帧提取，到基于多模态大语言模型（Multimodal LLM）生成解说脚本，最后通过文本转语音（TTS）技术生成配音音频并自动上传至Google Drive的完整自动化流程。亮点包括：

利用Python和OpenCV高效均匀提取视频关键帧，控制帧数以优化性能
采用Langchain集成的OpenAI GPT-4o模型，分批处理图像帧生成连贯且风格统一的解说脚本
结合OpenAI语音生成接口，实现高质量自动配音
自动上传生成的配音文件到Google Drive，方便存储与分享

解决的核心问题

传统视频内容解说制作流程繁琐，需人工撰写脚本与录制配音，耗时且成本高。该工作流通过自动化技术将视觉内容理解与文本生成结合，批量高效生成视频解说文本并自动转成配音，极大降低人工干预，提高内容生产效率。

应用场景

媒体内容制作：快速为短视频、宣传片生成专业解说词与配音
教育培训：自动生成课程视频讲解音频
市场营销：批量制作带有旁白的产品展示视频
内容创作者和视频编辑：简化视频解说脚本和配音制作流程

主要流程步骤

视频下载：通过HTTP请求节点下载在线视频资源
视频帧提取：使用Python代码节点（OpenCV）均匀提取最多90张关键帧并转换为Base64格式
帧拆分与批处理：将帧拆分为15帧一组，分批发送给多模态LLM处理
生成解说脚本：利用OpenAI GPT-4o模型，结合多帧图像输入，生成连贯的解说文本片段，并逐步合并成完整脚本
文本转语音：调用OpenAI语音生成接口，将完整脚本转换为MP3格式的配音音频
上传存储：将生成的配音文件上传至Google Drive指定文件夹，便于后续使用与分享

涉及的系统或服务

OpenAI GPT-4o多模态语言模型（文本与图像混合理解与生成）
OpenAI文本转语音（TTS）服务
Google Drive（存储与管理生成的音频文件）
HTTP请求节点（视频文件下载）
Python/OpenCV（视频帧提取与图像处理）
n8n自动化平台节点（流程编排与数据转换）

适用人群或使用价值

内容创作者和视频制作人员，快速生成专业的解说脚本与配音，提升生产效率
市场营销和媒体团队，批量制作带有高质量配音的视频内容
教育培训机构，自动生成课程视频讲解音频
自动化爱好者和技术开发者，学习多模态AI与视频内容结合的实践案例

本工作流充分利用视觉AI与自然语言生成技术，打通视频内容理解到音频生成的关键环节，实现内容创作的智能化升级。欢迎在n8n社区体验与交流！

HeyGen AI视频生成与状态监控工作流

该工作流实现了自动化的个性化AI视频生成与状态监控，用户可以通过简单的配置设置AI头像、声音和文本内容，系统会自动发送生成请求并实时轮询状态，直到视频生成完成并提供可用链接。这一过程简化了繁琐的API调用，提升了视频内容生产的效率，适合企业、教育机构和内容创作者快速生成个性化视频，降低了技术门槛。

AI视频生成n8n自动化

Zoom AI Meeting Assistant

该工作流旨在提升会议效率，通过自动获取Zoom会议数据及录音转录，利用AI生成会议纪要，提取任务和待办事项，并智能创建任务到ClickUp和安排后续会议。整个流程实现了从会议内容获取到任务分配和日程安排的自动化，解决了手动整理会议纪要繁琐、任务分配不及时及信息传递耗时等问题，适合高频会议和跨部门协作的组织。

会议纪要任务自动化

(G) LineChatBot + Google Sheets (as a memory)

该工作流通过构建一个基于Line平台的智能聊天机器人，实现了用户对话历史的存储与管理，确保对话的连续性和上下文关联。利用Google Sheets作为轻量级数据库，机器人能够自动归档聊天记录，并通过先进的AI模型生成礼貌且友好的回复，适用于泰语环境下的客户支持和智能问答。该系统有效解决了传统聊天机器人在记忆和数据管理方面的不足，提升了用户互动体验。

Line聊天机器人聊天记忆管理

AI驱动的图书信息爬取与整理工作流

该工作流通过无代码方式实现自动抓取指定网页上的图书信息，利用AI技术提取书名、价格、库存状态及购买链接等结构化数据，并将其保存至Google Sheets。它解决了传统网页爬虫复杂代码和信息提取不准确的问题，适合出版、电子商务及市场调研等领域，提升数据获取效率，减少人工干预，为用户提供智能化的数据整理工具，极大节省人力成本。

图书爬取智能抽取

“Hey Siri, Ask Agent” 工作流

该工作流通过与Apple Shortcuts集成，允许用户通过语音命令“Hey Siri, AI Agent”与智能助手进行互动。用户的语音将实时转录并发送至系统，利用OpenAI GPT-4模型生成自然的语音回复，直接反馈给用户。此流程解决了用户希望通过语音自然对话的需求，提升了智能家居和移动办公场景中的交互便捷性与效率，提供个性化的实时响应。

语音助手Apple Shortcuts

多类型服务与分类问答模板自动生成与发布工作流

该工作流通过读取Google Sheets中的数据，自动生成针对不同服务的标准问答模板，并利用AI技术对部分答案进行智能补全，从而提升内容的专业性和自然度。最终生成的问答以JSON格式保存并上传至Google Drive，便于后续一键发布至各类内容管理系统，帮助企业快速构建高质量的FAQ内容，提高用户体验与知识库质量，解决手动编写问答耗时长的问题。

智能问答自动生成

GROQ LLAVA V1.5 7B

该工作流通过Telegram机器人实现用户发送图片后自动生成详细文本描述的功能，利用GROQ LLAVA图像理解API进行智能识别。用户只需上传图片，系统会将其转换为Base64格式并调用API，最终将生成的文本回复给用户。这一过程不仅简化了传统的图片识别方式，还提升了用户体验，适用于客服自动化、内容管理、教育辅导和视觉辅助等场景，让非专业用户也能轻松获取图片信息。

图像识别Telegram机器人

AirQuality Scheduler

AirQuality Scheduler 是一个自动化工具，可以每日定时获取特定地点的实时空气质量和花粉浓度数据。通过AI智能助理，生成个性化的环境健康总结和建议，帮助用户有效应对环境变化。该工具适合关注空气污染和花粉过敏的个人，以及健康管理机构和企业，能够科学、简明地提供用户所需的环境健康指导，提升生活质量。

空气质量AI健康建议