Easily Compare LLMs Using OpenAI and Google Sheets
该工作流旨在自动化对比不同的大语言模型,通过用户聊天输入实时调用多个模型的独立响应,并将结果及上下文信息记录到Google Sheets中,方便后续评估和比较。支持记忆隔离管理,确保上下文准确传递,同时提供用户友好的模板,便于非技术人员参与模型效果评估,提升团队的决策效率和测试准确性。
流程图

工作流名称
Easily Compare LLMs Using OpenAI and Google Sheets
主要功能和亮点
- 实时接收用户聊天输入,同时调用两个不同的大语言模型(LLMs)对同一输入进行独立响应。
- 自动将两个模型的回答及上下文信息同步记录到Google Sheets中,方便后续对比和评估。
- 在聊天界面中并排展示两个模型的回答,支持直观对比。
- 支持基于会话ID对模型记忆进行隔离管理,保证上下文的准确传递。
- 灵活支持OpenRouter、OpenAI、Google Vertex AI等多家模型提供商,便于扩展和切换。
- 为团队提供简单易用的Google Sheets模板,非技术人员也能参与模型效果评估。
解决的核心问题
在AI代理开发中,由于大语言模型的非确定性,选用哪个模型更合适往往需要反复测试和比较。该工作流帮助用户自动化这一对比过程,避免手动调用和整理答案的繁琐,提高效率和准确性。
应用场景
- AI产品研发团队评估不同LLM模型性能表现。
- 需要在多模型间选择最佳语言模型以用于生产环境。
- 组织内想让非技术成员参与模型回答质量评估。
- 教育和研究机构进行语言模型对比实验。
主要流程步骤
- 用户通过聊天接口发送消息触发工作流。
- 定义并拆分待对比的模型列表(默认为OpenAI GPT-4.1和Mistral大模型)。
- 为每个模型设置独立的会话ID,实现记忆隔离。
- 同步调用两个模型生成回答,AI代理节点处理模型调用和上下文管理。
- 聚合整理两个模型的回答,格式化为便于阅读和比较的文本。
- 将用户输入、模型回答、上下文及评估字段写入Google Sheets。
- 聊天界面显示两个模型的回答,支持即时对比。
涉及的系统或服务
- OpenRouter API(支持OpenAI、Mistral等模型调用)
- Google Sheets(作为结果记录和评估平台)
- n8n自动化平台核心节点(如Set、Split、Loop、Aggregate等)
- LangChain相关节点(聊天触发、记忆管理、AI代理)
适用人群或使用价值
- AI开发者和数据科学家:快速测评模型表现,优化模型选型。
- 产品经理和业务人员:通过Google Sheets直观参与模型效果评估。
- 教育和研究人员:便捷搭建多模型对比实验环境。
- 团队协作:统一平台管理、比较模型响应,提升决策效率。
该工作流极大地简化了多模型对比的流程,通过自动化和结构化的数据记录,帮助团队科学、系统地选择最佳语言模型,降低AI项目的试错成本。