Testing Mulitple Local LLM with LM Studio

该工作流旨在自动化测试和分析本地多个大型语言模型的性能。通过动态获取模型列表并统一系统提示,用户可以方便地比较不同模型在特定任务中的输出表现。工作流记录请求和响应时间,进行多维度文本分析,并将结果结构化保存至 Google Sheets,便于后续管理与对比。同时,支持灵活配置参数,满足多样化的测试需求,提升了模型评测的效率和科学性。

流程图
Testing Mulitple Local LLM with LM Studio 工作流程图

工作流名称

Testing Mulitple Local LLM with LM Studio

主要功能和亮点

本工作流实现了对本地部署的多个大型语言模型(LLM)进行自动测试和性能分析的全流程自动化。亮点包括:

  • 动态获取并循环调用本地 LM Studio 服务器上的所有已加载模型。
  • 通过系统提示(System Prompt)统一引导模型输出,方便比较不同模型在特定任务中的表现。
  • 自动捕捉请求发送及响应接收时间,计算响应时间差。
  • 多维度文本分析,包括词数、句数、平均句长、平均词长及Flesch-Kincaid可读性评分。
  • 将测试结果结构化后自动保存至 Google Sheets,便于后续汇总和对比分析。
  • 配置灵活,支持温度、Top P、存在惩罚等参数调节,满足多样化测试需求。
  • 通过注释和提示,指导用户快速完成 LM Studio 服务器设置及工作流参数更新。

解决的核心问题

  • 多模型管理和测试难度大:自动获取并遍历本地所有模型,简化测试流程。
  • 输出文本质量及可读性评估缺乏标准:内置多维度文本分析算法,提供量化指标。
  • 测试数据分散、不易管理:自动同步测试结果到 Google Sheets,实现数据集中管理。
  • 调试和复现困难:精确记录请求响应时间,方便性能监控和问题定位。

应用场景

  • AI 研究人员和开发者对比本地不同 LLM 的性能表现。
  • 机器学习工程师调优本地语言模型参数并评估其输出质量。
  • 教育和内容创作领域评估模型生成文本的可读性和简洁性。
  • 企业内部搭建私有 LLM 服务,进行持续质量监控和优化。
  • 需要批量测试和分析模型响应的自动化流程集成。

主要流程步骤

  1. LM Studio 服务器配置:安装 LM Studio 并加载所需模型,更新工作流中的服务器 IP 地址。
  2. 接收聊天消息触发:通过 webhook 监听输入文本。
  3. 获取本地模型列表:调用 LM Studio 接口获取当前激活的模型 ID 列表。
  4. 循环遍历模型测试:依次对每个模型发起请求,使用统一的系统提示规范回答风格。
  5. 时间戳采集:记录请求开始和结束时间,计算响应时间。
  6. 文本响应分析:运行代码节点统计词数、句数、平均句长、平均词长及计算可读性得分。
  7. 准备和保存数据:将所有测试参数和分析结果整理后,自动追加保存到 Google Sheets 表格中。
  8. 结果查看与复用:用户可直接在 Google Sheets 里查看详细的模型测试报告。

涉及的系统或服务

  • LM Studio:本地部署的语言模型服务器,提供模型列表和对话接口。
  • n8n:自动化工作流执行平台,负责流程控制与节点调度。
  • Google Sheets:云端电子表格服务,用于存储和管理测试数据。
  • Webhook:接收外部聊天消息触发工作流启动。
  • JavaScript代码节点:对文本进行多维度语义及可读性分析。

适用人群或使用价值

  • AI 研究人员与数据科学家:便于快速评估和对比多款本地模型的文本生成质量。
  • 机器学习工程师:帮助调试和优化模型参数,提升模型效果。
  • 内容审核与编辑团队:量化文本可读性,保证输出内容符合目标读者阅读水平。
  • 企业技术团队:实现对私有 LLM 服务的自动化测试与性能监控。
  • 教育培训机构:评估模型输出是否适合不同学龄段的教学需求。

此工作流通过完备的自动化测试与分析手段,大幅降低了本地多模型评测的门槛和工作量,提升了模型选择和优化的效率,为各类用户提供了科学、系统的模型性能洞察。