Testing Mulitple Local LLM with LM Studio

该工作流旨在自动化测试和分析本地多个大型语言模型的性能。通过动态获取模型列表并统一系统提示,用户可以方便地比较不同模型在特定任务中的输出表现。工作流记录请求和响应时间,进行多维度文本分析,并将结果结构化保存至 Google Sheets,便于后续管理与对比。同时,支持灵活配置参数,满足多样化的测试需求,提升了模型评测的效率和科学性。

Tags

本地LLM测试性能分析

工作流名称

Testing Mulitple Local LLM with LM Studio

主要功能和亮点

本工作流实现了对本地部署的多个大型语言模型(LLM)进行自动测试和性能分析的全流程自动化。亮点包括:

  • 动态获取并循环调用本地 LM Studio 服务器上的所有已加载模型。
  • 通过系统提示(System Prompt)统一引导模型输出,方便比较不同模型在特定任务中的表现。
  • 自动捕捉请求发送及响应接收时间,计算响应时间差。
  • 多维度文本分析,包括词数、句数、平均句长、平均词长及Flesch-Kincaid可读性评分。
  • 将测试结果结构化后自动保存至 Google Sheets,便于后续汇总和对比分析。
  • 配置灵活,支持温度、Top P、存在惩罚等参数调节,满足多样化测试需求。
  • 通过注释和提示,指导用户快速完成 LM Studio 服务器设置及工作流参数更新。

解决的核心问题

  • 多模型管理和测试难度大:自动获取并遍历本地所有模型,简化测试流程。
  • 输出文本质量及可读性评估缺乏标准:内置多维度文本分析算法,提供量化指标。
  • 测试数据分散、不易管理:自动同步测试结果到 Google Sheets,实现数据集中管理。
  • 调试和复现困难:精确记录请求响应时间,方便性能监控和问题定位。

应用场景

  • AI 研究人员和开发者对比本地不同 LLM 的性能表现。
  • 机器学习工程师调优本地语言模型参数并评估其输出质量。
  • 教育和内容创作领域评估模型生成文本的可读性和简洁性。
  • 企业内部搭建私有 LLM 服务,进行持续质量监控和优化。
  • 需要批量测试和分析模型响应的自动化流程集成。

主要流程步骤

  1. LM Studio 服务器配置:安装 LM Studio 并加载所需模型,更新工作流中的服务器 IP 地址。
  2. 接收聊天消息触发:通过 webhook 监听输入文本。
  3. 获取本地模型列表:调用 LM Studio 接口获取当前激活的模型 ID 列表。
  4. 循环遍历模型测试:依次对每个模型发起请求,使用统一的系统提示规范回答风格。
  5. 时间戳采集:记录请求开始和结束时间,计算响应时间。
  6. 文本响应分析:运行代码节点统计词数、句数、平均句长、平均词长及计算可读性得分。
  7. 准备和保存数据:将所有测试参数和分析结果整理后,自动追加保存到 Google Sheets 表格中。
  8. 结果查看与复用:用户可直接在 Google Sheets 里查看详细的模型测试报告。

涉及的系统或服务

  • LM Studio:本地部署的语言模型服务器,提供模型列表和对话接口。
  • n8n:自动化工作流执行平台,负责流程控制与节点调度。
  • Google Sheets:云端电子表格服务,用于存储和管理测试数据。
  • Webhook:接收外部聊天消息触发工作流启动。
  • JavaScript代码节点:对文本进行多维度语义及可读性分析。

适用人群或使用价值

  • AI 研究人员与数据科学家:便于快速评估和对比多款本地模型的文本生成质量。
  • 机器学习工程师:帮助调试和优化模型参数,提升模型效果。
  • 内容审核与编辑团队:量化文本可读性,保证输出内容符合目标读者阅读水平。
  • 企业技术团队:实现对私有 LLM 服务的自动化测试与性能监控。
  • 教育培训机构:评估模型输出是否适合不同学龄段的教学需求。

此工作流通过完备的自动化测试与分析手段,大幅降低了本地多模型评测的门槛和工作量,提升了模型选择和优化的效率,为各类用户提供了科学、系统的模型性能洞察。

推荐模板

Telegram RAG pdf

该工作流通过Telegram接收PDF文件,自动拆分并将内容转化为向量存储于Pinecone数据库,支持基于向量的智能问答。用户可便捷地在聊天窗口中查询文档信息,显著提高知识获取的速度与准确性,适用于企业文档管理、客户支持及教育培训等场景,全面提升信息检索效率与用户体验。

Telegram问答向量检索

Pyragogy AI Village - Orchestrazione Master (Architettura Profonda V2)

该工作流是一个智能编排系统,利用多智能体架构高效处理和优化内容。它动态调度各类AI代理,如内容摘要、评审和引导说明,结合人工审核,确保高质量输出。系统支持内容版本管理和自动同步至GitHub,形成闭环知识管理,适用于复杂文档生成与审核,提升企业内容生产效率和质量保障。此流程实现了智能化与人工监督的完美结合。

多智能体编排内容自动化

[AI/LangChain] Output Parser 4

该工作流利用强大的语言模型自动处理自然语言请求,生成结构化且符合规范的输出数据。其核心亮点在于集成了自动修正输出解析器,能够智能修正不符合预期的输出,从而确保数据的准确性与一致性。此外,工作流定义了严格的JSON Schema进行输出验证,解决了传统语言模型生成结果缺乏结构化的问题,显著降低了人工校验和修正的成本,适用于需要高质量数据的各类自动化任务。

结构化输出自动修正

智能文本事实核查助手

智能文本事实核查助手能够高效地对输入的文本进行逐句拆分和事实核查,利用定制的AI模型快速识别和纠正错误信息。该工具生成结构化报告,列出错误陈述和整体准确性评估,帮助内容创作者、编辑团队及科研机构提升文本的准确性与质量控制,解决传统人工审查耗时费力的问题,适用于新闻、学术、内容审核等多个领域。

事实核查文本拆分

RAG AI Agent with Milvus and Cohere

该工作流通过集成向量数据库和多语言嵌入模型,实现了智能文档处理与问答系统。它能够自动监测并处理Google Drive中的PDF文件,提取文本并生成向量,支持高效的语义检索和智能回答。用户可以快速访问海量文档信息,提升多语言内容的管理与查询效率,且适用于企业知识库、客服机器人及专业领域的自动索引与查询等场景。

向量检索智能问答

Multi-Agent Conversation(多智能体对话)

该工作流实现了用户与多个AI智能体的同时对话,支持个性化配置每个智能体的名称、指令和语言模型。用户可通过@提及特定智能体,系统动态调用多个智能体,避免重复节点创建,并支持多轮对话记忆,提升交互的连贯性。适用于智能问答、决策辅助、教育培训等场景,满足复杂多样的交互需求。

多智能体多轮对话

基于文件内容的智能问答与文献引用生成工作流

该工作流通过自动从Google Drive下载指定文件并将其内容拆分成可管理的文本块,实现了高效的信息检索和智能问答。用户可以通过聊天接口提问,系统会利用向量数据库和OpenAI模型快速查找相关内容,并生成准确的回答,同时附带文献引用。此流程显著提升了文档信息的获取效率和答案的可信度,适用于学术研究、企业知识管理和客户支持等多个场景。

智能问答向量检索

Daily Cartoon (w/ AI Translate)

该工作流每天自动获取《Calvin and Hobbes》漫画,提取图片链接,并利用AI将漫画对白翻译成英文和韩文。最终,带有原文和译文的漫画将自动推送到Discord频道,方便用户实时获取最新内容。此流程省去了手动访问网站的繁琐,实现了多语言漫画的智能化分享,适合漫画爱好者、内容运营者及语言学习者使用。

漫画抓取AI翻译