Together AI 推出灵活的 LLMs 基准测试
realtime news Jul 29, 2025 02:34
Together AI 推出了 Together Evaluations,这是一个使用开源模型作为评判的大型语言模型基准测试框架,提供有关模型性能的可定制洞察。

Together AI 宣布推出 Together Evaluations,这是一个旨在使用开源模型作为评判来评估大型语言模型(LLMs)性能的新框架。据 together.ai 报道,这种创新方法旨在提供快速且可定制的模型质量洞察,消除了人工标注和僵化指标的需求。
颠覆性模型评估
Together Evaluations 的引入解决了开发者在应对 LLMs 快速发展的过程中所面临的挑战。通过利用任务特定的基准和强大的 AI 模型作为评判,开发者可以快速比较模型响应和评估性能,而无需传统方法的繁琐工作。
此框架允许用户根据其特定需求定义基准,提供对评估过程的灵活性和控制。使用 LLMs 作为评判加速了评估过程,并提供了一种比传统方法更具适应性的度量系统。
评估模式和应用案例
Together Evaluations 提供三种不同的模式:分类、评分和比较。每种模式都由用户可以通过提示模板完全控制的 LLMs 支持:
- 分类: 将样本分配给选定的标签,帮助完成诸如识别政策违规之类的任务。
- 评分: 生成数值评分,用于在定义的尺度上衡量相关性或质量。
- 比较: 允许用户在两个模型响应之间进行评判,便于选择更简洁或更相关的输出。
这些评估模式提供准确性和平均分等汇总指标,以及来自评判的详细反馈,帮助开发者有效地微调他们的模型。
实际应用
Together AI 提供全面支持,方便将 Together Evaluations 集成到现有工作流程中。开发者可以上传 JSONL 或 CSV 格式的数据,并选择合适的评估类型。该框架支持多种模型,允许对 LLM 输出进行广泛的测试和验证。
对于有兴趣探索 Together Evaluations 功能的人,平台提供了实际演示和 Jupyter 笔记本,展示了 LLM 作为评判的工作流的实际应用。这些资源旨在帮助开发者有效理解和实施框架。
结论
随着 LLM 驱动的应用领域的不断成熟,Together AI 引入 Together Evaluations 标志着在支持开发者有效地基准测试和优化模型方面迈出了重要一步。这个框架不仅简化了评估过程,还增强了根据特定任务要求选择和优化模型的能力。
开发者和 AI 爱好者受邀参加 7 月 31 日的实操演练,在那里 Together AI 将演示如何利用 Together Evaluations 满足各种应用需求,进一步巩固其支持 AI 社区的承诺。
Image source: Shutterstock