开源LLM在专业任务中超越专有模型

开源LLM在专业任务中超越专有模型 - Blockchain.News

根据的一份报告，对于开源语言学习模型（LLMs）来说，Parsed展示出较小的微调开源模型在特定任务中可以超越较大的专有模型。这一发现挑战了传统观点，即开源模型不如它们的专有对手。

挑战传统智慧

对于开源LLM固有地在性能和能力之间存在权衡的信念正在被重新评估。最初的比较更倾向于专有模型，但诸如Chinchilla缩放法则等进展显示，最佳训练不仅仅依赖于参数缩放。相反，它涉及到参数与代币比率的平衡，这可以导致较小的模型在专业任务中超越较大的模型。

Parsed采用严格的评估优先方法，专注于在模型开发之前创建程序化的、领域对齐的评估系统。这一方法不仅提高了模型质量，还显著降低了推理成本，为某些客户每年提供数百万美元的潜在节省。由于可以完全访问参数和算法灵活性，这一系统允许持续的强化学习，这是可行的。

通过对一个27B参数模型进行特定任务的微调，Parsed能够取得显著的性能提升。例如，他们微调的Gemma 3 27B模型在医疗用例中比Claude Sonnet 4表现高出60%，同时推理成本降低10-100倍。这一成功归功于该模型能够优化其表征能力以适应较窄的概率空间，从而提高效率和性能。

在医疗领域，Parsed与将临床医生与患者对话记录的现场速记员合作。这些任务的复杂性，包括处理冗长的记录和处理复杂的医学术语，常常对较大的模型提出挑战。然而，通过一个优化良好的设置，Parsed的模型能够超越较大的专有模型的表现，提供降低的成本和提高的可靠性。

在医疗应用中，Parsed开发了复杂的评估框架，从多个维度评估临床文档，例如临床合理性、来源可信度和对临床医生风格的遵循。这些框架对确保模型达到临床级性能标准至关重要。评估工具作为强化学习的奖励模型，进一步提高模型的准确性和效率。

经过微调后，Gemma 3 27B模型展现了变革性的结果，比Claude Sonnet 4高出60%。这一改进不仅展示了开源模型在专业任务中的潜力，还突出显示了较小、微调模型的成本效益和增加的速度。

通过与像Parsed这样的专业供应商合作，Together AI提供了一个综合的解决方案堆栈，结合可靠的微调平台和特定领域的专业知识。这使得组织能够在专业任务中实现更高的性能，同时保持对AI部署的控制，为实质性的成本节省和质量改进铺平了道路。

Image source: Shutterstock