Place your ads here email us at info@blockchain.news
开源LLM在专业任务中超越专有模型 - Blockchain.News

开源LLM在专业任务中超越专有模型

realtime news Aug 15, 2025 19:37

Parsed对一个27B开源LLM的微调在医疗任务中比Claude Sonnet 4表现高出60%,提供了显著的成本节约和性能提升。

开源LLM在专业任务中超越专有模型

根据的一份报告,对于开源语言学习模型(LLMs)来说,Parsed展示出较小的微调开源模型在特定任务中可以超越较大的专有模型。这一发现挑战了传统观点,即开源模型不如它们的专有对手。

挑战传统智慧

对于开源LLM固有地在性能和能力之间存在权衡的信念正在被重新评估。最初的比较更倾向于专有模型,但诸如Chinchilla缩放法则等进展显示,最佳训练不仅仅依赖于参数缩放。相反,它涉及到参数与代币比率的平衡,这可以导致较小的模型在专业任务中超越较大的模型。

评估优先方法

Parsed采用严格的评估优先方法,专注于在模型开发之前创建程序化的、领域对齐的评估系统。这一方法不仅提高了模型质量,还显著降低了推理成本,为某些客户每年提供数百万美元的潜在节省。由于可以完全访问参数和算法灵活性,这一系统允许持续的强化学习,这是可行的。

任务特定微调

通过对一个27B参数模型进行特定任务的微调,Parsed能够取得显著的性能提升。例如,他们微调的Gemma 3 27B模型在医疗用例中比Claude Sonnet 4表现高出60%,同时推理成本降低10-100倍。这一成功归功于该模型能够优化其表征能力以适应较窄的概率空间,从而提高效率和性能。

医疗用例

在医疗领域,Parsed与将临床医生与患者对话记录的现场速记员合作。这些任务的复杂性,包括处理冗长的记录和处理复杂的医学术语,常常对较大的模型提出挑战。然而,通过一个优化良好的设置,Parsed的模型能够超越较大的专有模型的表现,提供降低的成本和提高的可靠性。

高级评估技术

在医疗应用中,Parsed开发了复杂的评估框架,从多个维度评估临床文档,例如临床合理性、来源可信度和对临床医生风格的遵循。这些框架对确保模型达到临床级性能标准至关重要。评估工具作为强化学习的奖励模型,进一步提高模型的准确性和效率。

最终结果

经过微调后,Gemma 3 27B模型展现了变革性的结果,比Claude Sonnet 4高出60%。这一改进不仅展示了开源模型在专业任务中的潜力,还突出显示了较小、微调模型的成本效益和增加的速度。

通过与像Parsed这样的专业供应商合作,Together AI提供了一个综合的解决方案堆栈,结合可靠的微调平台和特定领域的专业知识。这使得组织能够在专业任务中实现更高的性能,同时保持对AI部署的控制,为实质性的成本节省和质量改进铺平了道路。

Image source: Shutterstock