模型评估 快讯列表

时间	详情
2026-01-23 00:08	Anthropic发布Petri 2.0：开源AI对齐审计升级评测觉察防护与行为种子扩展据@AnthropicAI称，他们发布了Petri 2.0，这是一款开源的自动化对齐审计工具，新增针对评测觉察的防护并扩展种子以覆盖更广行为范围，且已被研究团队采用并被其他AI开发者试用，公告未提及任何加密或代币集成，来源：https://twitter.com/AnthropicAI/status/2014490502805311959。来源
2025-10-28 23:41	斯坦福AI实验室发布SLP-Helm儿童言语诊断AI基准：揭示偏见与模型局限，交易者需关注据@StanfordAILab称，其发布了SLP-Helm基准，用于测试AI模型在儿童言语诊断中的表现，并明确揭示了优势、缺陷与偏见；来源：斯坦福AI实验室于2025年10月28日在X发布的信息及其博客。据@StanfordAILab称，数以百万计的儿童面临言语障碍且很少获得及时护理，为该诊断评估基准提供了临床背景；来源：斯坦福AI实验室于2025年10月28日在X发布的信息。据@StanfordAILab称，更多测试与发现已在斯坦福AI实验室博客公布，供进一步核查与评估；来源：X帖中引用的斯坦福AI实验室博客（2025年10月28日）。来源
2025-02-05 16:51	Gemini 2.0：卓越的价格/性能模型超越GPT-4o 根据@SullyOmarr，Gemini 2.0目前是价格/性能比最优的模型。评估表明，其性能超越了GPT-4o，且价格便宜约20倍。对于非编程密集型任务的用户，这是推荐的选择。来源

2026-01-23
00:08

Anthropic发布Petri 2.0：开源AI对齐审计升级评测觉察防护与行为种子扩展

据@AnthropicAI称，他们发布了Petri 2.0，这是一款开源的自动化对齐审计工具，新增针对评测觉察的防护并扩展种子以覆盖更广行为范围，且已被研究团队采用并被其他AI开发者试用，公告未提及任何加密或代币集成，来源：https://twitter.com/AnthropicAI/status/2014490502805311959。

来源

2025-10-28
23:41

斯坦福AI实验室发布SLP-Helm儿童言语诊断AI基准：揭示偏见与模型局限，交易者需关注

据@StanfordAILab称，其发布了SLP-Helm基准，用于测试AI模型在儿童言语诊断中的表现，并明确揭示了优势、缺陷与偏见；来源：斯坦福AI实验室于2025年10月28日在X发布的信息及其博客。据@StanfordAILab称，数以百万计的儿童面临言语障碍且很少获得及时护理，为该诊断评估基准提供了临床背景；来源：斯坦福AI实验室于2025年10月28日在X发布的信息。据@StanfordAILab称，更多测试与发现已在斯坦福AI实验室博客公布，供进一步核查与评估；来源：X帖中引用的斯坦福AI实验室博客（2025年10月28日）。

来源

2025-02-05
16:51

Gemini 2.0：卓越的价格/性能模型超越GPT-4o

根据@SullyOmarr，Gemini 2.0目前是价格/性能比最优的模型。评估表明，其性能超越了GPT-4o，且价格便宜约20倍。对于非编程密集型任务的用户，这是推荐的选择。

来源

关于 模型评估 的快讯列表

关于模型评估的快讯列表