关于 模型评估 的快讯列表
| 时间 | 详情 | 
|---|---|
| 2025-10-28 23:41 | 
                                        
                                            斯坦福AI实验室发布SLP-Helm儿童言语诊断AI基准:揭示偏见与模型局限,交易者需关注
                                        
                                         据@StanfordAILab称,其发布了SLP-Helm基准,用于测试AI模型在儿童言语诊断中的表现,并明确揭示了优势、缺陷与偏见;来源:斯坦福AI实验室于2025年10月28日在X发布的信息及其博客。 据@StanfordAILab称,数以百万计的儿童面临言语障碍且很少获得及时护理,为该诊断评估基准提供了临床背景;来源:斯坦福AI实验室于2025年10月28日在X发布的信息。 据@StanfordAILab称,更多测试与发现已在斯坦福AI实验室博客公布,供进一步核查与评估;来源:X帖中引用的斯坦福AI实验室博客(2025年10月28日)。 | 
| 2025-02-05 16:51 | 
                                        
                                            Gemini 2.0:卓越的价格/性能模型超越GPT-4o
                                        
                                         根据@SullyOmarr,Gemini 2.0目前是价格/性能比最优的模型。评估表明,其性能超越了GPT-4o,且价格便宜约20倍。对于非编程密集型任务的用户,这是推荐的选择。 |