AI 快讯列表关于 人工智能模型评估
| 时间 | 详情 |
|---|---|
|
2025-12-10 19:04 |
Gemini 3 Pro在AI模型基准测试中以68.8%领先,谷歌DeepMind强调多模态事实性挑战
根据@GoogleDeepMind发布的信息,在对15个主流AI模型的基准评测中,Gemini 3 Pro以68.8%的最高分排名第一。评测结果显示,虽然各模型在搜索能力和内部知识方面取得提升,但多模态事实性仍是业界面临的共同挑战。谷歌DeepMind已在Kaggle平台公开该基准数据,旨在推动研究社区开发更可靠的AI系统,促进AI模型在企业与科研场景下的实际应用与创新。(来源:@GoogleDeepMind, 2025年12月10日, goo.gle/4aEUD4b) |
|
2025-11-18 08:41 |
AI模型验证标准受质疑:独立研究推动人工智能评估新趋势
根据Twitter用户@godofprompt的观点,当前AI行业内的“验证”方法受到质疑,强调在AI模型评估中进行独立研究的重要性(来源:https://twitter.com/godofprompt/status/1990701968579530822)。这一趋势促使企业和开发者加强对AI模型的独立验证,以提升模型的准确性和公正性。独立研究的需求为AI审计、第三方评估及透明度工具等领域带来新的商业机遇。 |