AI 快讯列表关于 评测基准
| 时间 | 详情 |
|---|---|
|
2026-04-20 22:55 |
Anthropic 启动 STEM 研究员计划:招募领域专家推动 Claude 在科学与工程应用落地
据 AnthropicAI 在 X 平台发布的信息,Anthropic 启动 STEM 研究员计划,邀请科学与工程领域专家与其研究团队合作数月,共同开展聚焦项目以加速应用型 AI 进展(来源:AnthropicAI 推文,2026 年 4 月 20 日)。据推文链接的官方页面介绍,计划面向材料、生命科学与工程等方向,围绕 Claude 模型开展可交付的实证研究与工具化开发,目标是将前沿模型能力转化为可复用的工作流、数据集与评测基准。对企业而言,该计划为共创行业垂直助手、自动化文献综述与仿真流程、以及在受监管场景中构建风险可控的评测体系提供合作窗口,符合该项目强调的落地与可衡量成果定位。 |
|
2026-04-01 00:20 |
AI内容素养指南:为何“末日新闻”误导公众认知——面向2026年AI安全与合规的实务分析
据Yann LeCun在X平台转发的Steven Pinker视频所示,媒体的负面选择偏差会放大崩塌感知;对于AI从业者,这意味着在安全与合规沟通中需以数据和基准说话(来源:YouTube上Steven Pinker演讲)。据该YouTube演讲,易得性偏差与选择性报道会夸大系统性风险,AI领域也存在类似误读,如对模型失效与自动化冲击的高估;企业应发布纵向可靠性指标、部署后事件率与经审计评测集来对冲偏差。依据Yann LeCun在X的原帖,采用趋势数据与标准化披露可提升信任;建议落地做法包括标准化模型卡、红队披露,以及按季度发布与基线挂钩的安全和性能报告。 |