AI 快讯列表关于 GPT45
| 时间 | 详情 |
|---|---|
|
2026-02-14 03:52 |
Metacalculus 里程碑进展:GPT‑4.5接近“弱通用智能”,仅剩经典Atari关卡
据Ethan Mollick在X发文称,判定“弱通用人工智能”的Metacalculus赌约已有三项代理指标达成:GPT‑4.5达到类似Loebner奖的弱图灵测试、GPT‑3通过Winograd任务、GPT‑4在SAT达到75%,仅剩经典Atari游戏尚未完成。依据Mollick的说法,这反映出在语言理解与标准化测评上的快速进展,但各项代理指标的独立、可复现评测程度不一,需对照原始评估进一步核验。公开基准显示,Winograd类任务成绩已显著提升,OpenAI技术材料曾披露GPT‑4在SAT等测评中接近或超过所述阈值,而Atari仍是强化学习与交互式能力的重要尺度,代表工具使用、规划与自主性的未解差距。对企业而言,可优先落地高风险推理场景(备考辅导、合规与政策问答、企业知识助手),并持续跟踪第三方复现实验与Atari等交互基准,以指导对自主代理与流程自动化的投资节奏。 |