GPT45 AI快讯列表

AI 快讯列表

AI 快讯列表关于 GPT45

时间	详情
2026-03-10 23:56	弱AGI标准之争：GPT‑4.5、GPT‑3与GPT‑4基准最新解读（2026分析）据Ethan Mollick在X上的转述（来源：Stefan Schubert），所谓“弱AGI”标准被描述为：GPT‑4.5据称达到类Loebner奖的弱图灵测试、GPT‑3通过Winograd测试、GPT‑4在SAT达到约75%，并将1984年Atari老游戏作为剩余关卡；但据Mollick引用Metaculus的预测，预期“弱AGI”到来时间较ChatGPT发布前更晚，这表明标准定义与验证仍存不确定性。依据上述X帖子，这些结论是讨论性陈述而非经同行评审的可复现实证，产业应以可审计基准与公开数据集进行验证后再作为“弱AGI”里程碑。原文链接
2026-02-14 03:52	Metacalculus 里程碑进展：GPT‑4.5接近“弱通用智能”，仅剩经典Atari关卡据Ethan Mollick在X发文称，判定“弱通用人工智能”的Metacalculus赌约已有三项代理指标达成：GPT‑4.5达到类似Loebner奖的弱图灵测试、GPT‑3通过Winograd任务、GPT‑4在SAT达到75%，仅剩经典Atari游戏尚未完成。依据Mollick的说法，这反映出在语言理解与标准化测评上的快速进展，但各项代理指标的独立、可复现评测程度不一，需对照原始评估进一步核验。公开基准显示，Winograd类任务成绩已显著提升，OpenAI技术材料曾披露GPT‑4在SAT等测评中接近或超过所述阈值，而Atari仍是强化学习与交互式能力的重要尺度，代表工具使用、规划与自主性的未解差距。对企业而言，可优先落地高风险推理场景（备考辅导、合规与政策问答、企业知识助手），并持续跟踪第三方复现实验与Atari等交互基准，以指导对自主代理与流程自动化的投资节奏。原文链接

时间

详情

2026-03-10
23:56

弱AGI标准之争：GPT‑4.5、GPT‑3与GPT‑4基准最新解读（2026分析）

据Ethan Mollick在X上的转述（来源：Stefan Schubert），所谓“弱AGI”标准被描述为：GPT‑4.5据称达到类Loebner奖的弱图灵测试、GPT‑3通过Winograd测试、GPT‑4在SAT达到约75%，并将1984年Atari老游戏作为剩余关卡；但据Mollick引用Metaculus的预测，预期“弱AGI”到来时间较ChatGPT发布前更晚，这表明标准定义与验证仍存不确定性。依据上述X帖子，这些结论是讨论性陈述而非经同行评审的可复现实证，产业应以可审计基准与公开数据集进行验证后再作为“弱AGI”里程碑。

原文链接

2026-02-14
03:52

Metacalculus 里程碑进展：GPT‑4.5接近“弱通用智能”，仅剩经典Atari关卡

据Ethan Mollick在X发文称，判定“弱通用人工智能”的Metacalculus赌约已有三项代理指标达成：GPT‑4.5达到类似Loebner奖的弱图灵测试、GPT‑3通过Winograd任务、GPT‑4在SAT达到75%，仅剩经典Atari游戏尚未完成。依据Mollick的说法，这反映出在语言理解与标准化测评上的快速进展，但各项代理指标的独立、可复现评测程度不一，需对照原始评估进一步核验。公开基准显示，Winograd类任务成绩已显著提升，OpenAI技术材料曾披露GPT‑4在SAT等测评中接近或超过所述阈值，而Atari仍是强化学习与交互式能力的重要尺度，代表工具使用、规划与自主性的未解差距。对企业而言，可优先落地高风险推理场景（备考辅导、合规与政策问答、企业知识助手），并持续跟踪第三方复现实验与Atari等交互基准，以指导对自主代理与流程自动化的投资节奏。

原文链接