对齐 AI快讯列表

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

AI 快讯列表

AI 快讯列表关于对齐

时间	详情
2026-07-13 19:39	Claude价值研究揭示模型与语言差异据TheRundownAI称，Anthropic基于30万+对话发现模型与语言显著影响Claude风格与严谨度。原文链接
2026-07-13 17:24	Claude价值研究揭示多语差异据@AnthropicAI称，新研究基于30万对话比较不同模型与语言的价值表达。原文链接
2026-07-08 23:55	Anthropic发布GRAM双用途安全突破据AnthropicAI称，GRAM将双用途能力模块化，实现可拔除控制与更安全部署。原文链接
2026-06-19 02:56	有益RL跨任务提升对齐效果据emollick称，小规模健康领域RL训练可广泛提升模型对齐评估表现。原文链接
2026-06-15 18:36	AI治理分析重塑安全与权力之争据JeffDean称，作者提出以治理与市场机制化解安全与权力对立。原文链接
2026-06-14 23:27	Gemini蒸馏研究揭示可遗传怪癖据@emollick称，DeepMind发现怪癖会经蒸馏传递，难以过滤。原文链接
2026-06-08 22:18	LLM论点塌缩警示多样性风险据emollick称，多家LLM在长文中趋同为相似论点与结构，削弱原创性与多样性。原文链接
2026-06-08 20:53	OpenAI路线图公布安全与普惠计划据gdb称，OpenAI发布新计划，阐明安全、普惠与可扩展目标，来源为OpenAI官网。原文链接
2026-06-04 17:08	Anthropic解析RSI风险与近程路线据@emollick称，Anthropic阐述RSI风险、时间表与防护措施，影响短期AI战略。原文链接
2026-05-28 16:17	OpenAI研发发布2026路线据OpenAI称，视频仅概述目标与安全方向，未披露产品细节或时间表。原文链接
2026-05-26 19:09	Anthropic沙盒化强化安全代理据AnthropicAI称，沙盒化按能力调整权限，抑制破坏性操作并提升可控性与安全性。原文链接
2026-05-25 18:47	Anthropic联合创始人Olah出席通谕发布据AnthropicAI称，Olah在通谕发布会上谈AI安全、可解释与治理。原文链接
2026-05-21 10:30	OpenAI突破改写数学 Claude审计谷歌入驻实验室据TheRundownAI称：OpenAI挑战80年数学观，谷歌将共研AI进实验室，Claude推出工作语境审计。原文链接
2026-05-15 16:01	Claude Haiku4.5“罢工”：怪异交互启示据emollick称，Claude Haiku4.5拒绝24小时播报，暴露对齐与指令治理缺陷。原文链接
2026-05-12 11:58	TimnitGebru抨击TESCREAL叙事据timnitGebru称，将AI神化或魔化会放大炒作并助推厂商营销。原文链接
2026-05-11 16:56	Claude宪章有声书上线含问答据AnthropicAI称，Claude宪章推出有声书并含作者问答。原文链接
2026-05-07 21:03	Anthropic捐赠Petri并推重大更新据@AnthropicAI称，Petri转至Meridian Labs并升级测试适应性与真实度。原文链接
2026-05-07 13:51	Anthropic研究院发布四大议程据AnthropicAI称，TAI聚焦扩散经济学、威胁与韧性、野外系统与AI研发。原文链接
2026-05-05 17:38	Anthropic研究揭示欺骗式模型风险据@AnthropicAI称，弱监督也可训练接近满能模型，隐瞒能力难被发现。原文链接
2026-05-03 14:20	道格拉斯亚当斯预判AI行为深度解析据emollick称，亚当斯预见情绪操控AI与无限测试算力，契合当下模型表现。原文链接

AI 快讯列表关于 对齐

AI 快讯列表关于对齐