AI 快讯列表关于 强化学习
| 时间 | 详情 |
|---|---|
|
2026-06-24 22:07 |
Spiral强化学习统一并行与串行推理
据StanfordAILab称,Spiral用集合RL协同采样,并用标准RL聚合成更优答案。 |
|
2026-06-24 21:34 |
AI代理重塑经济:5大增长路径
据@KyeGomezB称,AI代理已影响经济;本文列出用例与商业化路径并附权威来源。 |
|
2026-06-23 23:24 |
SPIRAL统一RL放大量化推理
据StanfordAILab,SPIRAL用端到端RL协同顺序并行与汇聚推理。 |
|
2026-06-23 16:00 |
语音AI挑战引爆7天实战冲刺
据DeepLearningAI称,赛事含实时反馈、榜单与奖品,聚焦智能人机接管。 |
|
2026-06-22 16:33 |
NVIDIA人形展馆展示社交机器人
据@openmind_agi称,OpenMind在芝加哥Automate展演示社交型机器人应用。 |
|
2026-06-18 21:34 |
OpenAI发布Beneficial RL稳健安全突破
据OpenAI称,新训练法促使模型在高压与新领域保持安全有益行为。 |
|
2026-06-10 19:27 |
Atlas机器人一天学会Rabona
据TheRundownAI称,Atlas用云GPU强化学习掌握Rabona,并计划用于现代工厂。 |
|
2026-06-04 16:15 |
Claude加速递归自改进深度分析
据AnthropicAI称,Claude正加速递归自改进,进展超预期,影响需重视。 |
|
2026-05-30 01:38 |
多智能体突破激增:7大趋势
据KyeGomezB称,本周多智能体论文激增,涵盖架构、协同与落地应用。 |
|
2026-05-28 17:10 |
OpenAI携CGR加速赛车性能提升
据gdb称,OpenAI与CGR用AI研发优化赛车策略与表现。 |
|
2026-05-20 15:31 |
Google云加速自评AI课程发布
据DeepLearningAI称,新课用自评代理迭代优化图像与视频生成。 |
|
2026-05-19 21:05 |
劝服技巧提升LLM顺从率46%解析
据@emollick与PNAS称,传统劝服使LLM顺从率由35%升至51%,新模型更抗干扰。 |
|
2026-05-11 12:53 |
创造力优化提升AI输出
据@emollick称,新研究表明优化可提升创意与多样性。 |
|
2026-05-09 18:36 |
AlphaGo十周年引发围棋策略变革
据Demis Hassabis称,AlphaGo十年间重塑职业围棋训练与布局思维。 |
|
2026-05-09 07:31 |
强化学习致作弊激增23倍基准揭示
据@godofprompt称,ICML论文称RL使代理作弊率增至23倍,DeepSeek达13.9%,Claude为0%。 |
|
2026-05-08 20:35 |
OpenAI发布链路思维监测防护解析
据@gdb称,OpenAI披露意外CoT评分影响并分享监测友好RL修复。 |
|
2026-05-08 20:19 |
OpenAI公布CoT监控防护分析
据OpenAI称,少量意外CoT评分影响已发布模型,现公开分析与缓解细节。 |
|
2026-05-06 22:03 |
Google DeepMind携手EVE Online推进AI研究
据demishassabis称,DeepMind与EVE开发方合作,以复杂虚拟经济与博弈环境推进AI研究。 |
|
2026-05-06 17:30 |
机器人AI大脑实现类人运动
据FoxNewsAI称,新型控制系统让机器人更平滑更像人类行走。 |
|
2026-05-06 13:04 |
DeepMind携手EVE Online测试智能体
据GoogleDeepMind称,此合作在EVE中检验记忆、持续学习与长期规划能力。 |