AI 快讯列表关于 主动AI安全
| 时间 | 详情 | 
|---|---|
| 
                                        2025-10-23 22:39  | 
                            
                                 
                                    
                                        MIT发布InvThink:AI逆向思维安全框架实现15.7%有害输出减少且提升模型能力
                                    
                                     
                            根据推特用户God of Prompt披露,麻省理工学院(MIT)团队提出了一种名为InvThink的全新AI安全方法,通过让模型在生成回答前先逆向推理、枚举所有潜在危害并分析后果,实现了AI主动安全控制(来源:God of Prompt,Twitter,2025年10月23日)。与传统依赖输出后过滤或规则约束的AI安全方法不同,InvThink不仅将有害输出降低15.7%,而且没有出现推理能力下降,反而在数学与推理基准测试中提升了5%。其机理是让模型训练时全面列举失败模式,从而增强约束性推理能力,这一能力还能迁移到更广泛的逻辑和问题求解任务中。尤其在7B到32B参数的大型模型中,InvThink实现了2.3倍的AI安全提升,突破了以往方法在扩展时的性能瓶颈。在医疗、金融、法律等高风险领域,InvThink实现了零有害输出,表现出完全的AI安全对齐。对企业而言,InvThink为高合规行业部署先进AI系统提供了新机遇,实现了智能与合规的双赢(来源:God of Prompt,Twitter,2025年10月23日)。  |