AI 快讯列表关于 精细对齐
| 时间 | 详情 | 
|---|---|
| 
                                        2025-08-05 17:26  | 
                            
                                 
                                    
                                        OpenAI GPT-OSS模型通过精细对齐和指令分层提升AI安全性
                                    
                                     
                            根据OpenAI官方消息,gpt-oss模型在安全训练方面采用了业界领先的方法,包括在后训练阶段引入精细对齐(deliberative alignment)和指令分层(instruction hierarchy),有效帮助模型拒绝不安全指令并防御提示注入攻击。此外,OpenAI还在预训练阶段实施了多项干预措施,以全面提升模型的安全性。这一进展直接回应了AI滥用问题,为金融、医疗、教育等行业提供了更可靠的AI应用机会(来源:OpenAI,Twitter,2025年8月5日)。  |