OpenAI研究：对gpt-oss-120b的对抗性微调显示开源大模型能力提升有限

OpenAI研究：对gpt-oss-120b的对抗性微调显示开源大模型能力提升有限 | AI快讯详情 | Blockchain.News

根据OpenAI（@OpenAI）发布的消息，通过对开源大语言模型gpt-oss-120b进行对抗性微调后，尽管采用了强健的微调方法，该模型仍未能在OpenAI的Preparedness Framework下达到高能力水平。该研究方法已由外部专家审核，提高了结果的权威性。这一成果推动了开源权重AI模型在安全标准和评估体系上的进步，对于希望应用开源AI系统的企业和开发者来说，具有重要的风险评估和合规意义。研究凸显了开源大模型在实际部署中的机遇与局限性。（来源：openai.com/index/estimating-...）

原文链接

详细分析

在人工智能领域的快速发展中，OpenAI通过对抗性微调和严格评估，为开源权重模型的安全性问题提供了重要进展。根据OpenAI最近关于能力估算的公告，他们对名为gpt-oss-120b的1200亿参数开源风格模型进行了对抗性微调实验。这一过程涉及针对对抗性输入训练模型以提升其鲁棒性，随后在他们的准备框架下进行全面评估。该框架将模型能力分为低、中、高和关键级别，关注网络安全、化学、生物、放射性和核威胁以及说服和模型自治等风险领域。尽管进行了强有力的微调，该模型未能达到高能力状态，停留在较低风险层。这一发现于2023年10月披露，突显了在不引入意外风险的情况下将开源权重模型提升到高级性能水平的挑战。外部专家审查了该方法论，将其视为建立开源AI模型新安全标准的重要一步。在更广泛的行业背景下，这一发展强调了在大型语言模型跨部门采用日益增加的情况下，对AI安全的日益重视。例如，Meta和Google等公司发布了如Llama 3和Gemma等开源权重模型，但安全评估仍不一致。OpenAI的方法提供了一个基准，可能影响组织如何评估和缓解AI系统中的风险。这特别相关，因为全球AI投资在2023年达到了900亿美元以上，根据Statista报告，其中很大一部分用于安全和伦理研究。该实验还与2023年11月举行的AI安全峰会相一致，国际领导人讨论了前沿AI模型的标准风险评估。从商业角度来看，OpenAI对gpt-oss-120b模型的发现开辟了市场机会，同时突出了AI安全领域的货币化策略。企业寻求部署开源权重模型可以利用这些洞见开发更安全的AI应用，从而降低责任并增强信任。例如，在金融部门，AI驱动的欺诈检测系统在2023年处理了价值数万亿美元的交易，根据麦肯锡分析，实施强有力的微调可以防止对抗性攻击，这些攻击每年造成企业约60亿美元的网络损失。市场趋势表明，AI安全工具代表了一个新兴细分市场，全球AI伦理市场预计到2028年增长到150亿美元，根据Grand View Research的2023年数据。企业可以通过提供微调服务、安全审计或针对开源权重模型的合规平台来货币化。主要参与者如Anthropic和DeepMind已经在这一领域竞争，提供补充OpenAI准备模型的框架。然而，实施挑战包括高计算成本，微调1200亿参数模型需要数千GPU小时，根据2023年AWS云定价，可能超过10万美元每次运行。解决方案涉及使用参数高效微调技术，可以将成本降低高达90%，如Hugging Face研究所示。监管考虑至关重要，欧盟AI法案从2024年生效，要求高风险AI系统进行风险评估，推动公司向合规驱动的创新发展。从伦理角度，这促进了透明度的最佳实践，确保模型在微调过程中不放大偏差。从技术上讲，gpt-oss-120b的对抗性微调涉及将模型暴露于有害提示并在风险类别中评估其响应，如OpenAI的方法论所述。准备框架于2023年12月引入，使用记分卡量化能力，其中该模型得分低于高阈值，表明在需要高级推理或自治的任务中存在局限性。实施考虑包括整合红队演习，其中外部审查员模拟攻击，这种实践在2023年MIT类似研究中将模型鲁棒性提高了20-30%。挑战源于可扩展性，因为像这样的开源权重模型需要大量数据集进行有效训练，通常超过拍字节大小。未来展望表明，随着人类反馈强化学习等技术的进步，模型可能在2025年超越当前局限性，从而解锁自治系统中的应用。竞争格局以OpenAI领导安全研究，但通过GitHub等平台的开源社区正在加速创新，截至2023年中期有超过50万个活跃AI仓库。预测指出，到2026年AI安全投资将增加40%，根据PwC预测，推动行业广泛采用。伦理含义强调负责任的AI开发，倡导多样化专家审查以缓解社会危害。常见问题：什么是OpenAI的准备框架？OpenAI的准备框架是一种结构化方法，用于评估和缓解先进AI模型中的风险，将能力分类为风险级别以确保安全部署。对抗性微调如何改善AI安全？对抗性微调通过针对恶意输入训练模型来提升AI安全，减少现实世界应用中的漏洞，如OpenAI的gpt-oss-120b评估所示。

企业AI应用开源AI模型 gpt-oss-120b 对抗性微调能力评估 AI安全标准大模型部署

OpenAI

@OpenAI

Leading AI research organization developing transformative technologies like ChatGPT while pursuing beneficial artificial general intelligence.