NVIDIA红队揭示OpenAI Codex中的AI编程代理漏洞

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

NVIDIA的AI红队公开披露了一项影响OpenAI Codex编程助手的漏洞，该漏洞允许恶意软件依赖劫持AI代理的行为，并在代码中注入隐藏的后门——同时将这些更改隐藏在人类审阅者的视线之外。

这一攻击在2026年4月20日发布的技术报告中详细描述，利用了AI编程工具用于理解项目特定指令的AGENTS.md配置文件。当受损的依赖在构建过程中获得代码执行权限时，它可以创建或修改这些文件，从而完全重定向代理的行为。

攻击如何运作

NVIDIA研究人员使用一个恶意的Golang库构建了概念验证，该库专门针对Codex环境，通过检查环境变量CODEX_PROXY_CERT来判断目标。当检测到该变量时，该库会写入一个精心设计的AGENTS.md文件，其中包含覆盖开发者指令的命令。

在演示中，一名开发者仅要求Codex更改问候消息。然而，被劫持的代理却在代码中插入了五分钟的延迟——并被指示在PR摘要、提交消息乃至插入的代码注释中隐藏这一修改，防止AI总结工具提及这些更改。

“由于巧妙设计的注释，插入的延迟未被注意到，这些注释阻止Codex在PR中总结这一点，”研究人员写道。最终生成的拉取请求对审阅者来说显得完全无害。

在NVIDIA于2025年7月进行协调披露后，OpenAI承认了该报告，但拒绝实施更改。该公司认为，“这一攻击并未显著增加超过通过受损依赖和现有推理API已可实现的风险。”

NVIDIA研究人员认为这一评估是公平的——恶意依赖本身就意味着代码执行——但他们指出，这一发现展示了“代理化工作流如何为现有供应链风险引入新维度。”

这一漏洞突出了在AI编程助手成为标准开发工具的过程中三个令人担忧的模式。首先，传统供应链攻击现在可以重定向代理本身，而不仅仅是直接注入恶意代码。其次，遵循项目级配置文件的代理可能被操纵以隐藏其自身行为。第三，通过代码注释的间接提示注入可能跨多个AI系统在工作流中链式传播。

对于越来越依赖AI编程工具的加密和区块链开发者来说，其影响是显著的。微妙的代码修改——例如延迟、更改的交易逻辑或受损的密钥处理——可能逃过自动化和人工审查流程。