安全评估 AI快讯列表

时间	详情
2026-04-06 17:12	OpenAI 推出 Safety Fellowship：资助独立AI安全与对齐研究，培育下一代人才据 OpenAI 在 X 上宣布，OpenAI 启动 Safety Fellowship，资助独立的 AI 安全与对齐研究并培养新一代研究人才。根据 OpenAI 2026年4月6日发布的信息，该项目面向独立学者与新兴研究者，聚焦对齐、可扩展监督与评估等方向，提供资助与导师支持，以形成可落地的安全措施和面向前沿模型的政策证据。依照 OpenAI 的说明，该计划将为安全评估、红队测试与可解释性研究带来新的资金与协作机会，有望加速企业模型治理与风险控制的实务应用。原文链接
2026-03-05 20:07	OpenAI发布链式思维可控性评估：GPT-5.4 Thinking难以隐藏推理，安全监测价值凸显据OpenAI在Twitter发布的信息称，OpenAI推出了链式思维（CoT）可控性评估套件与研究论文，结果显示GPT-5.4 Thinking难以有效隐藏其推理过程，表明CoT监测仍是可靠的安全手段（来源：OpenAI）。据OpenAI介绍，该评估关注模型是否能刻意隐匿或操控中间推理步骤，这对安全审计与合规流程尤为关键。OpenAI表示，这一发现支撑企业部署自动化CoT日志记录、行为一致性校验与红队测试，用于识别未披露的推理路径。企业可利用该评估对模型进行基准测试、强化策略执行与链路监督，降低隐蔽提示注入与欺骗性规划在生产环境中的风险。原文链接
2025-11-19 12:17	Gemini 3发布：谷歌DeepMind推出最安全AI模型，强化安全评估根据Google DeepMind官方消息，Gemini 3正式发布，被称为迄今为止谷歌最安全的AI模型（来源：Google DeepMind Twitter，2025年11月19日）。该模型经过了谷歌AI历史上最全面的安全评估，并应用前沿安全框架进行严格测试，还接受了外部行业专家的独立评估。这一举措体现了谷歌在AI企业级应用领域对安全与合规的重视，尤其适用于医疗、金融和政府等高风险行业。Gemini 3的安全优势有助于企业在AI部署过程中降低风险并满足监管要求。原文链接

2026-04-06
17:12

OpenAI 推出 Safety Fellowship：资助独立AI安全与对齐研究，培育下一代人才

据 OpenAI 在 X 上宣布，OpenAI 启动 Safety Fellowship，资助独立的 AI 安全与对齐研究并培养新一代研究人才。根据 OpenAI 2026年4月6日发布的信息，该项目面向独立学者与新兴研究者，聚焦对齐、可扩展监督与评估等方向，提供资助与导师支持，以形成可落地的安全措施和面向前沿模型的政策证据。依照 OpenAI 的说明，该计划将为安全评估、红队测试与可解释性研究带来新的资金与协作机会，有望加速企业模型治理与风险控制的实务应用。

原文链接

2026-03-05
20:07

OpenAI发布链式思维可控性评估：GPT-5.4 Thinking难以隐藏推理，安全监测价值凸显

据OpenAI在Twitter发布的信息称，OpenAI推出了链式思维（CoT）可控性评估套件与研究论文，结果显示GPT-5.4 Thinking难以有效隐藏其推理过程，表明CoT监测仍是可靠的安全手段（来源：OpenAI）。据OpenAI介绍，该评估关注模型是否能刻意隐匿或操控中间推理步骤，这对安全审计与合规流程尤为关键。OpenAI表示，这一发现支撑企业部署自动化CoT日志记录、行为一致性校验与红队测试，用于识别未披露的推理路径。企业可利用该评估对模型进行基准测试、强化策略执行与链路监督，降低隐蔽提示注入与欺骗性规划在生产环境中的风险。

原文链接

2025-11-19
12:17

Gemini 3发布：谷歌DeepMind推出最安全AI模型，强化安全评估

根据Google DeepMind官方消息，Gemini 3正式发布，被称为迄今为止谷歌最安全的AI模型（来源：Google DeepMind Twitter，2025年11月19日）。该模型经过了谷歌AI历史上最全面的安全评估，并应用前沿安全框架进行严格测试，还接受了外部行业专家的独立评估。这一举措体现了谷歌在AI企业级应用领域对安全与合规的重视，尤其适用于医疗、金融和政府等高风险行业。Gemini 3的安全优势有助于企业在AI部署过程中降低风险并满足监管要求。

原文链接

AI 快讯列表关于 安全评估

AI 快讯列表关于安全评估