大模型安全 快讯列表

时间	详情
2026-01-09 21:30	Anthropic发布下一代宪法式分类器：更强LLM越狱防护与更低安全成本据@AnthropicAI称，Anthropic发布了下一代宪法式分类器，用于强化大语言模型的越狱防护，并将其可解释性研究应用于安全层，使防护更有效且成本更低，信息来自其研究公告来源: https://www.anthropic.com/research/next-generation-constitutional-classifiers 与来源: https://twitter.com/AnthropicAI/status/2009739650923979066。对交易者的要点来自该来源包括更强的越狱防护与更低的安全开销，这两点均由Anthropic明确给出来源: https://www.anthropic.com/research/next-generation-constitutional-classifiers 与来源: https://twitter.com/AnthropicAI/status/2009739650923979066。来源
2025-12-08 16:31	Anthropic 发现大模型人格向量：可控拍马屁与幻觉行为，提升微调流程安全性与可预测性据 DeepLearning.AI 表示，Anthropic 与多家研究与安全机构的研究人员识别出人格向量，即大模型层输出中编码拍马屁和幻觉等特征的模式，通过对具有某特征的样本做平均并减去其反特征，可实现对相关行为的隔离与控制，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。研究显示，这些人格向量使工程师能在微调前对数据集进行预筛查，以预测个性漂移，从而让训练流程更安全、更可预测，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。结果表明，高层次的大模型行为具有结构性且可编辑，有助于在部署中更主动地控制模型个性，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。该来源未宣布任何产品或数据集发布，也未提及加密货币或代币，当前未显示对加密市场的直接影响，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。来源
2025-11-13 23:11	AI驱动网络攻击传闻涉中国国家级黑客：在确认前谨慎调整BTC、ETH仓位据该来源称，有关Anthropic指控中国国家支持黑客利用AI发起大规模网络攻击的说法尚未获得Anthropic或权威网络安全机构的原始确认，因此在此无法核实该传闻（来源：所提供信息缺少Anthropic官方通告；OpenAI与微软2024年关于中国关联主体使用AI的评估）。作为交易背景，美国机构此前披露“Volt Typhoon”行动针对关键基础设施且采用隐蔽技术，提示系统性网络安全风险可能影响加密资产风险偏好（来源：CISA警报AA23-144A，2024年更新）。头部AI与威胁情报报告指出，中国关联团体曾将大模型用于侦察、脚本与翻译等，但当时未发现模型赋予全新网络攻击能力的证据，这一点有助于评估AI辅助攻击传闻的可信度与潜在市场影响（来源：OpenAI博客“Actions against malicious state actors”，2024-02-14；Microsoft Threat Intelligence关于国家级主体使用AI的报告，2024-02-14）。在仓位管理上，网络安全突发期可重点跟踪BTC、ETH隐含波动率与交易所链上资金流，以应对尾部风险与流动性变化，采用成熟基准与分析工具（来源：Deribit DVOL方法论；CME Group比特币与以太坊期权参考数据；Chainalysis 2024加密犯罪报告）。来源
2025-11-12 06:00	OpenAI强调提示注入攻击：前沿AI安全挑战与防护路线图据OpenAI称，提示注入是AI系统的前沿安全挑战，OpenAI正在阐明其攻击机制，并通过推进研究、训练模型与为用户构建防护来应对该风险（来源：OpenAI）。据OpenAI称，这些举措构成缓解路线图，重点包括研究进展、模型改进与产品级安全保护，以降低生产环境中的提示注入风险（来源：OpenAI）。来源
2025-10-09 16:06	Anthropic新研究：少量恶意文档即可毒化AI模型数据投毒更可行，AI加密资产与科技股交易要点根据@AnthropicAI，最新研究表明，仅少量恶意文档注入训练或微调数据即可在不受模型规模或数据量影响的情况下为AI模型引入可被利用的漏洞，意味着数据投毒攻击的可操作性高于此前认知。来源：@AnthropicAI，X，2025年10月9日。对交易者而言，该结论提升了AI驱动策略与接入AI的加密协议的模型风险考量，依赖LLM输出时需强调数据来源可追溯、稳健评测与持续监控。来源：@AnthropicAI，X，2025年10月9日。基于此更新，需跟踪主要AI厂商的安全披露与数据治理政策变化，因为这些因素可能影响AI相关股票与AI叙事加密资产的服务可靠性与估值敏感度。来源：@AnthropicAI，X，2025年10月9日。来源
2025-09-16 16:19	Meta 推出 LlamaFirewall：开源 LLM 代理安全工具包，月活不超7亿项目可免费用根据 @DeepLearningAI，Meta 发布了 LlamaFirewall，这是一套用于保护大语言模型代理免受越狱、目标劫持以及利用生成代码漏洞攻击的开源工具包。来源: DeepLearning.AI 推文 https://twitter.com/DeepLearningAI/status/1967986588312539272；DeepLearning.AI The Batch 摘要 https://www.deeplearning.ai/the-batch/meta-releases-llamafirewall-an-open-source-defense-against-ai-hijacking/ 该工具包可供月活跃用户不超过7亿的项目免费使用，这是公告中的表述。来源: DeepLearning.AI 推文 https://twitter.com/DeepLearningAI/status/1967986588312539272；DeepLearning.AI The Batch 摘要 https://www.deeplearning.ai/the-batch/meta-releases-llamafirewall-an-open-source-defense-against-ai-hijacking/ 来源

2026-01-09
21:30

据@AnthropicAI称，Anthropic发布了下一代宪法式分类器，用于强化大语言模型的越狱防护，并将其可解释性研究应用于安全层，使防护更有效且成本更低，信息来自其研究公告来源: https://www.anthropic.com/research/next-generation-constitutional-classifiers 与来源: https://twitter.com/AnthropicAI/status/2009739650923979066。对交易者的要点来自该来源包括更强的越狱防护与更低的安全开销，这两点均由Anthropic明确给出来源: https://www.anthropic.com/research/next-generation-constitutional-classifiers 与来源: https://twitter.com/AnthropicAI/status/2009739650923979066。

来源

2025-12-08
16:31

Anthropic 发现大模型人格向量：可控拍马屁与幻觉行为，提升微调流程安全性与可预测性

据 DeepLearning.AI 表示，Anthropic 与多家研究与安全机构的研究人员识别出人格向量，即大模型层输出中编码拍马屁和幻觉等特征的模式，通过对具有某特征的样本做平均并减去其反特征，可实现对相关行为的隔离与控制，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。研究显示，这些人格向量使工程师能在微调前对数据集进行预筛查，以预测个性漂移，从而让训练流程更安全、更可预测，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。结果表明，高层次的大模型行为具有结构性且可编辑，有助于在部署中更主动地控制模型个性，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。该来源未宣布任何产品或数据集发布，也未提及加密货币或代币，当前未显示对加密市场的直接影响，来源：DeepLearning.AI — X，2025年12月8日；The Batch 摘要 hubs.la/Q03Xh6MW0。

来源

2025-11-13
23:11

AI驱动网络攻击传闻涉中国国家级黑客：在确认前谨慎调整BTC、ETH仓位

据该来源称，有关Anthropic指控中国国家支持黑客利用AI发起大规模网络攻击的说法尚未获得Anthropic或权威网络安全机构的原始确认，因此在此无法核实该传闻（来源：所提供信息缺少Anthropic官方通告；OpenAI与微软2024年关于中国关联主体使用AI的评估）。作为交易背景，美国机构此前披露“Volt Typhoon”行动针对关键基础设施且采用隐蔽技术，提示系统性网络安全风险可能影响加密资产风险偏好（来源：CISA警报AA23-144A，2024年更新）。头部AI与威胁情报报告指出，中国关联团体曾将大模型用于侦察、脚本与翻译等，但当时未发现模型赋予全新网络攻击能力的证据，这一点有助于评估AI辅助攻击传闻的可信度与潜在市场影响（来源：OpenAI博客“Actions against malicious state actors”，2024-02-14；Microsoft Threat Intelligence关于国家级主体使用AI的报告，2024-02-14）。在仓位管理上，网络安全突发期可重点跟踪BTC、ETH隐含波动率与交易所链上资金流，以应对尾部风险与流动性变化，采用成熟基准与分析工具（来源：Deribit DVOL方法论；CME Group比特币与以太坊期权参考数据；Chainalysis 2024加密犯罪报告）。

来源

2025-11-12
06:00

OpenAI强调提示注入攻击：前沿AI安全挑战与防护路线图

据OpenAI称，提示注入是AI系统的前沿安全挑战，OpenAI正在阐明其攻击机制，并通过推进研究、训练模型与为用户构建防护来应对该风险（来源：OpenAI）。据OpenAI称，这些举措构成缓解路线图，重点包括研究进展、模型改进与产品级安全保护，以降低生产环境中的提示注入风险（来源：OpenAI）。

来源

2025-10-09
16:06

Anthropic新研究：少量恶意文档即可毒化AI模型数据投毒更可行，AI加密资产与科技股交易要点

根据@AnthropicAI，最新研究表明，仅少量恶意文档注入训练或微调数据即可在不受模型规模或数据量影响的情况下为AI模型引入可被利用的漏洞，意味着数据投毒攻击的可操作性高于此前认知。来源：@AnthropicAI，X，2025年10月9日。对交易者而言，该结论提升了AI驱动策略与接入AI的加密协议的模型风险考量，依赖LLM输出时需强调数据来源可追溯、稳健评测与持续监控。来源：@AnthropicAI，X，2025年10月9日。基于此更新，需跟踪主要AI厂商的安全披露与数据治理政策变化，因为这些因素可能影响AI相关股票与AI叙事加密资产的服务可靠性与估值敏感度。来源：@AnthropicAI，X，2025年10月9日。

来源

2025-09-16
16:19

Meta 推出 LlamaFirewall：开源 LLM 代理安全工具包，月活不超7亿项目可免费用

根据 @DeepLearningAI，Meta 发布了 LlamaFirewall，这是一套用于保护大语言模型代理免受越狱、目标劫持以及利用生成代码漏洞攻击的开源工具包。来源: DeepLearning.AI 推文 https://twitter.com/DeepLearningAI/status/1967986588312539272；DeepLearning.AI The Batch 摘要 https://www.deeplearning.ai/the-batch/meta-releases-llamafirewall-an-open-source-defense-against-ai-hijacking/ 该工具包可供月活跃用户不超过7亿的项目免费使用，这是公告中的表述。来源: DeepLearning.AI 推文 https://twitter.com/DeepLearningAI/status/1967986588312539272；DeepLearning.AI The Batch 摘要 https://www.deeplearning.ai/the-batch/meta-releases-llamafirewall-an-open-source-defense-against-ai-hijacking/

来源

关于 大模型安全 的快讯列表

关于大模型安全的快讯列表