模型审计 AI快讯列表 | Blockchain.News
AI 快讯列表

AI 快讯列表关于 模型审计

时间 详情
2025-10-09
16:28
英国AI安全研究:少量恶意文档可威胁任意大模型,数据投毒风险激增

据Anthropic(@AnthropicAI)与英国AI安全研究院(@AISecurityInst)、艾伦·图灵研究院(@turinginst)联合发布的新研究显示,仅需少量恶意文档即可在任何规模的大语言模型(LLM)中制造安全漏洞。研究证实,数据投毒攻击比以往认为的更为实际和易实施,这对AI开发企业敲响警钟,强调训练数据管理和安全防护的重要性,同时为AI安全解决方案和模型审计服务创造了新的市场机会。(来源:Anthropic, https://twitter.com/AnthropicAI/status/1976323781938626905)

2025-07-31
16:42
Chris Olah提出AI归因图结合注意力机制的新进展,推动模型可解释性创新

根据Chris Olah(@ch402)的最新研究,将注意力机制融入AI归因图方法,为神经网络可解释性带来重要突破(来源:twitter.com/ch402/status/1950960341476934101)。虽然这还不是对全局注意力机制的全面解答,但已经为理解AI模型决策过程提供了具体进展。对AI行业而言,这将促进大模型透明度提升,为可解释性AI、模型审计和合规领域带来新的商业机会。

2025-05-29
16:00
Anthropic开源大型语言模型可解释性归因图工具,助力AI透明化与行业应用

据@AnthropicAI消息,其可解释性团队已正式开源用于生成大型语言模型归因图的方法。该工具让AI研究人员能够直观追踪模型推理过程,提升模型透明度和可信度。此次开源为AI模型的基准测试、调试和优化提供了实用工具,也为AI合规和审计等商业应用创造新机遇(来源:@AnthropicAI,2025年5月29日)。