自动化评估 AI快讯列表 | Blockchain.News

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

AI 快讯列表

AI 快讯列表关于自动化评估

时间	详情
2026-01-23 00:08	Petri 2.0：Anthropic发布升级版开源AI自动对齐审核工具据Anthropic官方推特（@AnthropicAI）消息，开源AI自动对齐审核工具Petri自发布以来已被多家研究团队和AI开发者采用。最新发布的Petri 2.0版本在防范评估感知（eval-awareness）方面进行了关键优化，并扩展了行为种子库，覆盖更广泛的AI行为类型。这一升级可帮助AI企业和研究者更高效地进行大规模安全性自动审核，及时发现AI模型不对齐风险，满足业界对高效AI安全工具日益增长的需求，助力企业负责任地部署AI系统（来源：AnthropicAI推特，2026年1月23日）。原文链接
2025-12-17 16:30	Nvidia NeMo Agent Toolkit：通过OpenTelemetry追踪和工作流安全提升AI智能体可靠性根据@DeepLearningAI报道，Nvidia与DeepLearning.AI合作推出的新课程，展示如何利用NeMo Agent Toolkit提升AI智能体在实际环境中的可靠性。课程由Brian McBrayer（@Pr_Brian）主讲，重点解决智能体演示中常见的隐性故障，如工具追踪不清、静默失败及功能更新导致的副作用。内容涵盖利用OpenTelemetry追踪定位问题、自动化评估暴露推理脆弱性，以及通过认证和限流机制，确保工作流在生产环境中的一致性。该课程为企业和开发者提供了实用方法，以满足AI智能体在生产应用中对稳定性的迫切需求。（来源：@DeepLearningAI，https://twitter.com/DeepLearningAI/status/2001329113622073611）原文链接
2025-09-11 04:06	OpenAI推出音频Evals：2025年自动化音频AI模型评测新标准据@gdb在X平台消息，OpenAI正式发布了“音频Evals”（来源：x.com/OpenAIDevs/status/1965923707085533368），为音频AI模型提供自动化评测框架。该工具帮助开发者和企业标准化比较音频处理模型的性能，加速语音识别、声音分类及语音合成等行业应用创新。统一的评测标准将提升模型透明度，促进行业竞争，推动音频AI在客服、媒体与无障碍等领域的商业落地（来源：x.com/OpenAIDevs/status/1965923707085533368）。原文链接