AI安全性 AI快讯列表

AI安全性 AI快讯列表 | Blockchain.News

AI 快讯列表

AI 快讯列表关于 AI安全性

时间	详情
2025-12-16 12:19	宪法式AI提示：以原则优先提升AI安全性与可靠性根据God of Prompt的推文，宪法式AI提示是一种在指令前设定指导原则的工程方法。这一方法被Anthropic用于训练Claude，使其在保持有用性的同时能够拒绝有害请求（来源：God of Prompt，Twitter，2025年12月16日）。通过在提示中明确行为约束，如优先准确性、引用来源、承认不确定性，此策略显著提升了AI的安全性和合规性，为企业级AI应用提供了更可靠的解决方案，并创造了面向受监管行业的AI业务机会。原文链接
2025-12-11 21:42	Anthropic 2026年Fellows项目：AI安全与安全研究资助、算力和导师支持根据Anthropic (@AnthropicAI)官方消息，2026年5月和7月开启的两轮Anthropic Fellows项目现已开放申请。该项目为研究人员和工程师提供资金、算力和直接导师指导，专注于为期四个月的AI安全与安全性实际项目。该计划推动AI系统的稳健性与可信度创新，为AI从业者提供行业实践和人脉资源，助力参与者在快速增长的AI安全赛道中实现职业提升（来源：@AnthropicAI，2025年12月11日）。原文链接
2025-07-09 15:30	后训练提升大语言模型指令遵循与安全性——DeepLearning.AI最新课程解析据DeepLearning.AI（@DeepLearningAI）官方消息，大多数大语言模型在初始状态下难以直接应用，需通过后训练提升指令遵循、推理能力及安全性。由华盛顿大学助理教授、Nexusflow联合创始人Banghua Zhu（@BanghuaZ）主讲的最新短期课程，深入讲解了大语言模型后训练的实际方法。课程指出，利用如人类反馈强化学习（RLHF）、指令微调等先进技术，可显著提升模型的企业定制化、合规与用户信任度。这一趋势为金融、医疗、客户服务等行业部署更安全、智能的AI解决方案带来巨大市场机会。信息来源：DeepLearning.AI官方发布。原文链接