AI 快讯列表关于 AI安全性
| 时间 | 详情 |
|---|---|
|
2025-12-16 12:19 |
宪法式AI提示:以原则优先提升AI安全性与可靠性
根据God of Prompt的推文,宪法式AI提示是一种在指令前设定指导原则的工程方法。这一方法被Anthropic用于训练Claude,使其在保持有用性的同时能够拒绝有害请求(来源:God of Prompt,Twitter,2025年12月16日)。通过在提示中明确行为约束,如优先准确性、引用来源、承认不确定性,此策略显著提升了AI的安全性和合规性,为企业级AI应用提供了更可靠的解决方案,并创造了面向受监管行业的AI业务机会。 |
|
2025-12-11 21:42 |
Anthropic 2026年Fellows项目:AI安全与安全研究资助、算力和导师支持
根据Anthropic (@AnthropicAI)官方消息,2026年5月和7月开启的两轮Anthropic Fellows项目现已开放申请。该项目为研究人员和工程师提供资金、算力和直接导师指导,专注于为期四个月的AI安全与安全性实际项目。该计划推动AI系统的稳健性与可信度创新,为AI从业者提供行业实践和人脉资源,助力参与者在快速增长的AI安全赛道中实现职业提升(来源:@AnthropicAI,2025年12月11日)。 |
|
2025-07-09 15:30 |
后训练提升大语言模型指令遵循与安全性——DeepLearning.AI最新课程解析
据DeepLearning.AI(@DeepLearningAI)官方消息,大多数大语言模型在初始状态下难以直接应用,需通过后训练提升指令遵循、推理能力及安全性。由华盛顿大学助理教授、Nexusflow联合创始人Banghua Zhu(@BanghuaZ)主讲的最新短期课程,深入讲解了大语言模型后训练的实际方法。课程指出,利用如人类反馈强化学习(RLHF)、指令微调等先进技术,可显著提升模型的企业定制化、合规与用户信任度。这一趋势为金融、医疗、客户服务等行业部署更安全、智能的AI解决方案带来巨大市场机会。信息来源:DeepLearning.AI官方发布。 |