Character.AI的Kaiju:在高效与安全中扩展对话模型
realtime news Nov 07, 2025 13:03
Character.AI的Kaiju模型为对话式AI提供了一种可扩展且高效的解决方案,通过创新的架构特点关注安全性和参与度。
Character.AI在对话式AI领域取得了进展,其Kaiju模型旨在每天处理数百万次交互,同时将安全性和参与度放在首位。根据Character.AI Blog,Kaiju模型是内部大型语言模型(LLMs)家族的一部分,利用先进的架构效率。
架构创新
Kaiju模型采用密集的transformer架构,并结合了多项效率优化。值得注意的是,这些模型使用int8量化以提高处理速度和效率。模型有三种尺寸——小型(130亿参数)、中型(340亿)和大型(1100亿)——设计在性能和资源利用之间保持平衡。
多查询和滑动窗口注意力
Kaiju模型的一个显著特征是使用多查询注意力(MQA),这减少了每个标记键值缓存的大小,从而提高推理效率。虽然MQA可能对一些人工通用智能(AGI)基准测试造成负面影响,但对于Character.AI的特定用例来说,其效率提升超过了弊端。
模型还采用滑动窗口注意力,以降低计算负担,尤其是在涉及长上下文处理的场景中。这种方法确保了模型在长上下文检索任务中不牺牲质量的情况下保持高效。
量化感知训练
Kaiju模型采用量化感知训练(QAT)进行训练,这有助于在显著加快训练过程的同时保持高准确度。此方法允许模型在加速高达30%的同时达到bf16级别的准确度。
安全与对齐
安全性是Kaiju模型的关键组成部分。在部署之前,每个模型都会经过严格的多阶段安全性和对齐过程,其中包括基于用户反馈的监督微调和强化学习。此外,这些模型还具有一个可选的分类器头,用于评估输入的安全性,提高对话式AI的稳健性。
未来方向
随着Character.AI继续进行创新,关注重点仍是提高模型的部署效率、参与度和安全性。团队致力于推进开源大型语言模型(LLMs)的发展,并积极寻求工程师和研究人员加入他们的工作,创造更多动态和以人为中心的AI系统。
Image source: Shutterstock