Character.AI的Kaiju：在高效与安全中扩展对话模型

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

Character.AI的Kaiju：在高效与安全中扩展对话模型 - Blockchain.News

Character.AI在对话式AI领域取得了进展，其Kaiju模型旨在每天处理数百万次交互，同时将安全性和参与度放在首位。根据Character.AI Blog，Kaiju模型是内部大型语言模型（LLMs）家族的一部分，利用先进的架构效率。

架构创新

Kaiju模型采用密集的transformer架构，并结合了多项效率优化。值得注意的是，这些模型使用int8量化以提高处理速度和效率。模型有三种尺寸——小型（130亿参数）、中型（340亿）和大型（1100亿）——设计在性能和资源利用之间保持平衡。

Kaiju模型的一个显著特征是使用多查询注意力（MQA），这减少了每个标记键值缓存的大小，从而提高推理效率。虽然MQA可能对一些人工通用智能（AGI）基准测试造成负面影响，但对于Character.AI的特定用例来说，其效率提升超过了弊端。

模型还采用滑动窗口注意力，以降低计算负担，尤其是在涉及长上下文处理的场景中。这种方法确保了模型在长上下文检索任务中不牺牲质量的情况下保持高效。

Kaiju模型采用量化感知训练（QAT）进行训练，这有助于在显著加快训练过程的同时保持高准确度。此方法允许模型在加速高达30%的同时达到bf16级别的准确度。

安全性是Kaiju模型的关键组成部分。在部署之前，每个模型都会经过严格的多阶段安全性和对齐过程，其中包括基于用户反馈的监督微调和强化学习。此外，这些模型还具有一个可选的分类器头，用于评估输入的安全性，提高对话式AI的稳健性。

随着Character.AI继续进行创新，关注重点仍是提高模型的部署效率、参与度和安全性。团队致力于推进开源大型语言模型（LLMs）的发展，并积极寻求工程师和研究人员加入他们的工作，创造更多动态和以人为中心的AI系统。

Image source: Shutterstock