AI 快讯列表关于 视频输入压缩
| 时间 | 详情 |
|---|---|
|
2025-06-21 15:00 |
STORM文本视频模型通过Mamba层实现1/8输入尺寸下的AI新突破
根据Twitter用户@ak92501的消息,研究人员推出了STORM文本视频模型,将视频输入尺寸缩减至传统的八分之一,同时仍保持业界领先的性能。STORM模型在SigLIP视觉编码器和Qwen2-VL语言模型之间引入了Mamba层,有效整合视频帧间的时序信息。这一创新显著提升了模型效率和准确率,为视频内容处理和AI视频分析领域的企业带来更高效、低成本的人工智能解决方案,拓展了行业应用空间(来源:@ak92501,Twitter)。 |