NVIDIA发布具有多代理架构的人工智能日志分析系统
realtime news Oct 10, 2025 17:38
NVIDIA推出了一种使用多代理架构和RAG技术的自纠正人工智能日志分析系统,提升了QA和DevOps团队的调试和根本原因检测能力。

据NVIDIA称,NVIDIA正式宣布推出一个新的人智能日志分析系统,采用多代理、自纠正的检索增强生成 (RAG) 框架。这种创新解决方案旨在通过将大量日志数据转化为可操作的见解来简化复杂IT环境中的故障诊断和解决过程。
解决日志分析的挑战
日志是现代系统监控中不可或缺的一部分,但其庞大的数量使其分析变得艰难。当系统规模扩大时,日志可能会变得难以招架,常常呈现为无尽的文本墙。NVIDIA的新系统利用人工智能自动化日志解析、相关性评分和查询自我修正,帮助团队迅速识别诸如超时或错误配置等问题的根本原因。
系统的目标用户
日志分析代理对于多个团队尤其有益:
- QA和测试自动化团队:这些团队可以使用该系统进行日志汇总和根本原因检测,帮助定位测试逻辑或意外行为中的问题。
- 工程和DevOps团队:通过统一异构日志源,该系统促进了更快的根本原因发现,减少了排查问题所花费的时间。
- CloudOps和ITOps团队:人工智能驱动的分析支持跨服务日志提取和早期异常检测,对于管理复杂的云环境至关重要。
- 平台和可观测性管理者:系统提供了清晰、可操作的总结,而不是原始数据,帮助优先解决问题并提升产品体验。
创新的架构和组件
NVIDIA系统的核心是一个使用大型语言模型 (LLM) 的多代理RAG架构。工作流程集成了:
- 混合检索:结合BM25进行词汇匹配和FAISS向量存储以NVIDIA NeMo检索器的嵌入进行语义相似性。
- 重排序:使用NeMo检索器来优先选择最相关的日志行。
- 评分:对日志片段进行上下文相关性评分。
- 生成:生成具有上下文感知的答案,而不是原始数据转储。
- 自我修正循环:如果初始结果不够,系统将重写查询并重试。
多代理智能
系统架构设计为一个有向图,其中每个节点代表处理检索、重排序、评分和生成等任务的专门代理。图中的条件边缘确保了适应性和动态决策能力,使系统在必要时能够循环回到自我修正。
扩展系统的能力
NVIDIA日志分析系统的模块化设计允许定制和扩展。用户可以微调LLM,将系统适应特定行业如网络安全,或在QA、DevOps和可观测性等领域中应用。该系统还具备错误重现自动化潜力和开发可观测性仪表板的能力。
对IT运营的影响
通过将非结构化日志转化为可操作的见解,NVIDIA的日志分析系统显著减少了解决问题的平均时间 (MTTR),提高了开发者的生产力,使调试更为高效。该技术不仅支持更快的问题诊断,还提供了更智能的根本原因检测和上下文相关的答案。
Image source: Shutterstock