AI 快讯列表关于 BM25
| 时间 | 详情 |
|---|---|
|
2026-06-21 11:29 |
BM25胜向量检索:混合RAG利器
据@_avichawla称,BM25擅长精确匹配,与向量结合成混合RAG更稳健。 |
|
2026-04-05 15:00 |
杜克研究:编码代理凭借grep与sed在长文档处理上超越百万上下文模型,五项基准平均提升17.3%
根据X平台用户God of Prompt援引杜克大学研究者的披露,直接使用grep与sed等终端工具的现成编码代理,在188K到3万亿标记的五项长上下文基准上平均领先最新模型17.3%,且无需任务特定训练或结构改造。该贴文指出,将语料按目录层级组织并交给代理,促成自主多跳检索、实体抽取与Python分类器编写,在BrowseComp-Plus与Natural Questions等数据集上刷新或匹配SOTA;反而叠加BM25或向量检索会抑制代理的原生文件系统探索,造成表现下滑。此外,层级文件结构比单一JSON存储高出约6个百分点。对企业而言,据该贴文分析,可通过将海量文档以“代码库式”文件夹交给以Codex或Claude Code为基础的编码代理,减少RAG复杂度与长上下文成本,构建可审计、可扩展的长文档问答与分析流程。 |