BM25 AI快讯列表

predict.info — Premium Domain For Sale Domain only: USD 200,000. Prediction platform technology priced separately. predict.info

Inquire

AI 快讯列表

AI 快讯列表关于 BM25

时间	详情
2026-06-21 11:29	BM25胜向量检索：混合RAG利器据@_avichawla称，BM25擅长精确匹配，与向量结合成混合RAG更稳健。原文链接
2026-04-05 15:00	杜克研究：编码代理凭借grep与sed在长文档处理上超越百万上下文模型，五项基准平均提升17.3% 根据X平台用户God of Prompt援引杜克大学研究者的披露，直接使用grep与sed等终端工具的现成编码代理，在188K到3万亿标记的五项长上下文基准上平均领先最新模型17.3%，且无需任务特定训练或结构改造。该贴文指出，将语料按目录层级组织并交给代理，促成自主多跳检索、实体抽取与Python分类器编写，在BrowseComp-Plus与Natural Questions等数据集上刷新或匹配SOTA；反而叠加BM25或向量检索会抑制代理的原生文件系统探索，造成表现下滑。此外，层级文件结构比单一JSON存储高出约6个百分点。对企业而言，据该贴文分析，可通过将海量文档以“代码库式”文件夹交给以Codex或Claude Code为基础的编码代理，减少RAG复杂度与长上下文成本，构建可审计、可扩展的长文档问答与分析流程。原文链接

时间

详情

2026-06-21
11:29

BM25胜向量检索：混合RAG利器

据@_avichawla称，BM25擅长精确匹配，与向量结合成混合RAG更稳健。

原文链接

2026-04-05
15:00

杜克研究：编码代理凭借grep与sed在长文档处理上超越百万上下文模型，五项基准平均提升17.3%

根据X平台用户God of Prompt援引杜克大学研究者的披露，直接使用grep与sed等终端工具的现成编码代理，在188K到3万亿标记的五项长上下文基准上平均领先最新模型17.3%，且无需任务特定训练或结构改造。该贴文指出，将语料按目录层级组织并交给代理，促成自主多跳检索、实体抽取与Python分类器编写，在BrowseComp-Plus与Natural Questions等数据集上刷新或匹配SOTA；反而叠加BM25或向量检索会抑制代理的原生文件系统探索，造成表现下滑。此外，层级文件结构比单一JSON存储高出约6个百分点。对企业而言，据该贴文分析，可通过将海量文档以“代码库式”文件夹交给以Codex或Claude Code为基础的编码代理，减少RAG复杂度与长上下文成本，构建可审计、可扩展的长文档问答与分析流程。

原文链接