据 1M AI News 监测,Cursor 发布技术博客,介绍其为 AI Agent 构建的本地正则搜索索引 Instant Grep。Agent 编码时高度依赖 ripgrep 搜索代码,但在大型单体仓库中单次搜索常耗时超过 15 秒,严重拖慢交互节奏。
Instant Grep 采用稀疏 n-gram(Sparse N-grams)索引方案。传统方案提取所有连续 3 字符片段作为索引键,稀疏方案则基于字符对的频率权重,确定性地提取长度不等的 n-gram。权重函数来自对数 TB 开源代码的字符对频率统计,罕见组合获得更高权重,查询时只需查找极少量 n-gram 即可精准定位候选文件,再对候选集做全文匹配。
索引完全在用户本地构建和查询,不经过服务器。索引基于 Git 提交状态生成,用户和 Agent 的实时修改作为增量层叠加其上,确保 Agent 能立即搜到自己刚写的代码。存储分为两个文件:倒排列表文件和排序查找表,后者通过 mmap 映射到编辑器进程内存,查询时做二分搜索后按偏移量直接读磁盘,内存占用极低。
Cursor 展示了在 Chromium 等大型代码库上的对比:开启 Instant Grep 后,Agent 调查 Bug 和重构任务的搜索等待时间几乎归零,整体耗时显著缩短。该功能配合 Cursor 新模型 Composer 2 使用。
安全稳定的交易平台 | 新用户注册享专属福利
⚠️ 风险提示:数字货币交易存在风险,请理性投资,谨慎决策