夏季指南
首页归档留言关于

# 向量检索

RAG 为什么用 R2 而非爬虫:数据噪音与召回质量

给 RAG 喂数据有两条路——爬自己的网站,或主动维护干净的 Markdown。我选了后者。因为爬虫抓到的 HTML 混杂着导航、评论、侧边栏,这些噪音会污染向量空间,毁掉召回质量。

2026-02-10AI 工程640

RAG 为什么用 R2 而非爬虫:数据噪音与召回质量

分类

后端工程 前端工程 AI 工程 云原生与交付 架构与工程实践 工具与效率

热门标签

AI
Docker
架构
命令行
NestJS
Cloudflare Workers
Node.js
TypeScript
CI-CD
安全
Nuxt
前端
RAG
LLM
性能
Vim
效率
Vue
React
Agent

最新文章

Vibe Coding 工程化进阶(四):用 Hooks 给 Agent 上"自动护栏"

2026-06-13

Vibe Coding 工程化进阶(三):用 MCP 给 AI 接上"外部世界"

2026-06-12

Vibe Coding 工程化进阶(二):用 Rules 把团队规范变成 AI 的"条件反射"

2026-06-11

Vibe Coding 工程化进阶(一):用 CLAUDE.md / AGENTS.md 给 AI 装上"项目记忆"

2026-06-10

为开源准备一个项目:README、LICENSE 与最小可复现

2026-06-05

前端工程师的 Vibe Coding 最佳实践(三):质量保障与工程化

2026-06-04

© 2026 Gavin|GitHub |RSS|Sitemap|豫ICP备2022002177号-1