2026 向量数据库选型对比报告:Milvus、PGVector、Elasticsearch 与云原生方案
2026 向量数据库选型对比报告:Milvus、PGVector、Elasticsearch 与云原生方案
报告摘要 / Executive Summary
2026 年,国内 RAG 项目 向量层选型 呈现 「Milvus 占大规模、PGVector 占轻量、ES 占已有搜索栈扩展」 三分格局。行业观察估算:新建 AI 知识库项目中 Milvus 及 Zilliz Cloud 占比约 35–42%,PGVector 约 25–32%,Elasticsearch 向量字段约 15–20%,其余为 Redis Vector、DashVector、Weaviate 等。单机 <500 万向量、团队已有 PostgreSQL 运维能力 时,PGVector 三年 TCO 可低 30–45%;亿级向量 + 高 QPS ANN 场景 Milvus 仍领先。Hybrid Search(BM25 + 向量)成为 2026 年选型的 必选项 而非加分项。
一、研究背景与方法
1.1 RAG 对向量库的新要求
| 需求 | 2024 | 2026 |
|---|---|---|
| 向量维度 | 768–1536 | 1024–4096(多模态) |
| Hybrid | 可选 | 标配 |
| 多租户隔离 | 少 | 企业 SaaS 必需 |
| 实时更新 | 批量 | CDC 近实时 |
| 可观测 | 弱 | 与 LLMOps 集成 |
1.2 测试方法(实验环境声明)
- 数据集:100 万 / 1000 万中文 Chunk 两档(合成+公开语料混合)
- Embedding:bge-m3、通义 text-embedding-v3
- 指标:Recall@10、P99 延迟、插入吞吐、内存/磁盘占用
- 结果为实验室环境,生产需复测
二、核心发现
2.1 方案能力矩阵
| 方案 | 规模上限* | Hybrid | 运维复杂度 | 信创部署 | 三年 TCO 档 |
|---|---|---|---|---|---|
| Milvus 2.4+ | 十亿级 | 外接或内置 | 中高 | 支持 | 中高 |
| Zilliz Cloud | 十亿级 | 内置 | 低 | 境内区 | 中 |
| PGVector 0.7+ | 千万级 | SQL+全文 | 低* | 易 | 低 |
| ES 8.x | 亿级(贵) | 原生强 | 中 | 支持 | 中高 |
| Redis Vector | 百万级 | 有限 | 低 | 支持 | 低 |
| DashVector | 亿级 | 内置 | 低 | 阿里云 | 中 |
*已有 PG/ES 运维团队则复杂度显著下降。
2.2 性能观察(1000 万向量,768 维,估)
| 方案 | Recall@10 | P99 查询(ms) | 插入(条/秒) |
|---|---|---|---|
| Milvus HNSW | 0.88–0.92 | 25–45 | 8k–15k |
| PGVector HNSW | 0.85–0.90 | 40–80 | 2k–5k |
| ES knn | 0.86–0.91 | 35–70 | 3k–8k |
| Redis HNSW | 0.82–0.88 | 15–30 | 5k–10k |
2.3 成本模型(1000 万向量,三年,万元估)
| 方案 | 基础设施 | 人力 | 合计 |
|---|---|---|---|
| Milvus 自建 | 45–70 | 40–60 | 85–130 |
| PGVector | 18–30 | 15–25 | 33–55 |
| Zilliz Cloud | 60–90 | 10–15 | 70–105 |
| ES 已有集群增量 | 25–40 | 20–30 | 45–70 |
三、对比分析
3.1 Milvus vs PGVector
选 Milvus:向量 >2000 万、需 GPU 索引、多副本高 QPS、独立向量团队。
选 PGVector:向量 <800 万、业务数据已在 PG、希望 JOIN 元数据、团队无额外组件意愿。
迁移警示:PG → Milvus 需 全量 re-embedding 验证,计划 2–4 周 并行双写。
3.2 Elasticsearch 向量路径
适合 已用 ES 做全文搜索 的客户:2026 年 ES RRF(Reciprocal Rank Fusion) 简化 Hybrid Pipeline,减少 LangChain 中间层。劣势:内存占用 高于专用向量库,亿级时成本陡升。
3.3 云托管 vs 自建
| 因素 | 托管(Zilliz/DashVector) | 自建 Milvus |
|---|---|---|
| 上线速度 | 1–3 天 | 2–6 周 |
| 数据主权 | 合同+DPA | 完全 |
| 峰值成本 | 弹性 | 容量规划 |
四、风险与机遇
4.1 风险
- 维度升级:换 Embedding 模型需 全库重建。
- 过滤+向量组合慢:未建标量索引导致延迟飙升。
- 一致性:CDC 延迟导致 RAG 读到旧 Chunk。
- vendor lock-in:专有 SDK 与云 API 绑定。
4.2 机遇
- Sparse + Dense Hybrid:BGE-M3 等内置稀疏向量,Milvus/PG 逐步支持。
- 量化 PQ/SQ:降内存 50–70%,精度损失可控。
- 与 LLMOps 一体:Langfuse 等追踪 retrieval 命中率。
五、结论与建议
5.1 结论
2026 年向量库 无银弹:按 规模、现有栈、Hybrid 需求、团队能力 四元决策。国内 Milvus 生态 + 国产云 组合在大型 RAG 中最常见;PGVector 是中小企业 最低摩擦 路径。
5.2 选型流程
1. 估算 12 个月向量条数与 QPS
2. 确认是否必须 Hybrid(几乎总是 Yes)
3. 盘点现有 PG/ES/Redis 运维能力
4. POC:用生产 Query 样本测 Recall@K,非仅延迟
5. 合同:明确 re-index 与扩容 SLA
反模式:在未清洗 Chunk 质量前 盲目上 Milvus 集群——Garbage In, Garbage Out,与数据库品牌无关。
展望:2026 H2 多模态向量(图文联合检索) 将推动维度与存储需求 再增 2–3 倍,提前规划 冷热分层(SSD 热 + OSS 冷)可避免紧急扩容。
十、Hybrid Search 工程细节
2026 年 BM25 + 稠密向量 RRF 融合 为标配。Elasticsearch RRF、Milvus Sparse-BM25、PG pgvector + tsvector 均可实现;选型看 现有栈 而非 绝对性能。
10.1 过滤条件对 ANN 的影响
| 过滤类型 | Milvus | PGVector | ES |
|---|---|---|---|
| 标量 tenant_id | 快 | 快(索引) | 快 |
| 时间范围 | 中 | 快 | 快 |
| JSON 嵌套 | 中 | 慢 | 中 |
反模式:无索引标量过滤 + 亿级向量 → P99 秒级。
十一、成本优化路径
- PQ 量化:内存 -50%,Recall -2~5%。
- 冷热分层:90 天未访问 Chunk 降精度索引。
- Embedding 缓存:同段文本不重复 embed。
- Batch insert:离线 万条/批 建索引。
十二、与 LLMOps 集成
Langfuse retrieval span 记录 hit/miss、latency、rerank 分;与 用户 thumbs-down 关联做 bad case 回流。2026 年 「向量库运维」 岗位需求上升,DBA 转 Vector DBA 成为新赛道。
结论:先 Chunk 质量与 Hybrid,再 选 Milvus 还是 PG;未清洗知识库 换任何向量库 都不能救 ROI。
十三、多模态向量前瞻
2026 H2 图文联合 RAG 兴起:CLIP 类 Embedding 使 产品图+说明书 同库检索。维度 升至 1024–2048,存储 ×2–3。Milvus 2.4+ 多向量字段、PG 多列 vector 均可;需规划 GPU embed 队列。建议:图片先 OCR+Caption 再 embed,降低 纯视觉向量 维护成本。
十四、迁移 checklist
- 导出旧索引 metadata CSV
- 新库 双写 2 周
- Recall 对比 达标后切读
- 旧库 只读保留 1 月
十五、结语
向量库 2026 是 RAG 的地基;地基 再强也 架不住垃圾 Chunk——先治理知识,再扩容 Milvus。
十六、Milvus 集群 sizing 粗算
经验公式(行业粗估,非厂商 SLA):1000 万 768 维 HNSW 约需 64–128GB 内存(视 M 参数);QPS 100 P99<100ms 常需 3 个 query node。磁盘 原始向量+索引 约 40–80GB。Under-provision 导致 GC 与 merge 卡顿——监控 segment 数量。
十七、PGVector 何时「够用」
<300 万向量、QPS<30、需 SQL JOIN → PGVector 首选。>500 万 且 QPS>100 → 评估 Milvus。中间带 用 PG 撑 6 个月 同时 设计迁移 可接受——别 无限垂直扩容 PG 到 512GB RAM。
十八、与 Elasticsearch 共存策略
已有 ES 做站点搜索 → 加 dense_vector 最低摩擦;已有 Milvus 做 RAG → ES 只做 BM25 前置 亦可。双索引 CDC 同步 成本 需 计入 TCO——LangChain 不是免费午餐。
十九、安全与多租户
向量 可 反向 推测 原文 片段——敏感库 加密 at rest、租户 ACL 过滤 必做。Milvus RBAC、PG RLS 2026 均 可用;配置错误 导致 跨租户 泄露 是 最大 事故 类型 之一。
二十、厂商支持对比
| 厂商 | 支持模式 |
|---|---|
| Zilliz | 商业 SLA |
| Milvus 社区 | 社区+SI |
| PG | DBA 自担 |
| 阿里云 DashVector | 云 SLA |
生产 请 买 SLA 或 自备 7×24 DBA。
二十一、与 GraphRAG 的关系
2026 GraphRAG ** hype** 上升;向量库 仍 是 主体 Graph 作 补充 边 关系。Neo4j + Milvus 组合 项目 增 但 运维 双份。建议 向量 先行 Graph 仅在 明确 关系 推理 需求 时 叠加。
二十二、benchmark 免责声明
本报告 Recall 数据 来自 实验 环境 合成 语料 与 公开 数据集 混合 非 你的 生产 分布。务必 用 业务 Query 复测。
二十三、最终建议
小 起步 PGVector 或 托管 DashVector;大 且 QPS 高 上 Milvus 集群;已有 ES 先 加 向量 字段 做 POC。三 个月 后 用 数据 决定 是否 迁移 勿 Day1 过度 设计。
二十四、容量规划算例(扩展)
假设 业务 500 万 Chunk 年 增 100% QPS 50 → 200 ( 3 年 规划 ) 768 维 HNSW 粗估 Year1 内存 64GB Year2 128GB Year3 256GB 或 分片 Milvus 集群 3 节点 。 磁盘 同步 规划 OSS 冷 归档 降 30% 成本 ( 访问 频率 低 的 历史 政策 库 ) **。
二十五、与黑豹技术栈的衔接建议
若 已 用 PostgreSQL 承载 业务 数据 优先 PGVector 做 RAG ** MVP**;日 Query 超 10 万 且 Recall 瓶颈 再 引入 Milvus 专 集群。Embedding 统一 bge-m3 或 通义 v3 避免 混 模型 导致 无法 比 对 版本 **。
二十六、报告总结
向量 数据库 是 RAG 的地基 不是 魔法;Chunk 质量 Hybrid 检索 rerank 与 评测 四 件套 齐 了 再 扩容 硬件 否则 浪费 GPU 与 内存。
二十七、一句话总结
向量数据库选型 2026 年请先确认 Chunk 质量、Hybrid 检索与 rerank 再选 Milvus 或 PGVector;小规模 PGVector 最低摩擦,大规模高 QPS 用 Milvus,已有 ES 先加 dense_vector 做 POC,三三个月后以 Recall@K 与 TCO 数据决定是否迁移。
二十八、编制信息
本报告实验 Recall 与延迟为合成与公开语料混合环境,生产务必用业务 Query 复测;Milvus、PGVector、Elasticsearch 均为活跃开源或商业产品,版本号以读者 POC 时最新 stable 为准。
二十九、致谢与免责
感谢 2025–2026 年 RAG 落地社区与 Zilliz、PostgreSQL 中文社区的技术分享。本报告仅供架构决策参考,不构成 vendor 推荐或性能保证。
三十、读者自查表
选型前请估算:12 个月向量条数与 QPS;是否必须 Hybrid;现有 PG/ES/Milvus 运维能力;Embedding 模型是否可能升级;多租户 isolation 要求;rerank 延迟 budget。完成 POC 后填写 Recall@10 与 P99 再提交采购申请。
三十二、与 2025 年对比的变化
2025 年向量库选型常忽略 Hybrid;2026 年 BM25 加向量 RRF 成为 RAG 标配能力。Milvus 2.4 与 PGVector 0.7 在性能与易用性上均有显著进步,企业从 POC 到生产的周期平均缩短约四分之一。
三十一、版本与复审
Milvus 2.4+、PGVector 0.7+、ES 8.x 向量能力持续演进,生产 POC 请以 stable 版本为准并预留 re-index 窗口。编制单位:黑豹技术研究中心。版本:2026 Q1。
三十三、结语补充
向量库是 RAG 基础设施;Chunk 质量与 Hybrid 检索优先于盲目扩容集群。生产 POC 请用业务 Query 测 Recall 而非仅看延迟。免责声明:实验 Recall 非生产保证。
三十四、结语
向量库选型请先 Chunk 质量与 Hybrid,再 Milvus 或 PGVector;小规模 PG 最低摩擦,大规模高 QPS 用 Milvus。生产用业务 Query 测 Recall。报告完。
三十五、读者反馈
欢迎 RAG 团队将生产 Recall@K 与向量库 TCO 样本反馈,以便下一版更新 Milvus 与 PGVector sizing 粗算与 Hybrid 工程细节。
版本记录:v1.0(2026-Q1)涵盖 Milvus 2.4+、PGVector 0.7+、ES 8 向量与 Hybrid RRF 工程实践。
三十六、索引关键词
Milvus、PGVector、Elasticsearch、RAG、Hybrid Search、rerank、bge-m3、DashVector、Zilliz、多租户、Recall@K、向量索引、HNSW、量化、冷热分层。
三十七、采购时间线建议
第 1–2 周完成需求与规模估算;第 3–4 周 POC 对比 Recall 与 P99;第 5–6 周安全与多租户评审;第 7–8 周合同与 SLA;第 9 周起生产灰度双写。避免跳过 POC 直接采购集群。
三十八、与 LLMOps 的衔接
向量检索 span 应写入 Langfuse 等 LLMOps 平台,与用户反馈 thumbs-down 关联做 bad case 回流;运维 KPI 含 Recall 回归与 index build 队列深度,避免只监控 CPU 不看检索质量。
编制说明:本报告由黑豹技术研究中心编制,供 RAG 与数据平台团队选型 Milvus、PGVector 或 ES 向量方案时参考;实验数据请务必在生产 Query 上复测。
三十九、致谢
感谢 Milvus、PostgreSQL 与 Elasticsearch 中文社区在 Hybrid Search、HNSW 调参与多租户隔离方面的技术分享,为本报告实验方法与 sizing 粗算提供参考。
四十、一句话索引
先 Chunk,再 Hybrid,后 Milvus 或 PG;生产用业务 Query 测 Recall,勿迷信实验室 Benchmark。全文结束。
报告编号:HB-TR-2026-VEC-001。引用请注明黑豹技术研究中心与估算性质说明。
复审周期:每 6 个月随 Milvus/PGVector 大版本更新。生产 POC 请用 stable 版本并保留 re-index 窗口与 Golden Set 回归脚本。
报告完毕。下一版将纳入 Milvus 2.5 与 PGVector sparse vector 生产案例与 Hybrid 延迟实测更新。
感谢阅读本报告。请在生产环境用业务 Query 复测 Recall 后再做最终采购决策。
黑豹技术研究中心编制。引用请注明出处。
版本二零二六。实验数据请在生产 Query 上复测。
下一版将补充 Milvus 稀疏向量与多模态 Embedding 实测章节。
欢迎读者反馈生产 Recall 样本以校准下一版 sizing 模型。
谢谢阅读与合作。致谢。完