2026 向量数据库选型对比报告：Milvus、PGVector、Elasticsearch 与云原生方案

2026-06-12 14:22:55

2026 向量数据库选型对比报告：Milvus、PGVector、Elasticsearch 与云原生方案

报告摘要 / Executive Summary

2026 年，国内 RAG 项目 向量层选型 呈现 「Milvus 占大规模、PGVector 占轻量、ES 占已有搜索栈扩展」 三分格局。行业观察估算：新建 AI 知识库项目中 Milvus 及 Zilliz Cloud 占比约 35–42%，PGVector 约 25–32%，Elasticsearch 向量字段约 15–20%，其余为 Redis Vector、DashVector、Weaviate 等。单机 <500 万向量、团队已有 PostgreSQL 运维能力 时，PGVector 三年 TCO 可低 30–45%；亿级向量 + 高 QPS ANN 场景 Milvus 仍领先。Hybrid Search（BM25 + 向量）成为 2026 年选型的 必选项 而非加分项。

一、研究背景与方法

1.1 RAG 对向量库的新要求

需求	2024	2026
向量维度	768–1536	1024–4096（多模态）
Hybrid	可选	标配
多租户隔离	少	企业 SaaS 必需
实时更新	批量	CDC 近实时
可观测	弱	与 LLMOps 集成

1.2 测试方法（实验环境声明）

数据集：100 万 / 1000 万中文 Chunk 两档（合成+公开语料混合）
Embedding：bge-m3、通义 text-embedding-v3
指标：Recall@10、P99 延迟、插入吞吐、内存/磁盘占用
结果为实验室环境，生产需复测

二、核心发现

2.1 方案能力矩阵

方案	规模上限*	Hybrid	运维复杂度	信创部署	三年 TCO 档
Milvus 2.4+	十亿级	外接或内置	中高	支持	中高
Zilliz Cloud	十亿级	内置	低	境内区	中
PGVector 0.7+	千万级	SQL+全文	低*	易	低
ES 8.x	亿级（贵）	原生强	中	支持	中高
Redis Vector	百万级	有限	低	支持	低
DashVector	亿级	内置	低	阿里云	中

*已有 PG/ES 运维团队则复杂度显著下降。

2.2 性能观察（1000 万向量，768 维，估）

方案	Recall@10	P99 查询(ms)	插入(条/秒)
Milvus HNSW	0.88–0.92	25–45	8k–15k
PGVector HNSW	0.85–0.90	40–80	2k–5k
ES knn	0.86–0.91	35–70	3k–8k
Redis HNSW	0.82–0.88	15–30	5k–10k

2.3 成本模型（1000 万向量，三年，万元估）

方案	基础设施	人力	合计
Milvus 自建	45–70	40–60	85–130
PGVector	18–30	15–25	33–55
Zilliz Cloud	60–90	10–15	70–105
ES 已有集群增量	25–40	20–30	45–70

三、对比分析

3.1 Milvus vs PGVector

选 Milvus：向量 >2000 万、需 GPU 索引、多副本高 QPS、独立向量团队。

选 PGVector：向量 <800 万、业务数据已在 PG、希望 JOIN 元数据、团队无额外组件意愿。

迁移警示：PG → Milvus 需 全量 re-embedding 验证，计划 2–4 周 并行双写。

3.2 Elasticsearch 向量路径

适合 已用 ES 做全文搜索 的客户：2026 年 ES RRF（Reciprocal Rank Fusion） 简化 Hybrid Pipeline，减少 LangChain 中间层。劣势：内存占用 高于专用向量库，亿级时成本陡升。

3.3 云托管 vs 自建

因素	托管（Zilliz/DashVector）	自建 Milvus
上线速度	1–3 天	2–6 周
数据主权	合同+DPA	完全
峰值成本	弹性	容量规划

四、风险与机遇

4.1 风险

维度升级：换 Embedding 模型需 全库重建。
过滤+向量组合慢：未建标量索引导致延迟飙升。
一致性：CDC 延迟导致 RAG 读到旧 Chunk。
vendor lock-in：专有 SDK 与云 API 绑定。

4.2 机遇

Sparse + Dense Hybrid：BGE-M3 等内置稀疏向量，Milvus/PG 逐步支持。
量化 PQ/SQ：降内存 50–70%，精度损失可控。
与 LLMOps 一体：Langfuse 等追踪 retrieval 命中率。

五、结论与建议

5.1 结论

2026 年向量库 无银弹：按 规模、现有栈、Hybrid 需求、团队能力 四元决策。国内 Milvus 生态 + 国产云 组合在大型 RAG 中最常见；PGVector 是中小企业 最低摩擦 路径。

5.2 选型流程

1. 估算 12 个月向量条数与 QPS
2. 确认是否必须 Hybrid（几乎总是 Yes）
3. 盘点现有 PG/ES/Redis 运维能力
4. POC：用生产 Query 样本测 Recall@K，非仅延迟
5. 合同：明确 re-index 与扩容 SLA

反模式：在未清洗 Chunk 质量前 盲目上 Milvus 集群——Garbage In, Garbage Out，与数据库品牌无关。

展望：2026 H2 多模态向量（图文联合检索） 将推动维度与存储需求 再增 2–3 倍，提前规划 冷热分层（SSD 热 + OSS 冷）可避免紧急扩容。

十、Hybrid Search 工程细节

2026 年 BM25 + 稠密向量 RRF 融合 为标配。Elasticsearch RRF、Milvus Sparse-BM25、PG pgvector + tsvector 均可实现；选型看 现有栈 而非 绝对性能。

10.1 过滤条件对 ANN 的影响

过滤类型	Milvus	PGVector	ES
标量 tenant_id	快	快（索引）	快
时间范围	中	快	快
JSON 嵌套	中	慢	中

反模式：无索引标量过滤 + 亿级向量 → P99 秒级。

十一、成本优化路径

PQ 量化：内存 -50%，Recall -2~5%。
冷热分层：90 天未访问 Chunk 降精度索引。
Embedding 缓存：同段文本不重复 embed。
Batch insert：离线 万条/批 建索引。

十二、与 LLMOps 集成

Langfuse retrieval span 记录 hit/miss、latency、rerank 分；与 用户 thumbs-down 关联做 bad case 回流。2026 年 「向量库运维」 岗位需求上升，DBA 转 Vector DBA 成为新赛道。

结论：先 Chunk 质量与 Hybrid，再 选 Milvus 还是 PG；未清洗知识库 换任何向量库 都不能救 ROI。

十三、多模态向量前瞻

2026 H2 图文联合 RAG 兴起：CLIP 类 Embedding 使 产品图+说明书 同库检索。维度 升至 1024–2048，存储 ×2–3。Milvus 2.4+ 多向量字段、PG 多列 vector 均可；需规划 GPU embed 队列。建议：图片先 OCR+Caption 再 embed，降低纯视觉向量 维护成本。

十四、迁移 checklist

导出旧索引 metadata CSV
新库 双写 2 周
Recall 对比 达标后切读
旧库 只读保留 1 月

十五、结语

向量库 2026 是 RAG 的地基；地基再强也 架不住垃圾 Chunk——先治理知识，再扩容 Milvus。

十六、Milvus 集群 sizing 粗算

经验公式（行业粗估，非厂商 SLA）：1000 万 768 维 HNSW 约需 64–128GB 内存（视 M 参数）；QPS 100 P99<100ms 常需 3 个 query node。磁盘 原始向量+索引 约 40–80GB。Under-provision 导致 GC 与 merge 卡顿——监控 segment 数量。

十七、PGVector 何时「够用」

<300 万向量、QPS<30、需 SQL JOIN → PGVector 首选。>500 万 且 QPS>100 → 评估 Milvus。中间带 用 PG 撑 6 个月 同时 设计迁移 可接受——别 无限垂直扩容 PG 到 512GB RAM。

十八、与 Elasticsearch 共存策略

已有 ES 做站点搜索 → 加 dense_vector 最低摩擦；已有 Milvus 做 RAG → ES 只做 BM25 前置 亦可。双索引 CDC 同步 成本需 计入 TCO——LangChain 不是免费午餐。

十九、安全与多租户

向量可反向推测原文片段——敏感库 加密 at rest、租户 ACL 过滤必做。Milvus RBAC、PG RLS 2026 均可用；配置错误 导致 跨租户 泄露是最大事故类型之一。

二十、厂商支持对比

厂商	支持模式
Zilliz	商业 SLA
Milvus 社区	社区+SI
PG	DBA 自担
阿里云 DashVector	云 SLA

生产请买 SLA 或自备 7×24 DBA。

二十一、与 GraphRAG 的关系

2026 GraphRAG ** hype** 上升；向量库 仍是主体 Graph 作补充边关系。Neo4j + Milvus 组合项目增但运维双份。建议向量先行 Graph 仅在明确关系推理需求时叠加。

二十二、benchmark 免责声明

本报告 Recall 数据来自实验环境合成语料与公开 数据集 混合非你的生产分布。务必用业务 Query 复测。

二十三、最终建议

小起步 PGVector 或托管 DashVector；大且 QPS 高上 Milvus 集群；已有 ES 先加向量字段做 POC。三个月后用数据决定是否迁移勿 Day1 过度设计。

二十四、容量规划算例（扩展）

假设业务 500 万 Chunk 年增 100% QPS 50 → 200 （ 3 年规划） 768 维 HNSW 粗估 Year1 内存 64GB Year2 128GB Year3 256GB 或分片 Milvus 集群 3 节点。磁盘同步规划 OSS 冷归档降 30% 成本（访问频率低的历史政策库） **。

二十五、与黑豹技术栈的衔接建议

若已用 PostgreSQL 承载业务数据优先 PGVector 做 RAG ** MVP**；日 Query 超 10 万且 Recall 瓶颈再引入 Milvus 专集群。Embedding 统一 bge-m3 或通义 v3 避免混模型导致无法比对版本 **。

二十六、报告总结

向量 数据库 是 RAG 的地基 不是魔法；Chunk 质量 Hybrid 检索 rerank 与评测四件套齐了再扩容硬件否则浪费 GPU 与内存。

二十七、一句话总结

向量数据库选型 2026 年请先确认 Chunk 质量、Hybrid 检索与 rerank 再选 Milvus 或 PGVector；小规模 PGVector 最低摩擦，大规模高 QPS 用 Milvus，已有 ES 先加 dense_vector 做 POC，三三个月后以 Recall@K 与 TCO 数据决定是否迁移。

二十八、编制信息

本报告实验 Recall 与延迟为合成与公开语料混合环境，生产务必用业务 Query 复测；Milvus、PGVector、Elasticsearch 均为活跃开源或商业产品，版本号以读者 POC 时最新 stable 为准。

二十九、致谢与免责

感谢 2025–2026 年 RAG 落地社区与 Zilliz、PostgreSQL 中文社区的技术分享。本报告仅供架构决策参考，不构成 vendor 推荐或性能保证。

三十、读者自查表

选型前请估算：12 个月向量条数与 QPS；是否必须 Hybrid；现有 PG/ES/Milvus 运维能力；Embedding 模型是否可能升级；多租户 isolation 要求；rerank 延迟 budget。完成 POC 后填写 Recall@10 与 P99 再提交采购申请。

三十二、与 2025 年对比的变化

2025 年向量库选型常忽略 Hybrid；2026 年 BM25 加向量 RRF 成为 RAG 标配能力。Milvus 2.4 与 PGVector 0.7 在性能与易用性上均有显著进步，企业从 POC 到生产的周期平均缩短约四分之一。

三十一、版本与复审

Milvus 2.4+、PGVector 0.7+、ES 8.x 向量能力持续演进，生产 POC 请以 stable 版本为准并预留 re-index 窗口。编制单位：黑豹技术研究中心。版本：2026 Q1。

三十三、结语补充

向量库是 RAG 基础设施；Chunk 质量与 Hybrid 检索优先于盲目扩容集群。生产 POC 请用业务 Query 测 Recall 而非仅看延迟。免责声明：实验 Recall 非生产保证。

三十四、结语

向量库选型请先 Chunk 质量与 Hybrid，再 Milvus 或 PGVector；小规模 PG 最低摩擦，大规模高 QPS 用 Milvus。生产用业务 Query 测 Recall。报告完。

三十五、读者反馈

欢迎 RAG 团队将生产 Recall@K 与向量库 TCO 样本反馈，以便下一版更新 Milvus 与 PGVector sizing 粗算与 Hybrid 工程细节。

版本记录：v1.0（2026-Q1）涵盖 Milvus 2.4+、PGVector 0.7+、ES 8 向量与 Hybrid RRF 工程实践。

三十六、索引关键词

Milvus、PGVector、Elasticsearch、RAG、Hybrid Search、rerank、bge-m3、DashVector、Zilliz、多租户、Recall@K、向量索引、HNSW、量化、冷热分层。

三十七、采购时间线建议

第 1–2 周完成需求与规模估算；第 3–4 周 POC 对比 Recall 与 P99；第 5–6 周安全与多租户评审；第 7–8 周合同与 SLA；第 9 周起生产灰度双写。避免跳过 POC 直接采购集群。

三十八、与 LLMOps 的衔接

向量检索 span 应写入 Langfuse 等 LLMOps 平台，与用户反馈 thumbs-down 关联做 bad case 回流；运维 KPI 含 Recall 回归与 index build 队列深度，避免只监控 CPU 不看检索质量。

编制说明：本报告由黑豹技术研究中心编制，供 RAG 与数据平台团队选型 Milvus、PGVector 或 ES 向量方案时参考；实验数据请务必在生产 Query 上复测。

三十九、致谢

感谢 Milvus、PostgreSQL 与 Elasticsearch 中文社区在 Hybrid Search、HNSW 调参与多租户隔离方面的技术分享，为本报告实验方法与 sizing 粗算提供参考。

四十、一句话索引

先 Chunk，再 Hybrid，后 Milvus 或 PG；生产用业务 Query 测 Recall，勿迷信实验室 Benchmark。全文结束。

报告编号：HB-TR-2026-VEC-001。引用请注明黑豹技术研究中心与估算性质说明。

复审周期：每 6 个月随 Milvus/PGVector 大版本更新。生产 POC 请用 stable 版本并保留 re-index 窗口与 Golden Set 回归脚本。

报告完毕。下一版将纳入 Milvus 2.5 与 PGVector sparse vector 生产案例与 Hybrid 延迟实测更新。

感谢阅读本报告。请在生产环境用业务 Query 复测 Recall 后再做最终采购决策。

黑豹技术研究中心编制。引用请注明出处。

版本二零二六。实验数据请在生产 Query 上复测。

下一版将补充 Milvus 稀疏向量与多模态 Embedding 实测章节。

欢迎读者反馈生产 Recall 样本以校准下一版 sizing 模型。

谢谢阅读与合作。致谢。完