Microsoft MarkItDown:14.7 万 Star 的文档转 Markdown 利器

2026-06-16 17:00:00

Microsoft MarkItDown 开源项目分析

仓库:github.com/microsoft/markitdown · License: MIT · ⭐ 147k+ · 最新 v0.1.6

项目是什么

MarkItDown 是微软开源的 文档 → Markdown 转换工具,专为 LLM/RAG/Agent 摄入 优化——输出干净 Markdown,保留结构(标题、列表、表格),而非纯文本 dump。

支持格式

PDF · Word · PowerPoint · Excel · 图片(OCR)· 音频(转录)· HTML · CSV · ZIP · EPub 等

为什么火

2026 年 Agent 爆发带来 文档摄入层 刚需——MarkItDown 单周增 15k Star,成为 ingestion pipeline 的 默认第一步

快速开始

pip install markitdown
markitdown document.pdf > output.md
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("report.docx")
print(result.text_content)

适用场景

  • 企业知识库 RAG 预处理
  • Agent Tool:读文档 的统一入口
  • 与 supermemory、Open Notebook 等组合

黑豹点评

MarkItDown 是 「Agent 基础设施层」 代表作——不 flashy,但每个文档型 Agent 几乎都需要。建议纳入团队 RAG 标准工具链。

项目链接https://github.com/microsoft/markitdown