Microsoft MarkItDown:14.7 万 Star 的文档转 Markdown 利器
2026-06-16 17:00:00
Microsoft MarkItDown 开源项目分析
仓库:github.com/microsoft/markitdown · License: MIT · ⭐ 147k+ · 最新 v0.1.6
项目是什么
MarkItDown 是微软开源的 文档 → Markdown 转换工具,专为 LLM/RAG/Agent 摄入 优化——输出干净 Markdown,保留结构(标题、列表、表格),而非纯文本 dump。
支持格式
PDF · Word · PowerPoint · Excel · 图片(OCR)· 音频(转录)· HTML · CSV · ZIP · EPub 等
为什么火
2026 年 Agent 爆发带来 文档摄入层 刚需——MarkItDown 单周增 15k Star,成为 ingestion pipeline 的 默认第一步。
快速开始
pip install markitdown
markitdown document.pdf > output.md
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("report.docx")
print(result.text_content)
适用场景
- 企业知识库 RAG 预处理
- Agent Tool:读文档 的统一入口
- 与 supermemory、Open Notebook 等组合
黑豹点评
MarkItDown 是 「Agent 基础设施层」 代表作——不 flashy,但每个文档型 Agent 几乎都需要。建议纳入团队 RAG 标准工具链。