概览
Docmod 是一个面向 AI Agent 的 Word 文档模型。它把 .docx 转成可读写的标准 HTML,让 Agent 只输出改动片段,再由 Docmod 把变化写回原始 docx。
为什么需要 Docmod
Section titled “为什么需要 Docmod”直接让 AI 处理 .docx 会遇到两个问题:
.docx是 OpenXML zip 包,不是 Agent 适合直接编辑的文本格式。- 全量重建 docx 容易丢失 Word 原生对象,例如 SmartArt、图表、页眉页脚、批注、修订和嵌入对象。
Docmod 的核心选择是增量更新。Agent 不重写全文,只给出 changed elements。Docmod 用 data-id 找到原始 document.xml 里的 body child,只替换命中的 XML 片段,其他 part 不动。
.docmod 包
Section titled “.docmod 包”.docmod 是一个 zip 包:
document.docmod├── document.html├── images/├── source.docx└── meta.jsondocument.html 是 Agent 的工作面。source.docx 是 patch 基底。images/ 用 SHA 命名并去重。meta.json 保存统计、模板引用和其他摘要信息。
docmod create work.docmod --from report.docxdocmod read work.docmod --outlinedocmod edit work.docmod changes.htmldocmod export work.docmod --to report.updated.docx也可以直接对 .docx 执行写命令。Docmod 会在 ~/.docmod/cache/ 维护透明 .docmod 缓存,让同一路径后续编辑仍然具备增量 patch 能力。
Agent 看到什么
Section titled “Agent 看到什么”Docmod HTML 使用普通标签表达结构:
<h1 data-id="6EAA1C8E" data-pstyle="Title">季度报告</h1><p data-id="A1B2C3D4" data-pstyle="Body">收入同比增长 32%。</p><div data-id="8F00AA21" data-opaque="chart"></div>其中:
data-id是不透明锚点,按字符串精确匹配。data-pstyle、data-rstyle、data-tblstyle映射 Word 样式。data-opaque表示只读区域,patch 时原样保留。
- 根据用户要求修改 Word 文档的一部分。
- 对现有文档做审阅、批注、修订接受/拒绝。
- 按
.doct模板生成或排版文档。 - 在不破坏复杂 Word 对象的前提下让 Agent 参与编辑循环。
下一步看 Agent 编辑流程。