跳转到内容

概览

Docmod 是一个面向 AI Agent 的 Word 文档模型。它把 .docx 转成可读写的标准 HTML,让 Agent 只输出改动片段,再由 Docmod 把变化写回原始 docx。

Docmod patch flow

直接让 AI 处理 .docx 会遇到两个问题:

  • .docx 是 OpenXML zip 包,不是 Agent 适合直接编辑的文本格式。
  • 全量重建 docx 容易丢失 Word 原生对象,例如 SmartArt、图表、页眉页脚、批注、修订和嵌入对象。

Docmod 的核心选择是增量更新。Agent 不重写全文,只给出 changed elements。Docmod 用 data-id 找到原始 document.xml 里的 body child,只替换命中的 XML 片段,其他 part 不动。

.docmod 是一个 zip 包:

document.docmod
├── document.html
├── images/
├── source.docx
└── meta.json

document.html 是 Agent 的工作面。source.docx 是 patch 基底。images/ 用 SHA 命名并去重。meta.json 保存统计、模板引用和其他摘要信息。

Terminal window
docmod create work.docmod --from report.docx
docmod read work.docmod --outline
docmod edit work.docmod changes.html
docmod export work.docmod --to report.updated.docx

也可以直接对 .docx 执行写命令。Docmod 会在 ~/.docmod/cache/ 维护透明 .docmod 缓存,让同一路径后续编辑仍然具备增量 patch 能力。

Docmod HTML 使用普通标签表达结构:

<h1 data-id="6EAA1C8E" data-pstyle="Title">季度报告</h1>
<p data-id="A1B2C3D4" data-pstyle="Body">收入同比增长 32%。</p>
<div data-id="8F00AA21" data-opaque="chart"></div>

其中:

  • data-id 是不透明锚点,按字符串精确匹配。
  • data-pstyledata-rstyledata-tblstyle 映射 Word 样式。
  • data-opaque 表示只读区域,patch 时原样保留。
  • 根据用户要求修改 Word 文档的一部分。
  • 对现有文档做审阅、批注、修订接受/拒绝。
  • .doct 模板生成或排版文档。
  • 在不破坏复杂 Word 对象的前提下让 Agent 参与编辑循环。

下一步看 Agent 编辑流程