智能匹配、自动校验、一键生成——系统七大核心功能详解

上一篇我们聊了手工申报有多痛苦。这篇来说说，这套系统具体是怎么工作的。（点击进入材料自动化系统)

功能一：OCR 智能识别，信息自动提取

系统使用 OCR（光学字符识别）技术，自动读取：

电子发票 PDF：发票号、金额、购买人姓名、商品名称、规格型号、SN 码、开票日期
购物小票图片：交易时间、实收金额、外部订单号、商品信息
银联凭证图片：银商订单号、第三方支付金额、流水号

识别结果会被缓存，同一张图片下次遇到无需重新识别，速度极快。即便删除了生成的 Word/Excel 文件，下次重跑依然能在秒级内完成。

💡 实际体验：30 张图片首次识别约 20~~30 分钟，再次运行只需 2~~3 分钟。

功能二：四级优先级智能匹配

这是系统最核心的能力——精准判断哪张发票对应哪张小票。

系统采用四级匹配策略，按优先级依次尝试：

第一级：手动指定（最高优先级）

如果你之前手动确认过某笔配对，系统优先使用你的判断，不会覆盖。

第二级：订单号链式匹配

小票上有”外部订单号”，凭证上有”银商订单号”，发票备注里也有对应记录。系统自动串联这条链，一旦订单号匹配上，金额相同也不会搞混。

第三级：多维度综合评分

当订单号无法匹配时，系统综合计算以下因素的得分：

金额是否一致（1分钱容错）
交易日期差距
商品型号是否吻合
SN 码（序列号）是否一致（命中加 80 分，权重最高）

如果第一名与第二名分差超过阈值，系统认为匹配唯一，自动确认。

第四级：歧义校准

如果还是有多个候选无法区分，系统不会乱猜，而是：

自动生成一份可视化「校准报告」（HTML 文件，离线可用）
在网页界面中展示所有候选凭证的图片（含签名区域）
你只需点选正确的那张，系统记住你的选择，下次重跑不再询问

功能三：10 条规则自动校验

匹配完成后，系统会对每笔记录做严格的数据校验，发现任何问题立即提示：

规则	检查内容
金额一致性	发票金额 = 小票实收金额（1分钱容错）
订单号一致性	小票支付单号 = 凭证银商订单号
日期合理性	发票开票日期与小票交易日期差 ≤ 30 天
补贴金额核对	国补前金额 – 实付金额 = 政府补贴金额
…	共 10 条，覆盖主要数据逻辑

校验以小票数据为最高权威——小票是现场刷卡产生的，最可靠。如果发票某字段与小票冲突，系统会自动用小票数据校准，并记录日志。

功能四：标准化文档一键生成

校验通过后，一条命令（或一个按钮）生成两份标准文档：

佐证材料.docx

每笔交易一个 3 行表格：序号行、发票图片行、凭证+小票+印章行
所有图片自动嵌入，不需要手动粘贴
按小票时间升序排列，逻辑清晰
自动替换公司印章（各用户可上传自己的印章）

台账表格.xlsx

严格按政府模板格式填写
自动填充：购买人、金额、商品信息、交易时间、区县、地址等
按月份自动分组，生成月份小计和总计行
表头公司名称、负责人信息自动填入（在「个人设置」中配置一次即可）

功能五：网页操作界面，无需命令行

对于不熟悉命令行的店员，系统提供了完整的网页界面：

文件上传：拖拽 PDF 和图片到浏览器，自动上传
一键触发：点击按钮依次运行三个处理阶段
实时日志：处理进度实时显示，看得见、心里踏实
歧义校准：直接在网页上对比候选图片，点选确认
文件下载：处理完成后直接下载 DOCX / XLSX / PDF

支持多人同时使用，每个用户有独立的文件空间，互不干扰。

功能六：灵活的重跑机制 + 工作区清理

申报材料有时需要多次调整，系统设计了清晰的重跑逻辑：

场景	需要重跑的步骤	耗时
新增/替换了图片	阶段一 → 一点五 → 二	约 30 分钟（首次）
只修改了数据字段	阶段一点五 → 二	约 2 分钟
只改了模板格式	阶段二	约 1 分钟
推翻之前的歧义校准重来	阶段一 → 一点五 → 二	约 30 分钟（首次）

网页界面提供工作区清理面板，7 个选项一键清除各类中间文件，让你灵活管理工作区：

选项	清理内容	保留内容	适用场景
📦 归档当前批次	原始文件 + 产出文件 → 历史批次	OCR缓存	完整批次处理完毕，准备新批次
🗂️ 清理产出文件	.docx / .xlsx / PDF 等产出	matched_data.json	仅重跑阶段二
🔄 重置匹配结果	matched_data.json	manual_matches.json	重跑阶段一（校准保留）
🧹 清除歧义校准	manual_matches.json	所有数据	推翻校准从头再来
⚠️ 重置工作区	以上三项全清	OCR缓存	全流程重跑
📤 清空原始文件	input/ 中所有文件	匹配数据/校准/产出	释放存储空间
🗃️ 清除OCR缓存	ocr_cache.json 等缓存	所有其他	强制重新OCR识别

每个操作都有确认弹窗，不会误操作。

功能七：历史批次管理与恢复

每次申报完毕后，系统可将该批次的所有文件（原始文件 + 产出文件）完整备份到历史批次库。

操作	说明
📦 归档当前批次	点击此按钮，当前工作区的全部文件被复制到 `archive/批次_日期时间/`
📂 历史批次列表	首页底部可查看所有历史批次，显示备份时间和文件数
恢复批次	点击「恢复」，该批次的所有文件被复制回工作区（覆盖当前）
删除批次	点击「删除」，永久删除该批次的备份
下载批次	点击「下载」，该批次被打包为 ZIP 下载到本地

优势：

一键备份，不会丢失历史数据
多批次独立管理，互不影响
重新激活历史批次只需一键恢复，无需重新OCR
支持跨天期、跨周期管理

小结

功能	解决的问题
OCR 识别 + 缓存	免去手工录入，信息自动提取且可复用
四级智能匹配	精准配对，消除歧义，不怕同金额多笔
10 条校验规则	数据一致性自动核查，减少驳回率
一键文档生成	标准化输出，格式合规，省去排版时间
网页操作界面	无需命令行，人人会用
灵活重跑机制 + 工作区清理	局部调整只重跑必要步骤，7 个清理选项精确控制
历史批次管理	多批次独立备份，一键恢复，永不丢失

下一篇，我们提供完整的操作手册，带你从零到产出走一遍完整流程。

作者： cavalier

能源行业从业者，业余爱好象棋、C++还有二胡、乒乓也很喜欢查看cavalier的所有文章

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30