上一篇我们聊了手工申报有多痛苦。这篇来说说,这套系统具体是怎么工作的。
功能一:OCR 智能识别,信息自动提取
系统使用 OCR(光学字符识别)技术,自动读取:
- 电子发票 PDF:发票号、金额、购买人姓名、商品名称、规格型号、SN 码、开票日期
- 购物小票图片:交易时间、实收金额、外部订单号、商品信息
- 银联凭证图片:银商订单号、第三方支付金额、流水号
识别结果会被缓存,同一张图片下次遇到无需重新识别,速度极快。 即便删除了生成的 Word/Excel 文件,下次重跑依然能在秒级内完成。
💡 实际体验:30 张图片首次识别约 20
30 分钟,再次运行只需 23 分钟。
功能二:四级优先级智能匹配
这是系统最核心的能力——精准判断哪张发票对应哪张小票。
系统采用四级匹配策略,按优先级依次尝试:
第一级:手动指定(最高优先级)
如果你之前手动确认过某笔配对,系统优先使用你的判断,不会覆盖。
第二级:订单号链式匹配
小票上有”外部订单号”,凭证上有”银商订单号”,发票备注里也有对应记录。 系统自动串联这条链,一旦订单号匹配上,金额相同也不会搞混。
第三级:多维度综合评分
当订单号无法匹配时,系统综合计算以下因素的得分:
- 金额是否一致(1分钱容错)
- 交易日期差距
- 商品型号是否吻合
- SN 码(序列号)是否一致(命中加 80 分,权重最高)
如果第一名与第二名分差超过阈值,系统认为匹配唯一,自动确认。
第四级:歧义校准
如果还是有多个候选无法区分,系统不会乱猜,而是:
- 自动生成一份可视化「校准报告」(HTML 文件,离线可用)
- 在网页界面中展示所有候选凭证的图片(含签名区域)
- 你只需点选正确的那张,系统记住你的选择,下次重跑不再询问
功能三:10 条规则自动校验
匹配完成后,系统会对每笔记录做严格的数据校验,发现任何问题立即提示:
| 规则 | 检查内容 |
|---|---|
| 金额一致性 | 发票金额 = 小票实收金额(1分钱容错) |
| 订单号一致性 | 小票支付单号 = 凭证银商订单号 |
| 日期合理性 | 发票开票日期与小票交易日期差 ≤ 30 天 |
| 补贴金额核对 | 国补前金额 – 实付金额 = 政府补贴金额 |
| … | 共 10 条,覆盖主要数据逻辑 |
校验以小票数据为最高权威——小票是现场刷卡产生的,最可靠。 如果发票某字段与小票冲突,系统会自动用小票数据校准,并记录日志。
功能四:标准化文档一键生成
校验通过后,一条命令(或一个按钮)生成两份标准文档:
佐证材料.docx
- 每笔交易一个 3 行表格:序号行、发票图片行、凭证+小票+印章行
- 所有图片自动嵌入,不需要手动粘贴
- 按小票时间升序排列,逻辑清晰
- 自动替换公司印章(各用户可上传自己的印章)
台账表格.xlsx
- 严格按政府模板格式填写
- 自动填充:购买人、金额、商品信息、交易时间、区县、地址等
- 按月份自动分组,生成月份小计和总计行
- 表头公司名称、负责人信息自动填入(在「个人设置」中配置一次即可)
功能五:网页操作界面,无需命令行
对于不熟悉命令行的店员,系统提供了完整的网页界面:
- 文件上传:拖拽 PDF 和图片到浏览器,自动上传
- 一键触发:点击按钮依次运行三个处理阶段
- 实时日志:处理进度实时显示,看得见、心里踏实
- 歧义校准:直接在网页上对比候选图片,点选确认
- 文件下载:处理完成后直接下载 DOCX / XLSX / PDF
支持多人同时使用,每个用户有独立的文件空间,互不干扰。
功能六:灵活的重跑机制 + 工作区清理
申报材料有时需要多次调整,系统设计了清晰的重跑逻辑:
| 场景 | 需要重跑的步骤 | 耗时 |
|---|---|---|
| 新增/替换了图片 | 阶段一 → 一点五 → 二 | 约 30 分钟(首次) |
| 只修改了数据字段 | 阶段一点五 → 二 | 约 2 分钟 |
| 只改了模板格式 | 阶段二 | 约 1 分钟 |
| 推翻之前的歧义校准重来 | 阶段一 → 一点五 → 二 | 约 30 分钟(首次) |
网页界面提供工作区清理面板,7 个选项一键清除各类中间文件,让你灵活管理工作区:
| 选项 | 清理内容 | 保留内容 | 适用场景 |
|---|---|---|---|
| 📦 归档当前批次 | 原始文件 + 产出文件 → 历史批次 | OCR缓存 | 完整批次处理完毕,准备新批次 |
| 🗂️ 清理产出文件 | .docx / .xlsx / PDF 等产出 | matched_data.json | 仅重跑阶段二 |
| 🔄 重置匹配结果 | matched_data.json | manual_matches.json | 重跑阶段一(校准保留) |
| 🧹 清除歧义校准 | manual_matches.json | 所有数据 | 推翻校准从头再来 |
| ⚠️ 重置工作区 | 以上三项全清 | OCR缓存 | 全流程重跑 |
| 📤 清空原始文件 | input/ 中所有文件 | 匹配数据/校准/产出 | 释放存储空间 |
| 🗃️ 清除OCR缓存 | ocr_cache.json 等缓存 | 所有其他 | 强制重新OCR识别 |
每个操作都有确认弹窗,不会误操作。
功能七:历史批次管理与恢复
每次申报完毕后,系统可将该批次的所有文件(原始文件 + 产出文件)完整备份到历史批次库。
| 操作 | 说明 |
|---|---|
| 📦 归档当前批次 | 点击此按钮,当前工作区的全部文件被复制到 archive/批次_日期时间/ |
| 📂 历史批次列表 | 首页底部可查看所有历史批次,显示备份时间和文件数 |
| 恢复批次 | 点击「恢复」,该批次的所有文件被复制回工作区(覆盖当前) |
| 删除批次 | 点击「删除」,永久删除该批次的备份 |
| 下载批次 | 点击「下载」,该批次被打包为 ZIP 下载到本地 |
优势:
- 一键备份,不会丢失历史数据
- 多批次独立管理,互不影响
- 重新激活历史批次只需一键恢复,无需重新OCR
- 支持跨天期、跨周期管理
小结
| 功能 | 解决的问题 |
|---|---|
| OCR 识别 + 缓存 | 免去手工录入,信息自动提取且可复用 |
| 四级智能匹配 | 精准配对,消除歧义,不怕同金额多笔 |
| 10 条校验规则 | 数据一致性自动核查,减少驳回率 |
| 一键文档生成 | 标准化输出,格式合规,省去排版时间 |
| 网页操作界面 | 无需命令行,人人会用 |
| 灵活重跑机制 + 工作区清理 | 局部调整只重跑必要步骤,7 个清理选项精确控制 |
| 历史批次管理 | 多批次独立备份,一键恢复,永不丢失 |
下一篇,我们提供完整的操作手册,带你从零到产出走一遍完整流程。