智能匹配、自动校验、一键生成——系统七大核心功能详解

上一篇我们聊了手工申报有多痛苦。这篇来说说,这套系统具体是怎么工作的。

功能一:OCR 智能识别,信息自动提取

系统使用 OCR(光学字符识别)技术,自动读取:

  • 电子发票 PDF:发票号、金额、购买人姓名、商品名称、规格型号、SN 码、开票日期
  • 购物小票图片:交易时间、实收金额、外部订单号、商品信息
  • 银联凭证图片:银商订单号、第三方支付金额、流水号

识别结果会被缓存,同一张图片下次遇到无需重新识别,速度极快。 即便删除了生成的 Word/Excel 文件,下次重跑依然能在秒级内完成。

💡 实际体验:30 张图片首次识别约 2030 分钟,再次运行只需 23 分钟。

功能二:四级优先级智能匹配

这是系统最核心的能力——精准判断哪张发票对应哪张小票

系统采用四级匹配策略,按优先级依次尝试:

第一级:手动指定(最高优先级)

如果你之前手动确认过某笔配对,系统优先使用你的判断,不会覆盖。

第二级:订单号链式匹配

小票上有”外部订单号”,凭证上有”银商订单号”,发票备注里也有对应记录。 系统自动串联这条链,一旦订单号匹配上,金额相同也不会搞混

第三级:多维度综合评分

当订单号无法匹配时,系统综合计算以下因素的得分:

  • 金额是否一致(1分钱容错)
  • 交易日期差距
  • 商品型号是否吻合
  • SN 码(序列号)是否一致(命中加 80 分,权重最高)

如果第一名与第二名分差超过阈值,系统认为匹配唯一,自动确认。

第四级:歧义校准

如果还是有多个候选无法区分,系统不会乱猜,而是:

  • 自动生成一份可视化「校准报告」(HTML 文件,离线可用)
  • 在网页界面中展示所有候选凭证的图片(含签名区域)
  • 你只需点选正确的那张,系统记住你的选择,下次重跑不再询问

功能三:10 条规则自动校验

匹配完成后,系统会对每笔记录做严格的数据校验,发现任何问题立即提示:

规则检查内容
金额一致性发票金额 = 小票实收金额(1分钱容错)
订单号一致性小票支付单号 = 凭证银商订单号
日期合理性发票开票日期与小票交易日期差 ≤ 30 天
补贴金额核对国补前金额 – 实付金额 = 政府补贴金额
共 10 条,覆盖主要数据逻辑

校验以小票数据为最高权威——小票是现场刷卡产生的,最可靠。 如果发票某字段与小票冲突,系统会自动用小票数据校准,并记录日志。

功能四:标准化文档一键生成

校验通过后,一条命令(或一个按钮)生成两份标准文档:

佐证材料.docx

  • 每笔交易一个 3 行表格:序号行、发票图片行、凭证+小票+印章行
  • 所有图片自动嵌入,不需要手动粘贴
  • 按小票时间升序排列,逻辑清晰
  • 自动替换公司印章(各用户可上传自己的印章)

台账表格.xlsx

  • 严格按政府模板格式填写
  • 自动填充:购买人、金额、商品信息、交易时间、区县、地址等
  • 按月份自动分组,生成月份小计和总计行
  • 表头公司名称、负责人信息自动填入(在「个人设置」中配置一次即可)

功能五:网页操作界面,无需命令行

对于不熟悉命令行的店员,系统提供了完整的网页界面:

  • 文件上传:拖拽 PDF 和图片到浏览器,自动上传
  • 一键触发:点击按钮依次运行三个处理阶段
  • 实时日志:处理进度实时显示,看得见、心里踏实
  • 歧义校准:直接在网页上对比候选图片,点选确认
  • 文件下载:处理完成后直接下载 DOCX / XLSX / PDF

支持多人同时使用,每个用户有独立的文件空间,互不干扰。

功能六:灵活的重跑机制 + 工作区清理

申报材料有时需要多次调整,系统设计了清晰的重跑逻辑:

场景需要重跑的步骤耗时
新增/替换了图片阶段一 → 一点五 → 二约 30 分钟(首次)
只修改了数据字段阶段一点五 → 二约 2 分钟
只改了模板格式阶段二约 1 分钟
推翻之前的歧义校准重来阶段一 → 一点五 → 二约 30 分钟(首次)

网页界面提供工作区清理面板,7 个选项一键清除各类中间文件,让你灵活管理工作区:

选项清理内容保留内容适用场景
📦 归档当前批次原始文件 + 产出文件 → 历史批次OCR缓存完整批次处理完毕,准备新批次
🗂️ 清理产出文件.docx / .xlsx / PDF 等产出matched_data.json仅重跑阶段二
🔄 重置匹配结果matched_data.jsonmanual_matches.json重跑阶段一(校准保留)
🧹 清除歧义校准manual_matches.json所有数据推翻校准从头再来
⚠️ 重置工作区以上三项全清OCR缓存全流程重跑
📤 清空原始文件input/ 中所有文件匹配数据/校准/产出释放存储空间
🗃️ 清除OCR缓存ocr_cache.json 等缓存所有其他强制重新OCR识别

每个操作都有确认弹窗,不会误操作。

功能七:历史批次管理与恢复

每次申报完毕后,系统可将该批次的所有文件(原始文件 + 产出文件)完整备份到历史批次库。

操作说明
📦 归档当前批次点击此按钮,当前工作区的全部文件被复制到 archive/批次_日期时间/
📂 历史批次列表首页底部可查看所有历史批次,显示备份时间和文件数
恢复批次点击「恢复」,该批次的所有文件被复制回工作区(覆盖当前)
删除批次点击「删除」,永久删除该批次的备份
下载批次点击「下载」,该批次被打包为 ZIP 下载到本地

优势

  • 一键备份,不会丢失历史数据
  • 多批次独立管理,互不影响
  • 重新激活历史批次只需一键恢复,无需重新OCR
  • 支持跨天期、跨周期管理

小结

功能解决的问题
OCR 识别 + 缓存免去手工录入,信息自动提取且可复用
四级智能匹配精准配对,消除歧义,不怕同金额多笔
10 条校验规则数据一致性自动核查,减少驳回率
一键文档生成标准化输出,格式合规,省去排版时间
网页操作界面无需命令行,人人会用
灵活重跑机制 + 工作区清理局部调整只重跑必要步骤,7 个清理选项精确控制
历史批次管理多批次独立备份,一键恢复,永不丢失

下一篇,我们提供完整的操作手册,带你从零到产出走一遍完整流程。

作者: cavalier

能源行业从业者,业余爱好象棋、C++还有二胡、乒乓也很喜欢

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注