这篇是操作教程。跟着步骤走,你会在 15 分钟内理解整个流程,第一次实际运行约需 30 分钟(主要是 OCR 识别图片的时间),之后会越来越快。
💡 首次使用提示:建议先完成「第九步:首次登录配置」,再开始数据处理。
开始之前,先准备好材料
每笔交易需要三份文件:
| 文件类型 | 格式 | 从哪里获取 |
|---|---|---|
| 电子发票 | 税务 App 或发票平台下载 | |
| 购物小票 | 图片(JPG/PNG) | 收银小票拍照,手机直接拍即可 |
| 银联凭证 | 图片(JPG/PNG) | POS 机凭证拍照,或支付宝/微信截图 |
温馨提示:图片拍清楚一些,避免模糊、遮挡关键数字。 发票号、金额、订单号这几行要拍得清晰可读。
第一步:打开网页,上传文件
在浏览器中输入系统地址(本地部署通常是 http://服务器IP:8080),登录后进入主页。
上传发票
点击「发票 PDF」区域,或直接把 PDF 文件拖拽到蓝色虚线框内。 支持一次性选多个文件,30 份发票可以一起上传。
上传小票和凭证
在「小票 & 凭证图片」区域,同样拖拽上传图片。 小票和凭证可以混放在一起,系统会自动识别哪张是小票、哪张是凭证。
上传完成后,文件列表会显示每份文件的名称,确认数量正确。
第二步:运行阶段一(OCR 匹配)
点击「▶ 运行阶段一」按钮。
系统开始工作,右侧日志区域会实时显示进度:
[识别] 处理发票: 001_dzfp_xxx.pdf ...
[识别] 处理小票: 小票1/小票_20260310.jpg ...
[匹配] 正在匹配第 1/30 组 ...
[完成] 已生成 matched_data.json
首次运行需要 2030 分钟(取决于图片数量和清晰度)。 第二次起只需 23 分钟,因为识别结果已经缓存。
运行结束后会显示「✅ 阶段一完成」。
第三步:处理歧义(如果有的话)
大多数情况下,阶段一会自动完成所有匹配,不需要额外操作。
系统如何检测歧义: 当某笔小票同时匹配到多张金额相同的发票,且无订单号精确链式匹配时,系统判定为有歧义。阶段一完成后,如果存在歧义,页面顶部会出现「⚠ 有歧义待校准」的橙色标记。
如何校准: 点击这个标记,进入校准页面:
- 页面列出所有有歧义的小票
- 每张小票旁边显示所有候选发票的信息和凭证图片(含签名区域)
- 仔细对比金额、日期、签名,点选正确的那一张
- 点击「✅ 确认并重跑」,系统自动更新匹配结果并重新运行阶段一点五和二
校准记录会被保存到 manual_matches.json,以后遇到相同的图片组合不会再次询问。
💡 提示:如果对校准结果不确定,可以多次修改。每次确认都会重跑,直到满意为止。
第四步:运行阶段一点五(数据校验)
点击「▶ 运行阶段一点五」按钮。
系统对所有匹配的数据做 10 条规则校验,日志会显示:
[校验] 第 1 组 - 金额一致 ✓
[校验] 第 1 组 - 订单号一致 ✓
[警告] 第 5 组 - 发票金额与小票金额不符,已用小票数据校准
[完成] 校验结束,共 30 组,29 组通过,1 组已校准
自动校准说明:
- 系统检查发票、小票、凭证三者的金额、日期、订单号是否一致
- 遇到不一致时,优先采用最可靠的数据(通常是小票)进行自动校准
- 所有修正都会在日志中记录原因,你可以看到每组数据是否被修改过
这一步通常只需 1 分钟左右。
第五步:编辑台账数据(可选)
在阶段二运行前或运行后,你可以补充或修改某些系统无法自动获取的字段。系统提供两种编辑方式:
方式一:快速编辑(推荐)
点击「✏ 填写手机/地址/备注」进入数据编辑页面。
这里可以填写或修改:
- 地区:购买者所在地区
- 电话:购买者或收货电话
- 地址:收货详细地址
- 送货日期:计划送货日期
- 备注:其他说明信息
编辑完成后点击「保存」,这些数据会被保存到台账。
批量填充:如果多笔交易都是同一个购买者或同一个地址,可以先在「快速批量填充」区域输入统一值,然后一键填充所有空白单元格,无需逐行输入。
💡 技巧:系统会记住该购买者的历史填充数据,下次遇到相同购买者时会自动建议(加快填充速度)。
方式二:详细查看与编辑
点击「📋 查看台账数据」进入台账页面。
这里可以:
- 查看所有 12 个 OCR 字段的完整信息(发票号、商品型号、SN 码等)
- 展开每一行查看该笔交易的原始图片(发票 PDF、小票、凭证)
- 核对识别是否准确
- 点击可编辑字段直接修改(支持点击单元格原地编辑)
这是进阶的详细编辑方式,适合需要逐笔核对的场景。
第六步:运行阶段二(生成文件)
点击「▶ 运行阶段二」按钮。
系统开始生成最终文件,日志显示:
[生成] 处理第 1/30 组 ...
[生成] PDF → JPG 转换完成
[生成] doc_01.docx 已生成
...
[合并] 正在合并 30 份文档 ...
[完成] 佐证材料.docx 已生成
[完成] 台账表格.xlsx 已生成
这一步通常需要 3~5 分钟。
第七步:下载文件,提交申报
生成完成后,页面底部「结果文件下载」区域出现下载按钮:
| 文件 | 用途 | 格式 |
|---|---|---|
| 佐证材料.docx | 每笔交易的图片凭证汇编 | Word |
| 台账表格.xlsx | 汇总台账,含月份分组和汇总 | Excel |
| 佐证材料.pdf | Word 的 PDF 版本,方便存档和邮件 | |
| 台账表格.pdf | Excel 的 PDF 版本 |
下载后按政府要求提交即可。
第八步:历史批次管理与恢复
每完成一个批次的申报后,建议立即备份。
归档当前批次
点击「📦 归档当前批次」(绿色大按钮,在「工作区清理」面板顶部)。
系统会:
- 将当前工作区的所有原始文件和产出文件复制到
archive/批次_日期时间/目录 - 自动重置工作区,准备接收下一批次(OCR 缓存保留,加速后续处理)
- 在首页底部「📂 历史批次」面板中显示该批次
查看与恢复历史批次
首页底部点击「📂 历史批次」展开,可以看到所有以前的批次备份:
- 批次名称:格式为
批次_YYYYMMDD_HHMMSS - 统计信息:该批次包含的原始文件数和产出文件数
- 恢复按钮:点击「恢复」,该批次的所有文件被复制回工作区(覆盖当前)
- 删除按钮:点击「删除」,永久删除该批次备份
- 下载按钮:点击「下载」,该批次被打包为 ZIP 下载到本地
💡 优势:
- 一键备份,永不丢失历史数据
- 重新激活历史批次时,OCR 缓存依然有效,无需重新识别
- 支持跨天期、跨周期独立管理多个批次
第九步:首次登录配置(重要)
初次使用系统时,登录后请先完成以下配置,之后的所有批次都会自动继承这些设置。
配置位置
点击右上角「⚙ 设置」进入个人设置页面。
配置内容
1) 公司印章
- 在「印章图片」区域点击「上传新印章」
- 上传你公司的红章 PNG 图片(建议使用透明底色的 PNG,效果最好)
- 之后生成的所有 Word 和 Excel 文件都会自动嵌入这个印章
2) 公司基本信息(共 6 个字段)
- 公司名称:申报单位的完整名称
- 发票人名称:负责对外发票的联系人
- 发票人电话:该联系人的电话
- 台账管理人名称:负责台账管理的人员(可与发票人相同)
- 台账管理人电话:该人员的电话
- 能效等级:家电的能效等级(固定值,如”一级”、”二级”等,可预先设定)
填写后点击「保存」。
3) 收货地址(可选)
- 所在地区:常用收货地区
- 详细地址:收货的具体地址
- 联系电话:收货时的联系电话
这些字段会在台账生成时自动填充,如果不同批次地址不同,可在编辑台账时逐笔修改。
💡 提示:这些配置只需做一次,之后所有批次都会自动应用,大大节省重复操作时间。
常见操作场景速查
场景 A:新增了几张漏掉的图片
上传新图片 → 运行阶段一 → 运行阶段一点五 → 运行阶段二
场景 B:发现台账里某行数据填错了
直接下载 matched_data.json,修改对应字段,上传保存,然后:
运行阶段一点五 → 运行阶段二
场景 C:只是调整了台账的列顺序或格式
修改服务器上的 templates/ledger_new.xlsx 模板文件后:
只需运行阶段二(约 1 分钟)
场景 D:需要推翻之前的歧义校准重来
在「工作区清理」面板点击「清除歧义校准」,然后:
运行阶段一 → 处理歧义 → 运行阶段一点五 → 运行阶段二
一次完整申报的时间预估
| 阶段 | 首次 | 再次运行 |
|---|---|---|
| 阶段一(OCR + 匹配) | 20~30 分钟 | 2~3 分钟 |
| 歧义校准(如有) | 5~10 分钟 | — |
| 阶段一点五(校验) | 1 分钟 | 1 分钟 |
| 编辑数据(可选) | 5~15 分钟 | 0~10 分钟 |
| 阶段二(生成文件) | 3~5 分钟 | 3~5 分钟 |
| 合计(无歧义) | 约 30~45 分钟 | 约 5~10 分钟 |
| 合计(有歧义+编辑) | 约 40~70 分钟 | 约 5~15 分钟 |
30 笔交易对比:
- 原来:需要 6~8 小时(手工逐笔核对、抄写、贴图)
- 现在:首次约 30
45 分钟(自动识别+匹配+生成),后续只需 510 分钟
第二批开始,因为 OCR 缓存命中率高,速度会更快。
下一步
系统还支持多用户独立操作、管理员代操作、历史数据恢复等高级功能。 下一篇文章将详细介绍常见问题和进阶用法。