82fa6cd0a3fddb73e4c83c7f1400c3de252cd35b
福村宝照片审核自动化辅助
本项目使用OCR等技术为照片审核提供初步的信息抽取和照片涂抹脱敏功能。
项目部署
-
从Git远程仓库克隆项目到本地。
-
将深度学习模型复制到./model目录下,具体请看模型更新部分。
-
安装docker和docker-compose。
-
进入项目根目录,使用docker-compose部署启动。
docker-compose build # 如果没有内容更新,可跳过此步骤 docker-compose up -d
开发说明
- 使用sqlalchemy作为ORM框架,需要新增实体类时运行项目根目录下的auto_generator.py。
- 项目运行中奔溃时有发送邮件提醒功能,请在auto_email/__init__.py中的收件人处添加需要通知的邮箱。
模型更新
-
深度学习模型因文件过大没有上传到git中,请从别处下载后手动复制到对应目录下。
model/ | ├─ cost_list_model # 费用清单信息抽取模型 ├─ discharge_record_model # 出院记录信息抽取模型 └─ settlement_list_model # 基本医保结算单信息抽取模型 -
Paddle模型具体目录文件结构。更新时需要确保以下文件全部更新,其余文件可以删除,首次运行后会自动生成。
my_model/ │ ├─ config.json ├─ model_state.pdparams ├─ sentencepiece.bpe.model ├─ special_tokens_map.json ├─ tokenizer_config.json └─ vocab.txt
版本更新
此处通常只记录功能性版本更新,BUG修复级别的版本更新不作记录。
- 版本号:0.0.1
- 添加照片审核自动识别功能
- 版本号:0.1.0
- 抽取结果存表
- 程序异常时发送邮件提醒
- 程序异常时自动重试
- 优化参数配置
- 版本号:0.2.0
- OCR结果存表
- 添加OCR布局分析功能
- 版本号:0.3.0
- 取消布局分析,因为布局分析有时会导致部分OCR识别结果丢失
- 优化长图的处理,添加图片分割处理功能
- 版本号:0.4.0
- 添加识别结果可视化功能
- 添加PaddleClas图片方向识别模型,对图片方向进行判断和矫正
- 版本号:0.5.0
- 添加识别关键词:住院号、医保结算单号码、年龄
- 添加多进程并发功能,提高显卡使用率,显著提升整体识别速度
- 版本号:1.0.0
- 重大功能更新:添加自动涂抹脱敏功能
- 版本号:1.1.0
- 新增通过关键词定位涂抹位置功能
- 调整分割后图片为A4比例
- 版本号:1.2.0
- 优化涂抹的精确度
- 所有图片扩充为A4比例
- 版本号:1.3.0
- 涂抹取消图片方向判断,此工作移交审核人员处理
- 版本号:1.4.0
- Docker化部署
- 版本号:1.5.0
- 优化网络请求,减少网络导致的阻塞
- 添加费用总额的解析功能
- 版本号:1.6.0
- 微调OCR参数,优化OCR检测能力
- 调整Docker容器的时区设置
- 调整Docker容器的主机名设置
- 版本号:1.7.0
- 优化代码中的各项重试机制
- 版本号:1.8.0
- 照片涂抹添加形近字处理
- 照片涂抹调整关键词匹配方式为正则匹配
- 照片涂抹添加姓名模糊匹配
- 版本号:1.9.0
- 优化程序奔溃的重试机制,改为使用docker实现
- 照片涂抹添加关键词匹配的偏移量自定义功能
- 版本号:1.10.0
- 照片涂抹重新添加方向识别与矫正,因为照片审核人员暂无法保证所有图片的方向正确
- 添加照片涂抹错误分析
- 优化图片分割和拓展,对横竖图片分别进行优化
- 优化镜像构建,将依赖与内容分开,显著提高构建速度
Description
Languages
Python
84.9%
C++
11.3%
Shell
2%
Cuda
0.9%
CMake
0.6%
Other
0.2%