Echo/fcb_photo_review

Fork 0

Go to file

liuyebo 37d6b6e023 修正flask接口的运行地址

2024-08-29 09:00:39 +08:00

auto_email

优化错误邮件的标题

2024-08-28 14:48:20 +08:00

check_ie_result

调整zx_ocr表名为zx_ie_result，更符合表的实际作用

2024-08-12 14:13:20 +08:00

新增自动识别错误检查功能

2024-08-26 14:42:50 +08:00

doc_dewarp

DocTr去扭曲

2024-08-21 16:03:39 +08:00

log

优化错误日志及重试机制

2024-07-23 09:27:59 +08:00

model

dewarpNet矫正扭曲

2024-08-12 08:38:17 +08:00

paddle_detection

优化文档检测为接口

2024-08-28 17:14:43 +08:00

photo_mask

调整项目结构，模块命名最好不要和包名相同，容易导致导包问题

2024-08-23 15:22:20 +08:00

photo_review

优化文档检测为接口

2024-08-28 17:14:43 +08:00

ucloud

优化ucloud日志

2024-07-26 10:47:51 +08:00

util

从分割后就判断图片是否为空

2024-08-28 15:25:41 +08:00

visual_model_test

优化图片分割和拓展方法，兼容横向过长的图片

2024-08-08 14:15:51 +08:00

.dockerignore

添加dockerignore文件，减少构建镜像时不必要的文件

2024-07-22 09:51:34 +08:00

.gitignore

忽略日志备份

2024-07-23 09:45:02 +08:00

auto_generator.py

Reapply "整理项目结构，优化配置项"

2024-07-15 15:20:52 +08:00

det_api.py

修正flask接口的运行地址

2024-08-29 09:00:39 +08:00

docker-compose-test.yml

修正flask接口的运行地址

2024-08-29 09:00:39 +08:00

docker-compose.yml

添加端口映射

2024-08-28 17:29:27 +08:00

Dockerfile

调整镜像构建，删除多余的torch

2024-08-27 14:44:18 +08:00

photo_mask.py

调整项目结构，模块命名最好不要和包名相同，容易导致导包问题

2024-08-23 15:22:20 +08:00

photo_review.py

调整项目结构，模块命名最好不要和包名相同，容易导致导包问题

2024-08-23 15:22:20 +08:00

README.md

1.13.1

2024-08-27 15:19:10 +08:00

requirements.txt

Revert "添加ninja依赖"

2024-08-27 15:09:34 +08:00

README.md

福村宝照片审核自动化辅助

本项目使用OCR等技术为照片审核提供初步的信息抽取和照片涂抹脱敏功能。

项目部署

从Git远程仓库克隆项目到本地。
将深度学习模型复制到./model目录下，具体请看模型更新部分。
安装docker和docker-compose。

进入项目根目录，使用docker-compose部署启动。

docker-compose build  # 如果没有内容更新，可跳过此步骤
docker-compose up -d

开发说明

使用sqlalchemy作为ORM框架，需要新增实体类时运行项目根目录下的auto_generator.py。
项目运行中奔溃时有发送邮件提醒功能，请在auto_email/__init__.py中的收件人处添加需要通知的邮箱。

模型更新

深度学习模型因文件过大没有上传到git中，请从别处下载后手动复制到对应目录下。

model/
|
├─ cost_list_model  # 费用清单信息抽取模型
├─ discharge_record_model  # 出院记录信息抽取模型
└─ settlement_list_model  # 基本医保结算单信息抽取模型

Paddle模型具体目录文件结构。更新时需要确保以下文件全部更新，其余文件可以删除，首次运行后会自动生成。

my_model/
│
├─ config.json
├─ model_state.pdparams
├─ sentencepiece.bpe.model
├─ special_tokens_map.json
├─ tokenizer_config.json
└─ vocab.txt

版本更新

此处通常只记录功能性版本更新，BUG修复级别的版本更新不作记录。

版本号：0.0.1
1. 添加照片审核自动识别功能
版本号：0.1.0
1. 抽取结果存表
2. 程序异常时发送邮件提醒
3. 程序异常时自动重试
4. 优化参数配置
版本号：0.2.0
1. OCR结果存表
2. 添加OCR布局分析功能
版本号：0.3.0
1. 取消布局分析，因为布局分析有时会导致部分OCR识别结果丢失
2. 优化长图的处理，添加图片分割处理功能
版本号：0.4.0
1. 添加识别结果可视化功能
2. 添加PaddleClas图片方向识别模型，对图片方向进行判断和矫正
版本号：0.5.0
1. 添加识别关键词：住院号、医保结算单号码、年龄
2. 添加多进程并发功能，提高显卡使用率，显著提升整体识别速度
版本号：1.0.0
1. 重大功能更新：添加自动涂抹脱敏功能
版本号：1.1.0
1. 新增通过关键词定位涂抹位置功能
2. 调整分割后图片为A4比例
版本号：1.2.0
1. 优化涂抹的精确度
2. 所有图片扩充为A4比例
版本号：1.3.0
1. 涂抹取消图片方向判断，此工作移交审核人员处理
版本号：1.4.0
1. Docker化部署
版本号：1.5.0
1. 优化网络请求，减少网络导致的阻塞
2. 添加费用总额的解析功能
版本号：1.6.0
1. 微调OCR参数，优化OCR检测能力
2. 调整Docker容器的时区设置
3. 调整Docker容器的主机名设置
版本号：1.7.0
1. 优化代码中的各项重试机制
版本号：1.8.0
1. 照片涂抹添加形近字处理
2. 照片涂抹调整关键词匹配方式为正则匹配
3. 照片涂抹添加姓名模糊匹配
版本号：1.9.0
1. 优化程序奔溃的重试机制，改为使用docker实现
2. 照片涂抹添加关键词匹配的偏移量自定义功能
版本号：1.10.0
1. 照片涂抹重新添加方向识别与矫正，因为照片审核人员暂无法保证所有图片的方向正确
2. 添加照片涂抹错误分析
3. 优化图片分割和拓展，对横竖图片分别进行优化
4. 优化镜像构建，将依赖与内容分开，显著提高构建速度
版本号：1.11.0
1. 修正含旋转的信息抽取结果的绘制
2. 调整zx_ocr表名为zx_ie_result
3. 在自动识别时将图片转正并上传到云端
版本号：1.12.0
1. 优化医院、科室匹配方法，采用模糊匹配
2. 匹配时为医院、科室添加别名
3. 添加医院、科室名的分析处理
4. 新增自动识别错误分析功能
版本号：1.13.0
1. 新增文档检测功能
2. 新增扭曲矫正功能

Languages

Python 84.9%

C++ 11.3%

Shell 2%

Cuda 0.9%

CMake 0.6%

Other 0.2%

README.md Unescape Escape

福村宝照片审核自动化辅助

项目部署

开发说明

模型更新

版本更新

README.md