优化“病区”的处理
This commit is contained in:
@@ -1,6 +1,6 @@
|
||||
x-env:
|
||||
&template
|
||||
image: fcb_photo_review:1.12.12
|
||||
image: fcb_photo_review:1.12.13
|
||||
restart: always
|
||||
|
||||
services:
|
||||
|
||||
@@ -85,19 +85,16 @@ DEPARTMENT_ALIAS = {
|
||||
# 默认会过滤单字
|
||||
HOSPITAL_FILTER = ["医院", "人民", "第一", "第二", "第三", "大学", "附属"]
|
||||
|
||||
DEPARTMENT_FILTER = ["医", "病", "病区", "伤", "西", "新"]
|
||||
DEPARTMENT_FILTER = ["医", "伤", "西", "新"]
|
||||
|
||||
"""
|
||||
分词配置
|
||||
"""
|
||||
jieba.suggest_freq(("肿瘤", "医院"), True)
|
||||
jieba.suggest_freq(("心血管", "病"), True)
|
||||
jieba.suggest_freq(("骨", "伤"), True)
|
||||
jieba.suggest_freq(("感染", "性"), True)
|
||||
jieba.suggest_freq(("胆", "道"), True)
|
||||
jieba.suggest_freq(("脾", "胃"), True)
|
||||
jieba.suggest_freq(("肺", "病"), True)
|
||||
jieba.add_word("病区", 10000)
|
||||
|
||||
"""
|
||||
模型配置
|
||||
|
||||
@@ -106,6 +106,7 @@ def parse_department(string):
|
||||
string = string.replace(")", "").replace(")", "").replace("(", " ").replace("(", " ") # 去除括号
|
||||
string = re.sub(r'[^⺀-鿿 ]', '', string) # 去除非汉字字符,除了空格
|
||||
string = re.sub(r'[一二三四五六七八九十]', '', string) # 去除中文数字
|
||||
string = string.replace("病区", "").replace("病", "") # 去除常见的无意义词
|
||||
string = string.replace("科", " ") # 分离科室
|
||||
departments = string.strip().split(" ")
|
||||
for department in departments:
|
||||
|
||||
Reference in New Issue
Block a user