优化“病区”的处理
This commit is contained in:
@@ -1,6 +1,6 @@
|
|||||||
x-env:
|
x-env:
|
||||||
&template
|
&template
|
||||||
image: fcb_photo_review:1.12.12
|
image: fcb_photo_review:1.12.13
|
||||||
restart: always
|
restart: always
|
||||||
|
|
||||||
services:
|
services:
|
||||||
|
|||||||
@@ -85,19 +85,16 @@ DEPARTMENT_ALIAS = {
|
|||||||
# 默认会过滤单字
|
# 默认会过滤单字
|
||||||
HOSPITAL_FILTER = ["医院", "人民", "第一", "第二", "第三", "大学", "附属"]
|
HOSPITAL_FILTER = ["医院", "人民", "第一", "第二", "第三", "大学", "附属"]
|
||||||
|
|
||||||
DEPARTMENT_FILTER = ["医", "病", "病区", "伤", "西", "新"]
|
DEPARTMENT_FILTER = ["医", "伤", "西", "新"]
|
||||||
|
|
||||||
"""
|
"""
|
||||||
分词配置
|
分词配置
|
||||||
"""
|
"""
|
||||||
jieba.suggest_freq(("肿瘤", "医院"), True)
|
jieba.suggest_freq(("肿瘤", "医院"), True)
|
||||||
jieba.suggest_freq(("心血管", "病"), True)
|
|
||||||
jieba.suggest_freq(("骨", "伤"), True)
|
jieba.suggest_freq(("骨", "伤"), True)
|
||||||
jieba.suggest_freq(("感染", "性"), True)
|
jieba.suggest_freq(("感染", "性"), True)
|
||||||
jieba.suggest_freq(("胆", "道"), True)
|
jieba.suggest_freq(("胆", "道"), True)
|
||||||
jieba.suggest_freq(("脾", "胃"), True)
|
jieba.suggest_freq(("脾", "胃"), True)
|
||||||
jieba.suggest_freq(("肺", "病"), True)
|
|
||||||
jieba.add_word("病区", 10000)
|
|
||||||
|
|
||||||
"""
|
"""
|
||||||
模型配置
|
模型配置
|
||||||
|
|||||||
@@ -106,6 +106,7 @@ def parse_department(string):
|
|||||||
string = string.replace(")", "").replace(")", "").replace("(", " ").replace("(", " ") # 去除括号
|
string = string.replace(")", "").replace(")", "").replace("(", " ").replace("(", " ") # 去除括号
|
||||||
string = re.sub(r'[^⺀-鿿 ]', '', string) # 去除非汉字字符,除了空格
|
string = re.sub(r'[^⺀-鿿 ]', '', string) # 去除非汉字字符,除了空格
|
||||||
string = re.sub(r'[一二三四五六七八九十]', '', string) # 去除中文数字
|
string = re.sub(r'[一二三四五六七八九十]', '', string) # 去除中文数字
|
||||||
|
string = string.replace("病区", "").replace("病", "") # 去除常见的无意义词
|
||||||
string = string.replace("科", " ") # 分离科室
|
string = string.replace("科", " ") # 分离科室
|
||||||
departments = string.strip().split(" ")
|
departments = string.strip().split(" ")
|
||||||
for department in departments:
|
for department in departments:
|
||||||
|
|||||||
Reference in New Issue
Block a user