4 Star 2 Fork 0

Clone NO.X/AutomaticDispatch

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
utils.py 1.54 KB
一键复制 编辑 原始数据 按行查看 历史
Clone NO.X 提交于 2023-09-04 14:25 . 新增onnx模型的导出和封装
import re
import jieba
# jieba.lcut('测试')
# 整理输入的文本,只保留中文和数字部分
def fixText(text):
text = re.sub(r'[^\u4e00-\u9fa50-9a-zA-z]+', '', text)
# text = ' '.join(jieba.lcut(text))
return text
# 重设办理部门2级,减少类别数量
# 当前做法,2级标签保留街道信息,去除街道后面的实体
import re
def resetLabelLv2(label):
if(re.search(r'.+街(道)*', label)):
label = re.search(r'.+街(道)*', label).group() # 去除街道后面的内容
if "街道" not in label:
label = label.replace("街", "街道") # 统一为“街道”
if(re.search(r'.+[区]', label)):
label = re.sub(re.search(r'.+[区]', label).group(), '', label) # 去除市、区
return label
# 重设办理部门3级,减少类别数量
# 当前做法,3级标签去除街道信息,保留街道后面的实体,去除"()"中的描述内容
def resetLabelLv3(label):
if(re.search(r'[\u4e00-\u9fa50-9]+街(道)*', label)):
label = re.search(r'街(道)*.*', label).group() # 保留街(道)后面的内容
if "街道" not in label:
label = label.replace("街", "街道") # 统一为“街道”
label = re.sub(r'[(|(][\u4e00-\u9fa50-9]*[)|)]', '', label) # 去括号及括号里内容
return label
# 根据换行符切分句子
# 输入:一段文本
# 输出:切分后的
def split_text(text):
splited_text = re.split(r'\n+|\r+|\r\n|<br>', text)
while '' in splited_text:
splited_text.remove('')
return splited_text
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/Clone-NO-X/automatic-dispatch.git
git@gitee.com:Clone-NO-X/automatic-dispatch.git
Clone-NO-X
automatic-dispatch
AutomaticDispatch
paddle

搜索帮助