代码拉取完成,页面将自动刷新
import re
import jieba
# jieba.lcut('测试')
# 整理输入的文本,只保留中文和数字部分
def fixText(text):
text = re.sub(r'[^\u4e00-\u9fa50-9a-zA-z]+', '', text)
# text = ' '.join(jieba.lcut(text))
return text
# 重设办理部门2级,减少类别数量
# 当前做法,2级标签保留街道信息,去除街道后面的实体
import re
def resetLabelLv2(label):
if(re.search(r'.+街(道)*', label)):
label = re.search(r'.+街(道)*', label).group() # 去除街道后面的内容
if "街道" not in label:
label = label.replace("街", "街道") # 统一为“街道”
if(re.search(r'.+[区]', label)):
label = re.sub(re.search(r'.+[区]', label).group(), '', label) # 去除市、区
return label
# 重设办理部门3级,减少类别数量
# 当前做法,3级标签去除街道信息,保留街道后面的实体,去除"()"中的描述内容
def resetLabelLv3(label):
if(re.search(r'[\u4e00-\u9fa50-9]+街(道)*', label)):
label = re.search(r'街(道)*.*', label).group() # 保留街(道)后面的内容
if "街道" not in label:
label = label.replace("街", "街道") # 统一为“街道”
label = re.sub(r'[(|(][\u4e00-\u9fa50-9]*[)|)]', '', label) # 去括号及括号里内容
return label
# 根据换行符切分句子
# 输入:一段文本
# 输出:切分后的
def split_text(text):
splited_text = re.split(r'\n+|\r+|\r\n|<br>', text)
while '' in splited_text:
splited_text.remove('')
return splited_text
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。