1 Star 0 Fork 0

瞿小龙/TCM-KG-Producer

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
main.py 824 Bytes
一键复制 编辑 原始数据 按行查看 历史
瞿小龙 提交于 2023-09-06 22:08 . first commit
def process_text(text):
translator = str.maketrans( '', '', '!"#$%&\'()*+,-.。:、,()/:;<=>?@[\\]^_`{|}~abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ ' )
# 使用translate方法进行文本清理
cleaned_text = text.translate( translator )
while len(cleaned_text) < 100:
cleaned_text += cleaned_text
return cleaned_text[:100]
with open('kg-producer/item_name2content.txt', 'r', encoding='utf-8') as f:
lines = f.readlines()
f.close()
print(len(lines))
with open('kg-producer/item_name2content_reshape.txt', 'w', encoding='utf-8') as file:
for line in lines:
name, content = line.strip().split('\t')
new_content = process_text(content)
if len(new_content) != 100:
print('warning!')
file.write(name + '\t' + new_content + '\n')
file.close()
print('nihao')
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/quxiaolong2020/tcm-kg-producer.git
git@gitee.com:quxiaolong2020/tcm-kg-producer.git
quxiaolong2020
tcm-kg-producer
TCM-KG-Producer
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385