1 Star 0 Fork 1

greitzmann/chinese_word_segmentation_transformer

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
set_list.py 1.47 KB
一键复制 编辑 原始数据 按行查看 历史
junyu-luo 提交于 2019-03-23 12:25 . all
import pickle
import random
def write_file(filename, str):
"""
写入文件
:param str: 字符串
:return: 无
"""
writefile = open("./data/" + filename, 'a+', encoding='utf-8')
writefile.write(str + '\n')
writefile.close()
def load_pkl(filename):
with open('./pkl_save/' + filename, 'rb', ) as file:
return pickle.load(file)
texts = load_pkl('texts.pickle')
# print(len(list(set(texts))))
unique_texts = list(set(texts))
# print(unique_texts)
random.shuffle(unique_texts)
for i in range(len(unique_texts) - 1):
write_file('context.txt', unique_texts[i].strip() + unique_texts[i + 1].strip())
write_file('texts.txt', unique_texts[i].strip() + '|' + unique_texts[i + 1].strip())
random.shuffle(unique_texts)
for i in range(len(unique_texts) - 2):
write_file('context.txt', unique_texts[i].strip() + unique_texts[i + 1].strip() + unique_texts[i + 2].strip())
write_file('texts.txt',
unique_texts[i].strip() + '|' + unique_texts[i + 1].strip() + '|' + unique_texts[i + 2].strip())
random.shuffle(unique_texts)
for i in range(len(unique_texts) - 3):
write_file('context.txt',
unique_texts[i].strip() + unique_texts[i + 1].strip() + unique_texts[i + 2].strip() + unique_texts[
i + 3].strip())
write_file('texts.txt',
unique_texts[i].strip() + '|' + unique_texts[i + 1].strip() + '|' + unique_texts[i + 2].strip() + '|' +
unique_texts[i + 3].strip())
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/greitzmann/chinese_word_segmentation_transformer.git
git@gitee.com:greitzmann/chinese_word_segmentation_transformer.git
greitzmann
chinese_word_segmentation_transformer
chinese_word_segmentation_transformer
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385