1 Star 0 Fork 1

Huuu/wiki_zh_word2vec

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
2_jieba_participle.py 760 Bytes
一键复制 编辑 原始数据 按行查看 历史
AimeeLee77 提交于 2017-04-21 15:46 . add
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#逐行读取文件数据进行jieba分词
import jieba
import jieba.analyse
import jieba.posseg as pseg #引入词性标注接口
import codecs,sys
if __name__ == '__main__':
f = codecs.open('wiki.zh.simp.txt', 'r', encoding='utf8')
target = codecs.open('wiki.zh.simp.seg.txt', 'w', encoding='utf8')
print 'open files.'
lineNum = 1
line = f.readline()
while line:
print '---processing ',lineNum,' article---'
seg_list = jieba.cut(line,cut_all=False)
line_seg = ' '.join(seg_list)
target.writelines(line_seg)
lineNum = lineNum + 1
line = f.readline()
print 'well done.'
f.close()
target.close()
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/HYNF/wiki_zh_word2vec.git
git@gitee.com:HYNF/wiki_zh_word2vec.git
HYNF
wiki_zh_word2vec
wiki_zh_word2vec
master

搜索帮助

0d507c66 1850385 C8b1a773 1850385