4
一行代码完成 TXT语料文本 “初步”清洗。自动转码UTF-8、自动过滤Html标签/url网址/email地址/emoji表情符号/全角字符/无用空白行、自动进行简繁体双向互转、“自定义”进行文本语料高级过滤清洗、自动对人名、地名、组织机构进行遮码处理……最终自动合并TXT语料文件,形成NLP训练用文本语料库。
Python
2年前
10518913 bybinz 1647678630
0
本仓库代码为基于Spark的健康监测管理系统的数据清洗与数据分析部分,数据清洗部分使用RDD,分析部分综合使用sparksql与RDD,最终转为DataFrame进行计算,因网络上可供参考的文献、项目等较少,本项目为从事大数据开发的人员提供参考,若有价值,还请star
Java
2年多前
8878291 wuxinheng 1651195248
0
etl
Java
2年多前

搜索帮助