登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
Gitee AI
NEW
我知道了
查看详情
登录
注册
12月28日,「开源中国源创会年终盛典」珠海站再次回归!点击免费报名参会
#数据清洗
有3个公开仓库匹配此标签
开源许可
MulanPSL-2.0
0BSD
AFL-3.0
AGPL-3.0
Apache-2.0
Artistic-2.0
BSD-2-Clause
BSD-3-Clause
BSD-3-Clause-Clear
BSD-4-Clause
BSL-1.0
CC-BY-4.0
CC-BY-SA-4.0
CC0-1.0
CECILL-2.1
CERN-OHL-P-2.0
CERN-OHL-S-2.0
CERN-OHL-W-2.0
ECL-2.0
EPL-1.0
EPL-2.0
EUPL-1.1
EUPL-1.2
GFDL-1.3
GPL-2.0
GPL-3.0
ISC
LGPL-2.1
LGPL-3.0
LPPL-1.3c
MIT
MIT-0
MPL-2.0
MS-PL
MS-RL
MulanPSL-1.0
MulanPubL-1.0
MulanPubL-2.0
NCSA
ODbL-1.0
OFL-1.1
OSL-3.0
PostgreSQL
UPL-1.0
Unlicense
Vim
WTFPL
Zlib
全部语言
Java
JavaScript
HTML
CSS
Python
C
Shell
C++
TypeScript
PHP
C#
Go
Objective-C
Android
Kotlin
Ruby
Assembly
Swift
NodeJS
Perl
Dart
Lua
Rust
Matlab
其他
PowerShell
HTML/CSS
Scala
微信
Groovy
C/C++
XSLT
Verilog
R
QML
Pascal
Docker
CoffeeScript
FORTRAN
Erlang
Emacs Lisp
ActionScript
SQL
Smalltalk
VHDL
Delphi
M
TeX/LaTeX
ASP
Visual Basic
Clojure
Common Lisp
Awk
LiveScript
Haskell
Scheme
Elixir
Julia
易语言
OCaml
YAML
AutoHotkey
Pawn
Puppet
Ada
D
Standard ML
XML
Logos
Arduino
Prolog
VimL
汇编
Coq
Haxe
ColdFusion
Vala
Scilab
Crystal
Racket
Lisp
Slash
Eiffel
eC
DOT
Zephir
Nemerle
Stars
Starred
最新推荐
最近更新
行者/TXT文本语料数据清洗(Text corpus data cleaning)
4
一行代码完成 TXT语料文本 “初步”清洗。自动转码UTF-8、自动过滤Html标签/url网址/email地址/emoji表情符号/全角字符/无用空白行、自动进行简繁体双向互转、“自定义”进行文本语料高级过滤清洗、自动对人名、地名、组织机构进行遮码处理……最终自动合并TXT语料文件,形成NLP训练用文本语料库。
文本文件
数据清洗
txt
Python
2年前
Bybinz/graduation_project
0
本仓库代码为基于Spark的健康监测管理系统的数据清洗与数据分析部分,数据清洗部分使用RDD,分析部分综合使用sparksql与RDD,最终转为DataFrame进行计算,因网络上可供参考的文献、项目等较少,本项目为从事大数据开发的人员提供参考,若有价值,还请star
健康监测管理系统
数据处理
数据清洗
数据分析
Java
2年多前
Arvid/pentaho-kettle
0
etl
fork
数据清洗
Java
2年多前
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
回到顶部