# 分词对比评测工具
**Repository Path**: ryan70/segEvalTool
## Basic Information
- **Project Name**: 分词对比评测工具
- **Description**: 使用streamlit做的一个web分词对比评测工具,集成了多个主流分词,可对其结果进行直观的对比评测。
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 1
- **Forks**: 1
- **Created**: 2019-12-26
- **Last Updated**: 2021-10-17
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
分词评测工具说明
==============
使用streamlit做的一个web分词对比评测工具,集成了多个主流分词,可对其结果进行直观的对比评测。

安装
-------
**1. 海量分词**
- 解压缩3rdUtiliy目录下的pyhlseg.zip
- `python setup.py install`
- [海量分词项目地址](https://gitee.com/ryan70/pyhlseg)
**2. 百度aip**
- 解压缩3rdUtiliy目录下的baidu-aip-python-sdk-2.2.5.zip
- `python setup.py install`
**3.结巴分词**
- `pip install jieba`
**4.LTP分词**
- windows下遇到编译错误,无法安装,所以屏蔽了在SegmentAgent.py中的代码
- `pip install pyltp`
**5.HanLP分词**
- 已安装
**6.NLPIR分词**
- `pip install pynlpir`
如果你的NLPIR授权过期了,可以到[github的license地址下载](https://github.com/NLPIR-team/NLPIR/tree/master/License/license%20for%20a%20month/NLPIR-ICTCLAS%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F%E6%8E%88%E6%9D%83)新的NLPIR.user,然后覆盖pynlpir的安装目录的DATA文件夹中的原文件(NLPIR.user)即可
**7.THULAC**
- `pip install thulac`
**8.streamlit**
- `pip install streamlit`
**8.jpype**
- `pip install jpype1>=0.7`
运行
----
- `streamlit run segEvalTool.py`
- 本地访问:http://localhost:8501/
- 注意:
- 不要使用IE浏览器
- 发现NLPIR和THULAC的分词结果中有丢字符的问题,导致和Hylanda分词比较时有时无法对齐比对
- 如果系统安装了多个版本的jre,jpype.getDefaultJVMPath()返回的又不是正确的版本,则可以直接修改segmentAgent.py的load()函数的相应代码:
`jvmPath = jpype.getDefaultJVMPath()`
参考下面的代码指定正确的jvmPath:
linux:
`jvmPath = "/usr/local/jdk/jdk1.8.0_162/jre/lib/amd64/server/libjvm.so"`
Windows:
`jvmPath = 'C:\\Program Files\\Java\\jdk1.8.0_144\\jre\\bin\\server\\jvm.dll'`