找到相关仓库约为895个
搜索工具
排序方式:
最多stars
1. 分词:由于企业描述是文本信息,需要对文本信息进行特征提取。文本分词可采用Jieba分词: https://github.com/fxsjy/jieba http://blog.csdn.net/FontThrone/article/details/72782499
ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
ctbparser是一个用C++语言实现的开源的中文处理工具包(GBK编码),用于分词、词性标注、依存句法分析,采用的是中文宾州树库(Chinese Tree Bank, CTB)标准。
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包 里面有代码和jar包文件
推荐博客
...