找到相关仓库约为895个
搜索工具
排序方式:
最多forks
一个好用的数据查重引擎。包含了数据建模,清洗算法设计,查重,结构导出等功能。查重的算法中对数据每个属性均可以设定权重和灵活选择比对算法。使用的中文分词引擎对较长中文句子进行分司和比对。
目,使用2个经典案例(百度地图找房+文章内容搜索),演示es常用的功能及代码原生写法和简化写法(easy-es)~支持高亮,分词,Geo等功能
OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等
sphinx结合结巴分词,在 https://github.com/frankee/sphinx-jieba 基础上解决了安装出错问题
基于结巴分词java版实现(https://github.com/huaban/jieba-analysis)进行的改进,以适用于词频统计
pkuseg-python:一个高准确度的中文分词工具包 pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率
Java开源项目cws_evaluation:中文分词器分词效果评估。本站是cws_evaluation在Github的镜像站点,仅做备份使用。
推荐博客
...