仓库 Issues 博客
语言: 全部
排序: 最佳匹配
找到相关仓库约为854
搜索工具
仿照Sphinx for Chinese,基于sphinx 2.2.9版本,结合cppJieba分词系统,让sphinx支持中文
C++ 7 21 4 更新于 2022-05-06
"结巴"中文分词的Node.js版本
2 6 1 更新于 2021-05-10
sphinx结合结巴分词,在 https://github.com/frankee/sphinx-jieba 基础上解决了安装出错问题
C++ 3 7 11 更新于 2022-09-07
分词
Python 7 13 2 更新于 2021-08-03
Elasticsearch的扩展分词词典
1 0 0 更新于 2021-07-26
基于人民日报语料库,实现以下操作:加载语料库进行n-gram词频统计生成词典;用生成的词典生成有意义的语句;对任意输入语句进行正确分词,实现FMM和BMM的分词方法。有GUI界面
Java 1 0 0 更新于 2022-03-08
一个轻量级,基于词库的分词引擎,包含基本的分词,和混淆字处理等功能。但目前由于缺乏语义理解,分词后的词汇含义会有些不同。
Java 1 0 0 更新于 2020-12-18
ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
1 1 1 更新于 2022-06-21
通过web服务器对word分词的资源进行集中统一管理。本站是word_web在Github的镜像站点,仅做备份使用。
Java 6 5 1 更新于 2021-10-18
中文爬虫的代码,需不断维护(故只是个selenium+chromedriver+demo,欢迎白嫖); 主要是使用gensim分词基于词频修正jieba中文分词误拆分(其他什么的分词也可以)
Python 1 1 0 更新于 2021-06-05

推荐博客

...