仓库 Issues 博客
语言: 全部
排序: 最多forks
找到相关仓库约为886
搜索工具
众推分词器!
Java 1 0 4 更新于 2020-12-19
简繁体汉字转拼音的项目,解决多音字的问题。ElasticSearch 的拼音分词工具
Java 1 12 4 更新于 2022-10-03
爬取微博内容,存库,lda分词,最后结果呈现的综合demo
Java 5 5 4 更新于 2020-12-19
"结巴"中文分词的C++版本
C++ 7 12 4 更新于 2023-03-30
中文词法分析(LAC) 中文分词(Word Segmentation)是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程
C++ 5 26 4 更新于 2023-03-08
仿照Sphinx for Chinese,基于sphinx 2.2.9版本,结合cppJieba分词系统,让sphinx支持中文
C++ 7 21 4 更新于 2022-05-06
Chinese analysis plugin which using IK analysis for Elasticsearch
Java 6 9 4 更新于 2021-12-21
中文分词、统计词频、比对文本相似度
Java 1 4 4 更新于 2022-10-19
简易分词软件
C 8 7 3 更新于 2022-03-06
solr集成tomcat8,集成ik中文分词器,mysql数据导入,相关包均已经包含其中。
Java 1 3 3 更新于 2022-05-26
这是一个使用JAVA语言开发的爬虫机器人,利用redis的list实现匀速爬取目标,并实现了url去重和目标内容去重。其中目标内容去重是先利用word分词然后再利用simhash算法得到一个SimHashCode值,再利用抽屉原理判断海明距离从而得到相似度。注意:使用JDK1.8
1 1 3 更新于 2022-07-12

推荐博客

...