仓库 Issues 博客
语言: 全部
排序: 最多forks
找到相关仓库约为860
搜索工具
简繁体汉字转拼音的项目,解决多音字的问题。ElasticSearch 的拼音分词工具
Java 1 12 4 更新于 2022-10-03
中文词法分析(LAC) 中文分词(Word Segmentation)是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程
C++ 5 25 4 更新于 2022-10-21
基于ik-analyzer分词器,在其基础上实现对不同版本的lucene兼容,ik-analyzer项目主页地址为:https://code.google.com/archive/p/ik-analyzer/
Java 1 20 4 更新于 2022-09-15
爬取微博内容,存库,lda分词,最后结果呈现的综合demo
Java 5 5 4 更新于 2020-12-19
中文分词、统计词频、比对文本相似度
Java 1 4 4 更新于 2022-10-19
仿照Sphinx for Chinese,基于sphinx 2.2.9版本,结合cppJieba分词系统,让sphinx支持中文
C++ 7 21 4 更新于 2022-05-06
Chinese analysis plugin which using IK analysis for Elasticsearch
Java 6 9 4 更新于 2021-12-21
目,使用2个经典案例(百度地图找房+文章内容搜索),演示es常用的功能及代码原生写法和简化写法(easy-es)~支持高亮,分词,Geo等功能
2 9 4 更新于 2023-02-03
简易分词软件
C 8 7 3 更新于 2022-03-06
solr集成tomcat8,集成ik中文分词器,mysql数据导入,相关包均已经包含其中。
Java 1 3 3 更新于 2022-05-26
这是一个使用JAVA语言开发的爬虫机器人,利用redis的list实现匀速爬取目标,并实现了url去重和目标内容去重。其中目标内容去重是先利用word分词然后再利用simhash算法得到一个SimHashCode值,再利用抽屉原理判断海明距离从而得到相似度。注意:使用JDK1.8
1 1 3 更新于 2022-07-12

推荐博客

...