仓库 Issues 博客
语言: 全部
排序: 最多forks
找到相关仓库约为976
搜索工具
"结巴"中文分词的C++版本
C++ 7 16 4 更新于 2023-12-05
中文分词、统计词频、比对文本相似度
Java 1 4 4 更新于 2022-10-19
个人网站项目分前台和后台两个系统,前台用于展示,后台则用于管理数据和基本配置。 前台系统: 首页展示文章和热门频道等,基于Lucene.Net+盘古分词做了站内搜索引擎优化,还包括注册、登录、找回密码、发送邮件、激活邮件、广告位、点赞、Ajax异步评论、静态页、上传图片、支付购买积分等功能;
C# 1 9 4 更新于 2023-08-23
Chinese analysis plugin which using IK analysis for Elasticsearch
Java 6 9 4 更新于 2021-12-21
solr集成tomcat8,集成ik中文分词器,mysql数据导入,相关包均已经包含其中。
Java 1 3 3 更新于 2022-05-26
这是一个使用JAVA语言开发的爬虫机器人,利用redis的list实现匀速爬取目标,并实现了url去重和目标内容去重。其中目标内容去重是先利用word分词然后再利用simhash算法得到一个SimHashCode值,再利用抽屉原理判断海明距离从而得到相似度。注意:使用JDK1.8
1 1 3 更新于 2022-07-12
自然语言处理探索入门的整个心路历程都记录在这个工程下面。保存的内容有: 中文分词: Ansj 复旦大学(fnlp) 中科院(nlp) 斯坦福(Stanford segments、Stanford ner、Stanford pos tagger、Stanford
Java 2 8 3 更新于 2021-10-08
新词发现、分词、情感倾向性分析
1 4 3 更新于 2020-12-20
数据库模型映射,自动建表, 自动更新表,数据增删改查, FTS全文搜索, 支持自定义fts3,4,5分词器,可拼音分词. sql,fmdb,wcdb,sqlite3,orm,fts,fts3,fts4,fts5
Objective-C 6 25 3 更新于 2022-10-03
首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本
Java 3 7 3 更新于 2023-12-28
简易分词软件
C 8 10 3 更新于 2024-02-20

推荐博客

...