仓库 Issues 博客
语言: 全部
排序: 最多forks
找到相关仓库约为922
搜索工具
务需求:文件分析系统对业务文件进行解析推送到Kafka,需要把kafka的数据进行处理后,推送到ES集群并进行分词处理
Java 1 0 1 更新于 2022-09-08
,项目内部含有朴素贝叶斯,余弦定理,逻辑回归多种分类算法以及mm,rmm分词器,同时从某新闻站点爬取了多个分类共6000多篇文章,以及一个中文词典。项目方便自由拓展各种分类器和分词器,并通过组装测试分类效果。
1 2 1 更新于 2022-09-02
FudanNLP:复旦大学自然语言处理实验室开发的中文自然语言处理工具包,包含信息检索: 文本分类、新闻聚类;中文处理: 中文分词、词性标注、实体名识别、关键词抽取、依存句法分析、时间短语识别;结构化学习: 在线学习、层次分类、聚类。 Github地址:https://github
2 6 1 更新于 2022-08-01
spring boot整合javax.mail,mybatis,elasticsearch以及IK分词器,实现邮件的全字段解析以及全文高亮检索、热词生成、词频统计等等....
1 4 1 更新于 2023-10-23
分布式搜索引擎ElasticsSearch学习,包含es安装,ik分词器安装,拼音分词器安装学习;实现基本操作功能,循寻渐进,沉浸式学习es
1 2 1 更新于 2023-11-27
结巴分词,源于github
1 3 1 更新于 2024-02-21
基于开源hanlp基础上,拆分和优化而形成的自然语言理解组件库,提供拼音转换、简繁体转换、关键字抽取、自动摘要、自动聚类、文本分类、分词等能力
Java 1 4 1 更新于 2024-03-09
1.功能单一,只有中文分词功能,没有词性标注及分析等功能 2.分词速度快(词库实现了分块查询,比一般的分词系统上快3-4倍) 3.分词准确率高(实现了管道输出输入,分词过程被划分为多个单独处理的阶段) 4.一键部署,容易使用(可以作为java包直接调用,也可以二次开发,代码开源)
Java 1 2 1 更新于 2024-04-03
集成自然语言处理课程设计中实现的模型作为系统的功能模块,包括分词、命名实体识别、文本分类、文本聚类。
Python 1 4 1 更新于 2024-04-07
一个轻量级,基于词库的分词引擎,包含基本的分词,和混淆字处理等功能。但目前由于缺乏语义理解,分词后的词汇含义会有些不同。
Java 1 1 1 更新于 2024-04-10
Java分布式中文分词组件 - word分词
1 0 1 更新于 2020-12-19

推荐博客

...