仓库 Issues 博客
语言: 全部
排序: 最多forks
找到相关仓库约为987
搜索工具
作,零额外学习成本.底层采用RestHighLevelClient,兼具低码,易用,易拓展等特性,支持es独有的高亮,权重,分词,Geo,嵌套类型,父子类型等功能...
Java 875 4.4k 1.5k 更新于 2024-04-16
Jcseg是基于mmseg算法的一个轻量级Java中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene、solr、e
Java 503 2.1k 624 更新于 2024-04-14
1+elasticsearch6.5.3搭建的企业级搜索平台,支持PB级数据(elasticsearch分布式部署),目前已经支持中文分词,检索关键词高亮操作,如果帮到您,麻烦点下Star,谢谢。
Java 231 1.4k 536 更新于 2024-04-15
Springboot2.1+Solr7.5搭建的企业级搜索平台,项目目前支持文档内容和数据库检索,已经集成分词技术。支持文档内容检索类型包含:pdf、doc、docx、ppt、pptx、txt、log等 数据库已支持MySQL增量自动建立索引,如果帮到您,麻烦点下Star,谢谢。
Java 223 1.4k 449 更新于 2024-04-15
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包
Java 170 471 224 更新于 2024-03-07
Jiagu深度学习自然语言处理工具 知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要
Python 86 442 145 更新于 2024-04-15
Friso 是使用 c 语言开发的一款开源的高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中, 例如:MySQL,PHP,并且提供了php5, php7, ocaml, lua的插件实现
C 109 367 115 更新于 2024-03-14
结巴中文分词做最好的Python分词组件
Python 84 274 77 更新于 2024-04-08
PHP 中文工具类,支持汉字转拼音、拼音分词、简繁互转、数字、金额大写;QQ群:17916227。本仓库仅用于存档,不再发布更新日志,请移步 Github:
PHP 62 307 70 更新于 2024-04-07
LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能
Python 28 232 56 更新于 2024-04-09
基于 PHP 和 word2vec 的分类器,用于文章、新闻等内容自动分类,项目包含样本训练、识别代码,分词组件用的是 PhpAnalysis,简单灵活。欢迎大家一起优化并完善。
PHP 32 102 50 更新于 2024-04-11

推荐博客

...