仓库 Issues 博客
语言: 全部
排序: 最多stars
找到相关仓库约为1078
搜索工具
pkuseg-python:一个高准确度的中文分词工具包 pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率
Python 11 37 10 更新于 2024-03-14
elasticsearch便捷版本,集成了一些常用的插件
Java 18 36 20 更新于 2023-06-27
基于Elasticsearch的搜索引擎方式智能地址解析。支持地址别名匹配,自定义地址分词。支持中英文地址智能解析。支持国家、省、市、区、镇 地址智能匹配,支持中文繁体字地址解析,后续版本将支持多语言地址解析。
Java 8 35 0 更新于 2024-04-28
OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等
Java 7 33 14 更新于 2024-04-29
一个好用的数据查重引擎。包含了数据建模,清洗算法设计,查重,结构导出等功能。查重的算法中对数据每个属性均可以设定权重和灵活选择比对算法。使用的中文分词引擎对较长中文句子进行分司和比对。
Java 10 29 13 更新于 2024-04-01
梁博在线分词pullword的perl客户端,支持直接结果以及返回一个分词词频的hash。
Perl 3 27 0 更新于 2023-12-21
论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
Python 1 27 8 更新于 2024-04-26
中文词法分析(LAC) 中文分词(Word Segmentation)是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程
C++ 7 27 4 更新于 2023-09-12
ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典
1 27 2 更新于 2022-01-31
xmnlp 是一个轻量级中文自然语言处理工具,提供中文分词, 词性标注, 命名体识别,情感分析,文本纠错,文本转拼音,文本摘要,偏旁部首等功能
Python 7 26 7 更新于 2023-11-21
一个简单易学,支持汉语,拓展性强,跨平台,面向对象的轻量级编程语言 可在linux-x86/-x86_64 ,rasberry,windows-x86/-x64等系统上正常运行
C 10 26 3 更新于 2024-03-02

推荐博客

...