仓库 Issues 博客
语言: 全部
排序: 最多forks
找到相关仓库约为748
搜索工具
一个好用的数据查重引擎。包含了数据建模,清洗算法设计,查重,结构导出等功能。查重的算法中对数据每个属性均可以设定权重和灵活选择比对算法。使用的中文分词引擎对较长中文句子进行分司和比对。
Java 10 25 11 更新于 2022-08-14
基于结巴分词java版实现(https://github.com/huaban/jieba-analysis)进行的改进,以适用于词频统计
Java 1 8 10 更新于 2022-07-19
模仿锤子M1新出的BigBang功能,轻松分词,重新造句,基于讯飞分词SDK实现
Android 21 48 10 更新于 2022-08-10
elasticsearch的ik分词器动态扩展词库
Java 7 15 9 更新于 2022-09-21
pkuseg-python:一个高准确度的中文分词工具包 pkuseg-python 简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率
Python 10 33 9 更新于 2022-04-26
盘古分词组件,Forked from Eaglet
C# 12 35 9 更新于 2022-08-13
该项目已经更换,在码云上不在更新,请更换地址如下。
Python 26 60 8 更新于 2021-07-26
Java开源项目cws_evaluation:中文分词器分词效果评估。本站是cws_evaluation在Github的镜像站点,仅做备份使用。
Java 9 13 8 更新于 2022-06-29
针对mmseg4j (1.10.0)的拓展,弥补了多处不足,分词,随心所欲
Java 9 15 7 更新于 2020-12-19
个人毕设所做项目-“基于词典的中文微博细粒度情感分析系统的设计与实现”,简称WEA,后台主要用到网络爬虫,NLPIR中文分词,XML解析,情感分析算法,图片转换,前端是采用div+css网页布局,利用AJAX,JavaScript以及Highchart
Java 10 16 7 更新于 2022-04-27
论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
Python 1 11 6 更新于 2022-09-14

推荐博客

...