仓库 Issues 博客
语言: 全部
排序: 最多watches
找到相关仓库约为899
搜索工具
Prose 是一款用于Go 语言的文本处理库(主要是英文),支持 okenization(标记化)、part-of-speech tagging(词性标注)、named-entit
Go 6 5 3 更新于 2023-09-12
OpenNLP 是一个机器学习工具包,用于处理自然语言文本。支持大多数常用的 NLP 任务,例如:标识化、句子切分、部分词性标注、名称抽取、组块、解析等
Java 6 29 12 更新于 2023-12-01
地区、PE值、总资产、流动资产、固定资产、留存资产等) 对抓取的新闻文本按照,去停用词、加载新词、分词的顺序进行处理 利用前两步中所获取的股票名称和分词后的结果,抽取出每条新闻里所包含的(0支、1支或多支)股票名称,并将所对应的所有股票代码,组合成与该
Python 5 17 14 更新于 2023-02-10
jieba.NET 是 jieba 中文分词的 .NET 版本(C#实现)
5 2 3 更新于 2023-08-17
爬取微博内容,存库,lda分词,最后结果呈现的综合demo
Java 5 5 4 更新于 2020-12-19
SpringBoot整合Hadoop,项目功能包括HDFS文件操作、MapReduce分词操作以及案例数据分析,系统推荐,个体价值估算等,进击大数据一小步。
Java 5 40 27 更新于 2023-10-13
在原来的2012版本上增加在solr中配置智能分词功能!!
Java 4 8 0 更新于 2022-04-18
Superword is a Java open source project dedicated in the study of English words analysis and auxiliary reading。本站是superword在Github的镜像站点,仅做备份使用。
Java 4 4 2 更新于 2022-07-06
语言技术平台(Language Technology Platform,LTP)提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工
C/C++ 4 6 1 更新于 2023-10-26
一个没有语料字典的中文分词代码
Python 4 5 1 更新于 2020-12-19
中文分词;关键词提取;自动摘要;文本分类
Java 4 6 2 更新于 2023-05-25

推荐博客

...