仓库 Issues 博客
语言: 全部
排序: 最多stars
找到相关仓库约为917
搜索工具
1.功能单一,只有中文分词功能,没有词性标注及分析等功能 2.分词速度快(词库实现了分块查询,比一般的分词系统上快3-4倍) 3.分词准确率高(实现了管道输出输入,分词过程被划分为多个单独处理的阶段) 4.一键部署,容易使用(可以作为java包直接调用,也可以二次开发,代码开源)
Java 1 2 0 更新于 2023-02-10
基于nltk的微博热点趋势大数据分析 在本次案例中,我们首先需要载入通过爬虫程序抓取的微博文本内容,然后使用结巴分词对每个博主的微博进行分词处理,然后汇总每个博主的分词获得总词袋,再计算总词袋中词汇的每日文档频率(视每个博主每天所有微博为一个文档)。这样我们可以获得每一天微博热点词汇的排行。
Python 1 2 0 更新于 2023-04-16
爬取某东商品评价,对评价进行数据处理,分词,概率、词云图可视化,用朴素贝叶斯和支持向量机进行分类训练,可以预测文本内容和文件内容并保存为csv文件
Python 0 2 0 更新于 2023-04-21
大数据分析: 分组聚合/绘图基础/数据筛选/结巴分词/统计图形实战等等
1 2 0 更新于 2023-06-16
,项目内部含有朴素贝叶斯,余弦定理,逻辑回归多种分类算法以及mm,rmm分词器,同时从某新闻站点爬取了多个分类共6000多篇文章,以及一个中文词典。项目方便自由拓展各种分类器和分词器,并通过组装测试分类效果。
1 2 1 更新于 2022-09-02
集成自然语言处理课程设计中实现的模型作为系统的功能模块,包括分词、命名实体识别、文本分类、文本聚类。
Python 1 2 1 更新于 2024-01-06
分布式搜索引擎ElasticsSearch学习,包含es安装,ik分词器安装,拼音分词器安装学习;实现基本操作功能,循寻渐进,沉浸式学习es
1 2 1 更新于 2023-11-27
中文自然语言处理工具集【断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查】
1 2 2 更新于 2023-12-05
数据挖掘期末作业,方便团队交流 改善 2. 属于自然语言处理领域,对贵州的一些景区评论进行情感分析 3. 使用了停用词表,jieba中文分词,snownNLP进行情感评分 4. 使用了LDA进行主题建模
1 2 0 更新于 2024-01-15
Go中文分词 词典用双数组trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划。 支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务。 分词速度单线程9MB/s,goroutin
Go 1 2 0 更新于 2024-01-26
word分词
Java 1 2 0 更新于 2024-03-05

推荐博客

...