仓库 Issues 博客
排序: 最多收藏
aster/widget_preview' /script 7、项目名称:轻量级中文分词器 Jcseg 项目简介: Jcseg 是基于 mmseg 算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于
Gitee 699 10 发布于 2017-09-22
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法
杨尚川 212 18 发布于 2015-05-10
述,自然商品名称的权重远远大于商品描述。而且单词匹配肯定不如短语匹配。这样就出现了新的需求,如何确定这些短语,即自然分词。那就利用分词器,即可得到所需要的短语,然后进行搜索。 下面介绍短语如何进行按权重分匹配搜索。 二、运行 spring-data-elasticsearch-query
泥瓦匠BYSocket 195 4 发布于 2017-06-23
##码云项目推荐 1、项目名称: 中文转拼音库 pinyin4j **项目简介:**Pinyin4j 是一个流行的 Java 库,支持中文字符和拼音之间的转换。拼音输出格式可以定制。 **项目地址:**https://gitee.com/cocho/pinyin4j
码云Gitee 170 4 发布于 2017-08-11
menter是分词的主要类,其参数分别是分词的句子或者文章,后面的参数是是否开启智能模式,不开启就按最小词义分。 分词的结果是Lexeme这个类,用其中的getLexemeText()方法就能取出相关的分词结果。 接下来是计算词频,将分词结果和出现次数
zimingforever 157 23 发布于 2013-07-02
由于是有权图,PageRank公式略做修改: 实现TextRank 因为要用测试多种情况,所以自己实现了一个基于Python 2.7的TextRank针对中文文本的库TextRank4ZH。位于: https://github.com/someus/TextRank4ZH 下面是一个例子:
letiantian 155 28 发布于 2014-12-01
均被搜索出来了! 当然这里用的是standard分词方式,将每个中文都作为了一个term,凡是包含“南”、“京”关键字的记录都被搜索了出来,只是评分不同而已,当然还有其他的一些分词方式,此时需要其他分词插件的支持,此处暂不涉及,后文中再做探索。
CodeSheep 147 14 发布于 2018-01-09
0版本,但是smartcn中文分词器默认官方支持,它提供了一个中文或混合中文英文文本的分析器。支持最新的2.2.0版本版本。但是smartcn不支持自定义词库,作为测试可先用一下。后面的部分介绍如何支持最新的版本。smartcn安装分词:plugin install
赛克蓝德 144 18 发布于 2016-02-19
标准控件中的大部分,足以满足日常操作。 riot: Go 语言实现的分布式全文搜索引擎 推荐理由:性能优异 —— 具有高效索引和搜索、支持中文分词、支持逻辑搜索以及中文转拼音搜索、支持分布式索引和搜索、支持多种持久存储 zendAPI:Zend Engine 的 C++ 封装 推荐理由:对
决定自己动手试试。 首相选择向量的模型:在以字为向量还是以词为向量的问题上,纠结了一会;后来还是觉得用字,虽然词更为准确,但分词却需要增加额外的复杂度,并且此项目要求速度,准确率可以放低,于是还是选择字为向量。 然后每个字在章节中出现的次数,便是以此字向量的值。现在我们假设:
Breath_L 128 24 发布于 2012-03-04
TTP从统一集中的Web服务器中获得配置信息,如何对这些配置信息进行自动加载并实时检测变化呢? Java分布式中文分词组件 - word分词已经实现了这个功能,我们看看是如何实现的: package org.apdplat.word.util; import
杨尚川 118 5 发布于 2014-09-11

推荐博客

...