仓库 Issues 博客
排序: 最多评论
oschina.net/apdplat/blog/392498 无抄袭链接77、word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词分词效果评估原文链接:http://my.oschina.net/apdplat/blog/228615
杨尚川 71 29 发布于 2015-04-06
由于是有权图,PageRank公式略做修改: 实现TextRank 因为要用测试多种情况,所以自己实现了一个基于Python 2.7的TextRank针对中文文本的库TextRank4ZH。位于: https://github.com/someus/TextRank4ZH 下面是一个例子:
letiantian 155 28 发布于 2014-12-01
决定自己动手试试。 首相选择向量的模型:在以字为向量还是以词为向量的问题上,纠结了一会;后来还是觉得用字,虽然词更为准确,但分词却需要增加额外的复杂度,并且此项目要求速度,准确率可以放低,于是还是选择字为向量。 然后每个字在章节中出现的次数,便是以此字向量的值。现在我们假设:
Breath_L 128 24 发布于 2012-03-04
menter是分词的主要类,其参数分别是分词的句子或者文章,后面的参数是是否开启智能模式,不开启就按最小词义分。 分词的结果是Lexeme这个类,用其中的getLexemeText()方法就能取出相关的分词结果。 接下来是计算词频,将分词结果和出现次数
zimingforever 157 23 发布于 2013-07-02
提升效果很明显,约4倍。性能还有提升的空间吗?呵呵...... 代码托管于GITHUB 参考资料:1、中文分词十年回顾 2、中文信息处理中的分词问题3、汉语自动分词词典机制的实验研究4、由字构词_中文分词新方法5、汉语自动分词研究评述 NUTCH/HADOOP视频教程
杨尚川 47 20 发布于 2014-03-18
MyCAT / Sharding-JDBC 所有源码分析文章列表 RocketMQ / MyCAT / Sharding-JDBC 中文注释源码 GitHub 地址 您对于源码的疑问每条留言都将得到认真回复。甚至不知道如何读源码也可以请教噢。 新的源码解析文章实时收到通知。每周更新一篇左右。
芋道源码 99 19 发布于 2017-07-30
上一篇文章提到过方法,本文单独拿出来作为一个主题。 架构如下: 这里ansj分词器为了支持动态添加词汇,使用了Redis组件。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 首先要明白动态支持意味着: 1)内存中支持动态增加/删除
infrastructure 17 18 发布于 2014-06-16
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法
杨尚川 212 18 发布于 2015-05-10
0版本,但是smartcn中文分词器默认官方支持,它提供了一个中文或混合中文英文文本的分析器。支持最新的2.2.0版本版本。但是smartcn不支持自定义词库,作为测试可先用一下。后面的部分介绍如何支持最新的版本。smartcn安装分词:plugin install
赛克蓝德 144 18 发布于 2016-02-19
标准控件中的大部分,足以满足日常操作。 riot: Go 语言实现的分布式全文搜索引擎 推荐理由:性能优异 —— 具有高效索引和搜索、支持中文分词、支持逻辑搜索以及中文转拼音搜索、支持分布式索引和搜索、支持多种持久存储 zendAPI:Zend Engine 的 C++ 封装 推荐理由:对
均被搜索出来了! 当然这里用的是standard分词方式,将每个中文都作为了一个term,凡是包含“南”、“京”关键字的记录都被搜索了出来,只是评分不同而已,当然还有其他的一些分词方式,此时需要其他分词插件的支持,此处暂不涉及,后文中再做探索。
CodeSheep 147 14 发布于 2018-01-09

推荐博客

...