仓库 Issues 博客
排序: 最多评论
oschina.net/apdplat/blog/392498 无抄袭链接77、word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词分词效果评估原文链接:http://my.oschina.net/apdplat/blog/228615
杨尚川 71 29 发布于 2015-04-06
word分词提供了多种文本相似度计算方式:方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度实现类:org.apdplat.word.analysis.CosineTextSimilarity用法如下:String text1 = "我爱购物";
杨尚川 91 29 发布于 2015-05-20
步走进电梯,未接受媒体采访 记者了解到,出席高圆圆、赵又廷答谢宴的宾客近百人,其中不少都是女方的高中同学 另外, jieba分词提供的基于TextRank的关键词提取工具。 snownlp也实现了关键词提取和摘要生成。
letiantian 155 28 发布于 2014-12-01
决定自己动手试试。 首相选择向量的模型:在以字为向量还是以词为向量的问题上,纠结了一会;后来还是觉得用字,虽然词更为准确,但分词却需要增加额外的复杂度,并且此项目要求速度,准确率可以放低,于是还是选择字为向量。 然后每个字在章节中出现的次数,便是以此字向量的值。现在我们假设:
Breath_L 128 24 发布于 2012-03-04
menter是分词的主要类,其参数分别是分词的句子或者文章,后面的参数是是否开启智能模式,不开启就按最小词义分。 分词的结果是Lexeme这个类,用其中的getLexemeText()方法就能取出相关的分词结果。 接下来是计算词频,将分词结果和出现次数
zimingforever 157 23 发布于 2013-07-02
含义的字段,比如时间,一类是内容不确定的字段,比如日志的内容,对于有具体含义的字段,应该不分词,查询时精确匹配,而对于像内容这样的内容不明确字段,也应该是不分词,但是查询时采用模糊匹配,这样的设计针对日志查询这个场景来说,还是比较合理的。 4.5.2.常见分析器对比
李玉珏 77 20 发布于 2017-04-18
间吗?呵呵...... 代码托管于GITHUB 参考资料:1、中文分词十年回顾 2、中文信息处理中的分词问题3、汉语自动分词词典机制的实验研究4、由字构词_中文分词新方法5、汉语自动分词研究评述 NUTCH/HADOOP视频教程
杨尚川 47 20 发布于 2014-03-18
Lexer 解析完词法( Token ),再根据词法去理解 SQL。而是,在理解 SQL 的过程中,调用 Lexer 进行分词。 // SQLParsingEngine.java#parse()片段 if (sqlParser.equalAny(DefaultKeyword
芋道源码 99 19 发布于 2017-07-30
上一篇文章提到过方法,本文单独拿出来作为一个主题。 架构如下: 这里ansj分词器为了支持动态添加词汇,使用了Redis组件。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 首先要明白动态支持意味着: 1)内存中支持动态增加/删除
infrastructure 17 18 发布于 2014-06-16
smartcn分词器 的分词结果: 1 、我 爱 楚 离 陌 FudanNLP分词器 的分词结果: 1 、我 爱楚离陌 Jieba分词器 的分词结果: 1 、我爱楚 离 陌 Jcseg分词器 的分词结果: 1 、我 爱 楚 离 陌 MMSeg4j分词器 的分词结果:
杨尚川 212 18 发布于 2015-05-10
在Elasticsearch中,内置了很多分词器(analyzers),但默认的分词器对中文的支持都不是太好。所以需要单独安装插件来支持,比较常用的是中科院 ICTCLAS的smartcn和IKAnanlyzer效果还是不错的,但是目前IKAnanl
赛克蓝德 144 18 发布于 2016-02-19

推荐博客

...