Gitee 搜索 - Gitee.com

德塔急速分词下载地址: https://gitee.com/DetaChina/Deta_Resource/blob/master/Deta_Parser.jar 德塔中文分词具体使用方法见 deta parser 介绍页面. https://gitee

发现同义词定义后无法反向关联 ``` 万圣节/t/wan sheng jie/鬼节 ``` 这样的词条定义后，按照分词`万圣节`可以得到`万圣节``鬼节` 然而对`鬼节`进行分词只能得到`鬼节`，如果一个词有很多简写这简直是灾难

同义词

@ESMapping的search_analyzer类型能否增加ik_smart分词器？检索的时候使用ik_max_word分词分的太细了，把不相关的也都检索出来了。比如搜索山东，用ik_max_word会把包含山或东这两个字的数据都搜索出来。

Jcseg是基于mmseg算法的一个轻量级中文分词器" }, "highlight": { "description": [ "哎中文不艾汉语/OCSinaWeiBo Jcseg是基于mmseg算法的一个轻量级中文分词器" ] } } ] } } ``` 输出结果高亮了

同义词高亮异常

分词查询回复消息时的奇怪Bug

bug

mapreduce在本地能读取词库，能分词成功，但是放集群上后就读不了词库，初学者，现在正在考虑是不是修改读词库的方式

## 10.博客系统的推荐算法 - a) 基于分词的推荐，博文发布时，会更加标题进行分词处理，并对分词后的词语按曝光度排序，后续搜索博文时，搜索语句也进行分词，然后按照曝光度排序，然后通过模糊搜索即可。 - b) 基于用户浏览记录的推荐，每个用户浏览博

enhancement

分词器能否添加english类型？检索英文字段时使用english分词器，可以对单词进行归一化。

``` [10] train-logloss:0.398614 valid-logloss:0.397746 [20] train-logloss:0.277751 valid-logloss:0.276827 [30] train-logloss:0

【(北大)高准确度中文分词工具包】'pkuseg-python - python版本：高准确度中文分词工具，简单易用，跟现有开源工具相比大幅提高了分词的准确率。' by LancoPKU GitHub: https://github.com/lancopku/PKUSeg-python

``` [100] train-logloss:0.123521 valid-logloss:0.131028 [200] train-logloss:0.106476 valid-logloss:0.125303 [300] train-logloss:0