仓库 Issues 博客
语言: 全部
排序: 最佳匹配
找到相关 Issues 约为161
搜索工具
排序方式: 最佳匹配
德塔急速分词下载地址: https://gitee.com/DetaChina/Deta_Resource/blob/master/Deta_Parser.jar 德塔中文分词 具体使用方法 见 deta parser 介绍页面. https://gitee
发现同义词定义后无法反向关联 ``` 万圣节/t/wan sheng jie/鬼节 ``` 这样的词条定义后,按照分词`万圣节`可以得到`万圣节``鬼节` 然而对`鬼节`进行分词只能得到`鬼节`,如果一个词有很多简写这简直是灾难
@ESMapping的search_analyzer类型能否增加ik_smart分词器?检索的时候使用ik_max_word分词分的太细了,把不相关的也都检索出来了。比如搜索山东,用ik_max_word会把包含山或东这两个字的数据都搜索出来。
Jcseg是基于mmseg算法的一个轻量级中文分词器" }, "highlight": { "description": [ "哎中文不艾汉语/OCSinaWeiBo Jcseg是基于mmseg算法的一个轻量级中文分词器" ] } } ] } } ``` 输出结果高亮了
分词查询回复消息时的奇怪Bug
bug
mapreduce在本地能读取词库,能分词成功,但是放集群上后就读不了词库,初学者,现在正在考虑是不是修改读词库的方式
## 10.博客系统的推荐算法 - a) 基于分词的推荐,博文发布时,会更加标题进行分词处理,并对分词后的词语按曝光度排序,后续搜索博文时,搜索语句也进行分词,然后按照曝光度排序,然后通过模糊搜索即可。 - b) 基于用户浏览记录的推荐,每个用户浏览博
分词器能否添加english类型?检索英文字段时使用english分词器,可以对单词进行归一化。
``` [10] train-logloss:0.398614 valid-logloss:0.397746 [20] train-logloss:0.277751 valid-logloss:0.276827 [30] train-logloss:0
【(北大)高准确度中文分词工具包】'pkuseg-python - python版本:高准确度中文分词工具,简单易用,跟现有开源工具相比大幅提高了分词的准确率。' by LancoPKU GitHub: https://github.com/lancopku/PKUSeg-python
``` [100] train-logloss:0.123521 valid-logloss:0.131028 [200] train-logloss:0.106476 valid-logloss:0.125303 [300] train-logloss:0

推荐博客

...