仓库 Issues 博客
语言: 全部
排序: 最佳匹配
找到相关 Issues 约为161
搜索工具
排序方式: 最佳匹配
https://blog.csdn.net/sakus/article/details/100898540 jieba的一个大坑 因为两种的算法不同,所以在dict.txt中添加的新词和新词频不能应用到posseg中。只能 suggest_freq(segment
2_141df1af_1647921.png "QQ图片20210128103822.png") 我是真的想不到你们能这么做分词 ### 重现步骤 ### 期望效果 ### 实际效果
同义词词典配置以后, 分词后 同义词替换为跟同义词,请问可以实现吗
在elasticsearch上的一个全文字段,我想建索引的时候用jcseg_search,搜索用jcseg_complex,但是部分词搜索没有结果,比如: `胡晓海`,在jcseg_search被分为"胡""晓""海",但是jcseg_complex分为"胡
``` CJK_WORD 平安银行/nz/ping an yin hang/000001,000001.sz ``` 分词结果 ```json { "token": "平安银行", "start_offset": 6, "end_offset": 10
dmin/lucene/LuceneSearch.java 1.流关闭放在finally 2.分词器已经定义了static变量,无需再在每个方法中在new分词器 这是我的观点,您觉得合理吗
html ),我看到文档中说是可以直接通过dict构建的,想问这个类可以直接通过原始数据来构建吗? 我现在的数据集是中文,我分词后找中文预训练好的词向量(如 https://github.com/Embedding/Chinese-Word-Vecto
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数据格式:自定义词典,语料库均为pyspark dataframe
此时文件词库不太能搞定(有可能我了解没到位),所以我想以缓存+db的形式来存储词库,您能给些改造思路么?补充下:我只用到中文分词功能(关键短语提取,各种符号识别都不用)
html,输出处理(分层,前/后处理)过的数据集; **要求** :按照设计的数据格式(待更新),基于MindSpore/MindData完成分词等数据处理; **交付件** : 1. 整理过的原始数据集; 2. 数据处理实现的代码; | 数据集类别 | 原始数据地址 |
问题1:现在有单词 b.toys 但是用户查询的时候 时常输入的是btoys ,分词器默认把btoys看成了一个单词,并没有分成b/toys,如何解决? 问题2: 以上问题等不到解决时,打算采用零时解决方案,新增同义词,修改词库后,在设置lexicon

推荐博客

...