仓库 Issues 博客
语言: 全部
排序: 最佳匹配
找到相关 Issues 约为161
搜索工具
排序方式: 最佳匹配
根据单字获取拼音列表 根据词获取拼音及首字母简写
```python _tokenize_chinese_chars,用于切分中文,这里的中文分词很简单,就是切分成一个一个的汉字。也就是在中文字符的前后加上空格,这样后续的分词流程会把没一个字符当成一个词。 ```
solr-webapp webapp WEB-INF classes jcseg.properties` 文件中指定了 path后, 分词效果不对,自己加了一个文件 `lex-addtions.lex`; **我把vender中的词库拷贝到了path对应的文件夹中了
使用complex mode查询 施华蔻,被分词为施华/蔻 但是所有的词典里都没有施华这个词 使用search mode的时候,却被分词成了 施/华/蔻这三个单字。
为什么要先分词再使用dfa过滤算法过滤,不能直接使用dfa过滤吗?
同义词;现在对“tesla产业链“进行分词以后,结果只能分出一个“tesla产业链“这一个词,其他的词比如“特斯拉”、“产业链”都无法分出来;但是同样的如果我有词库“锂”、“电池”、“锂电池”,我对“锂电池”分词就都能分出来。
遇到一个问题,索引的数据是iphone 6s,分词结果是 iphone/6s 然后搜索的时候,搜的是iphone6s,分词的结果是iphone6s/iphone 导致搜不到,请问能否通过配置使这个情况可以搜到?
hi, `漂亮mm`这个词分成如下,如果我索引用search分词,搜索用complex分词,那么我搜'漂亮mm'不是找不到这条记录了? > search: 漂亮/a mm/en > complex: 漂亮mm/nz
hi,如果某次分词一个很长的文本,IStringBuffer的char数组容量会扩大到很大,其clear()方法只是把char数组下标置为0,等下次分词很短的文本时,不需要那么大的数组就可以存下了,但是此时char数组很大,导致每次分词时内存浪费过多,不知道是不是这样的?
((content:郭春芳)OR(opinion:郭春芳)OR(comment:郭春芳)OR(accessory:郭春芳)OR(keyword:郭春芳)OR(title:郭春芳)OR(author:郭春芳)OR(accessoryName:郭春芳)OR

推荐博客

...