Gitee 搜索 - Gitee.com

网上能搜到的大部分文章都是过期和不正确的，用的是很老版本的 Sphinx + Coreseek 插件。老版本的 Sphinx 不支持中文分词，于是有国人做了一个插件来支持，这个方案主要问题在于，coreseek 已经凉了很久了某份fork的最后更新是 7 years

[源自github用户fingthinking](https://github.com/PaddlePaddle/Paddle/issues/2919): 在进行分词大量调用的时候，出现了如下的错误，请问应该是什么原因呢？请帮忙解答一下： ```C++ F0717 16:29:34.666633

php 5.2.9 版本。换回 friso 1.6.0 使用 robbe 1.6.0 加载就一切正常。顺便感谢作者，这个分词工具真心不错！

true, 编译 jar 包; 2. jcseg.properties 中 jcseg.loadpinyin = 1; 3. 在分词结果中, 也能看到有拼音的结果, "长春/ns/chang chun/null/"; 4. 在搜索中, 我测试 "chang

将输入的文本，使用tokenizer进行分词，得到token 2. 进行token to index，得到输入文本的index ## Describe the current behavior 1. 目前在mindspore的编程指南中，有分词器（tokenizer）

usability user/research mindspore-assistant kind/bug

.png "EB194A87-A957-4cfe-9BD0-585A397F6DBD.png") 小和9月发生位置错位，并且分词后的startposition和endposition的问题

NLP 日期组合 BUG

您好作者，对于将jcseg作为elasticsearch的分词器，想实现中文简体和繁体的相互检索，可行的方法是什么呢？希望您能给些思路啊，看介绍说jcseg有简体和繁体的转换工具什么的没有找到啊。

同义词高亮异常解决方案

非线程安全 //设置要被分词的文本 String str = "DoublThaha男士豆豆运动鞋Wave大嘴包Sella折耳包"; try { seg.reset(new StringReader(str)); //获取分词结果 IWord word

作者，您好！能否将jcseg分词器提交到开源中国maven上一份？

Steps to reproduce the issue 1. 当前针对txt文本处理算子，还不够丰富（如你是否发现某一种常用的分词操作当前是不支持的） 2. 请分析常用的txt算子，但当前mindsore却不支持，欢迎评论讨论后，基于py_transfo

good-first-issue

```python _tokenize_chinese_chars，用于切分中文，这里的中文分词很简单，就是切分成一个一个的汉字。也就是在中文字符的前后加上空格，这样后续的分词流程会把没一个字符当成一个词。 ```