Gitee 搜索 - Gitee.com

html 2. 【Issues Section】/【问题文档片段】 Windows平台上不支持 BasicTokenizer等分词器，但是mindspore报错信息不准确，具体如下： ``` from mindspore.dataset.text import

sig/minddata mindspore-assistant usability kind/maintenance

们为数据集选择了5个最大的类别，每个类别有90000个样本用于培训，12000个样本用于测试。拼音文本的转换采用拼音结合中文分词系统。总共有45万个培训样本和6万个测试样本。目录结构： ![输入图片说明](https://images.gitee.c

sig/minddata OCCM/review-passed OCCM/test-passed OCCM/pr-merged OCCM/bug-report

1. 如何使用自定义分词器看了文档，可以使用注解设置字段使用什么analyzer和searchAnalyzer，但是枚举中支持的分词器只有 ![输入图片说明](https://images.gitee.com/uploads/images/2022/

install --index-url https://pypi.douban.com/simple pyecharts ``` 评分词云图 ``` from pyecharts.charts import Page, WordCloud import pandas

安装分词器是不是应该放到plugin

希望能参考.现在搜索大部分是java的,神烦这些玩意,要装一堆东西.好用且简单的,只有sphinx,但实时搜索支持差且需要自己做分词.你有希望替代它. :smiley:

html，输出处理（分层，前/后处理）过的数据集； **要求** ：按照设计的数据格式（待更新），基于MindSpore/MindData完成分词等数据处理； **交付件** ： 1. 整理过的原始数据集； 2. 数据处理实现的代码； | 数据集类别 | 原始数据地址 |

网上能搜到的大部分文章都是过期和不正确的，用的是很老版本的 Sphinx + Coreseek 插件。老版本的 Sphinx 不支持中文分词，于是有国人做了一个插件来支持，这个方案主要问题在于，coreseek 已经凉了很久了某份fork的最后更新是 7 years

html ），我看到文档中说是可以直接通过dict构建的，想问这个类可以直接通过原始数据来构建吗？我现在的数据集是中文，我分词后找中文预训练好的词向量（如 https://github.com/Embedding/Chinese-Word-Vecto

Steps to reproduce the issue 1. 当前针对txt文本处理算子，还不够丰富（如你是否发现某一种常用的分词操作当前是不支持的） 2. 请分析常用的txt算子，但当前mindsore却不支持，欢迎评论讨论后，基于py_transfo

good-first-issue

![输入图片说明](https://images.gitee.com/uploads/images/2021/0827/160234_cf98e73d_1549029.png "屏幕截图.png")