仓库 Issues 博客
语言: 全部
排序: 最近更新
找到相关 Issues 约为161
搜索工具
排序方式: 最近更新
html 2. 【Issues Section】/【问题文档片段】 Windows平台上不支持 BasicTokenizer等分词器,但是mindspore报错信息不准确,具体如下: ``` from mindspore.dataset.text import
们为数据集选择了5个最大的类别,每个类别有90000个样本用于培训,12000个样本用于测试。拼音文本的转换采用拼音结合中文分词系统。总共有45万个培训样本和6万个测试样本。 目录结构: ![输入图片说明](https://images.gitee.c
1. 如何使用自定义分词器 看了文档,可以使用注解设置字段使用什么analyzer和searchAnalyzer,但是枚举中支持的分词器只有 ![输入图片说明](https://images.gitee.com/uploads/images/2022/
install --index-url https://pypi.douban.com/simple pyecharts ``` 评分词云图 ``` from pyecharts.charts import Page, WordCloud import pandas
希望能参考.现在搜索大部分是java的,神烦这些玩意,要装一堆东西.好用且简单的,只有sphinx,但实时搜索支持差且需要自己做分词.你有希望替代它. :smiley:
html,输出处理(分层,前/后处理)过的数据集; **要求** :按照设计的数据格式(待更新),基于MindSpore/MindData完成分词等数据处理; **交付件** : 1. 整理过的原始数据集; 2. 数据处理实现的代码; | 数据集类别 | 原始数据地址 |
网上能搜到的大部分文章都是过期和不正确的,用的是很老版本的 Sphinx + Coreseek 插件。 老版本的 Sphinx 不支持中文分词,于是有国人做了一个插件来支持,这个方案主要问题在于,coreseek 已经凉了很久了 某份fork的最后更新是 7 years
html ),我看到文档中说是可以直接通过dict构建的,想问这个类可以直接通过原始数据来构建吗? 我现在的数据集是中文,我分词后找中文预训练好的词向量(如 https://github.com/Embedding/Chinese-Word-Vecto
Steps to reproduce the issue 1. 当前针对txt文本处理算子,还不够丰富(如你是否发现某一种常用的分词操作当前是不支持的) 2. 请分析常用的txt算子,但当前mindsore却不支持,欢迎评论讨论后,基于py_transfo
![输入图片说明](https://images.gitee.com/uploads/images/2021/0827/160234_cf98e73d_1549029.png "屏幕截图.png")

推荐博客

...