仓库 Issues 博客
排序: 最佳匹配
这些问题直接影响了搜索的体验,让我十分苦恼一边看搜索相关的知识,另外也在寻找新的开源解决方案。想找一个: 部署+配置简单、支持中文分词、搜索速度快、轻量级开源搜索引擎项目。 俗称:傻瓜中文搜索引擎。 它有个美丽的名字 它有个“美丽”(meili)的名字「MeiliSearch」,同样是用
削微寒 6 0 发布于 2021-08-13
由于XBlog的数据分类检索都是使用ElasticSearch的功能,安装ElasticSearch可以查看以下文章,需要安装中文分词插件IK https://www.ikende.com/blog/87.html 安装完成后只需要在系统管理后台设置一下即
泥水佬 10 0 发布于 2018-12-28
需要用空格进行分开,这种情况可以使用分词语言模型。比如计算“end to end asr”的概率可以写成:其中语言模型阶数为4,当使用分词语言模型时,每个条件概率中包含4个词。在ctc_decoder解码器中,分词语言模型并不会在每一帧都做语言模型打分
58技术 0 0 发布于 2023-06-21
com/aistudio/competition/detail/55 1.1 中文分词 中文必须面对的一个问题就是如何实现分词。在公开的开放域对话数据集中,大多数已经做了分词,然而真实场景中语句是不可能时时刻刻都被分词了的。在Knover的源码中,对输入的处理是通过了sen
飞桨PaddlePaddle 3 1 发布于 2020-11-13
均被搜索出来了! 当然这里用的是standard分词方式,将每个中文都作为了一个term,凡是包含“南”、“京”关键字的记录都被搜索了出来,只是评分不同而已,当然还有其他的一些分词方式,此时需要其他分词插件的支持,此处暂不涉及,后文中再做探索。
CodeSheep 147 14 发布于 2018-01-09
10%。使用 0.1 的权重衰减和1.0的梯度裁剪。下图显示了使用这些超参数的 Llama 2 的训练损失。分词器Llama 2使用与 Llama 1 相同的分词器;它采用字节对编码(BPE)算法,使用 SentencePiece 实现。与Llama 1 一样,
HuggingFace 0 0 发布于 2023-07-20
,从而进一步提高了对中文基本语义理解的能力。同时,中文 Alpaca 模型还进一步利用中文指令数据进行微调,明显提高了模型对指令理解和执行的能力。 鹏程 盘古 中文预训练语言模型 「鹏程 盘古 」是业界首个 2000 亿参数以中文为核心的预训练生成语言模型,目前开源了两个版本:鹏程
OSCHINA编辑部 64 2 发布于 2023-05-09
高效;在中文古诗词、文言文发音上,通过 ssml 技术将词典笔海量权威发音词典资源应用到 TTS 发音中;模型实验:在模型实验阶段,前端包含有多音字、韵律预测、分词、词性预测等这些任务, 通过构建bert多任务模型,联合预测多音字、韵律、分词、词性任务
有道技术团队 1 0 发布于 2021-12-16
理库FastTokenizer(视觉领域集成了高性能AI处理库FlyCV),能够对分词阶段进行加速,适配GPU、CPU等多硬件。例如在麒麟985芯片上测试,单条文本的分词时延低于0.1毫秒。 在端到端部署方面,FastDeploy在Android端目前
飞桨PaddlePaddle 0 0 发布于 2023-02-14
基于DFA模型的多关键字查找 hutool-extra 扩展模块,对第三方封装(模板引擎、邮件、Servlet、二维码、Emoji、FTP、分词等) hutool-http 基于HttpUrlConnection的Http客户端封装 hutool-log 自动识别日志实现的日志门面
京东云开发者 2 0 发布于 2023-10-27
用户信息与评论信息的运用主要在 BI 部分体现,建模部分主要依靠评论语料数据。我们需要根据评论语言采取合适的清理、分词和建模方法。首先,我们从数据库中调取数据,通过以下代码可以实现。 中文评论数据: df = pd.read_sql('SELECT * FROM 上海_上海_外滩_source_review
OpenPie 0 0 发布于 2023-03-22

推荐博客

...