仓库 Issues 博客
排序: 最佳匹配
由于是有权图,PageRank公式略做修改: 实现TextRank 因为要用测试多种情况,所以自己实现了一个基于Python 2.7的TextRank针对中文文本的库TextRank4ZH。位于: https://github.com/someus/TextRank4ZH 下面是一个例子:
letiantian 155 28 发布于 2014-12-01
es/clip_retrieval 中文示例 # 中文训练,执行如下脚本时所需的数据文件会自动下载 sh run_clip_local.sh 0 train_cn #其中0代表所要使用的显卡编号 # 我们提供两种中文权重 # alibaba-pai/c
KBERT模型。 中文预训练语言模型概览 在这一节中,我们首先简要回顾经典的中文预训练语言模型。目前中文预训练语言模型主要包括了两种类型: 通用领域的预训练语言模型,主要包括了BERT、MacBERT和PERT等模型; 知识增强的中文预训练模型,主要包
eHub的模型库中选择了来源于PaddleSpeech的效果较好的中文语音识别模型u2_conformer_wenetspeech和来源于PaddleNLP的百度自研的基于十亿级别的中文对话数据plato-mini。 接下来,我们要把回应的内容变成拥有
飞桨PaddlePaddle 1 0 发布于 2021-12-22
首先先简要介绍一下gbk(gb2312编码)。 GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准,包含所有的中文字符。一个中文需要3个字节,最高位为1,所以第一个字节大于0x80. 此外字符编码还有utf-8。gbk和utf-8之间可以通过Un
jungleliu0923 7 0 发布于 2014-02-11
简要概述。当然,还有其他许多重要的方面,比如不同比例数据集的混合、分词(tokenization)等。鉴于CC数据集一般来说就是LLM训练领域中最大的数据集,因此我决定着重介绍在进行分词之前与该特定数据集直接相关的数据处理处理流程。 在数据预处理流程中
Baihai_IDP 1 0 发布于 2023-07-25
9、typesense:一款快如闪电的开源搜索引擎。该项目是用 C++ 编写的即时搜索引擎,具有开箱即用、搜索速度快、自动更正拼写错误、地理搜索、默认分词器支持中文等特点。 CSS 项目 10、pokemon-cards-css:炫酷的神奇宝贝卡牌 CSS 效果。该项目是口袋怪兽卡高级
削微寒 1 0 发布于 2023-09-28
PaddleNLP目前提供多种中英文GPT预训练模型,我们这次用的是一个小的中文GPT预训练模型。 from paddlenlp.transformers import GPTLMHeadModel# 一键加载中文GPT模型model = GPTLMHeadModel.f
多任务地址预训练模型底座示意图 多任务向量召回模型基于上述底座训练所得,包含双塔相似度、Geohash (地址编码) 预测、分词和 Term Weighting (词权重) 四个任务。 多任务向量召回模型示意图 作为计算地址相似度匹配的核心模块,精排模
测能力——Taskflow。 本次Taskflow升级覆盖自然语言理解(NLU)和生成(NLG)两大场景共八大任务,包括中文分词、词性标注、命名实体识别、句法分析、文本纠错、情感分析、生成式问答和智能写诗。 这些高质量模型的背后,一方面聚合了百度在语言
。 为了解决以上问题,在进行实体字典匹配前引入了CRF分词模型,针对垂直领域美团搜索制定分词准则,人工标注训练语料并训练CRF分词模型。同时,针对模型分词错误问题,设计两阶段修复方式: 结合模型分词Term和基于领域字典匹配Term,根据动态规划求解Term序列权重和的最优解。

推荐博客

...