仓库 Issues 博客
排序: 最近发布
数据Skywork-150B数据进行开源,该数据集对中文网页进行精心清洗和过滤,大约包含1500亿中文字符,硬盘大小约为600G,是目前最大的开源中文数据集。无论从质量上还是数量上都远高于之前最大中文数据集WuDao-Data。最坦诚的technical
HuggingFace 3 0 发布于 2023-11-16
作者:张祖前 Databend Labs 成员,数据库研发工程师 https://github.com/zhyass ❤️ 友情提示:代码演进较快,请注意文档的时效性哦! 引言 Databend 将存储引擎抽象成一个名为 Table 的接口,源码位于
Databend 0 0 发布于 2023-11-16
Skypile-150B数据集 该数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总的token数量约为150B,目前开源最大的中文数据集之一。 除此之外,我们还公开了在训练Skywork-13B模型
哈哈欧尼OSC 1 0 发布于 2023-11-07
基于DFA模型的多关键字查找 hutool-extra 扩展模块,对第三方封装(模板引擎、邮件、Servlet、二维码、Emoji、FTP、分词等) hutool-http 基于HttpUrlConnection的Http客户端封装 hutool-log 自动识别日志实现的日志门面
京东云开发者 2 0 发布于 2023-10-27
的好处就是Megatron-LM的升级不会影响用户的LLM最佳实践体验。 Pai-Megatron-Patch中包含模型库,分词器,模型转换,强化学习,离线文本生成以及使用示例和工具集等用于构建LLM训练的关键要素。在模型库中包含热门大模型的Megat
阿里云云栖号 4 0 发布于 2023-10-07
9、typesense:一款快如闪电的开源搜索引擎。该项目是用 C++ 编写的即时搜索引擎,具有开箱即用、搜索速度快、自动更正拼写错误、地理搜索、默认分词器支持中文等特点。 CSS 项目 10、pokemon-cards-css:炫酷的神奇宝贝卡牌 CSS 效果。该项目是口袋怪兽卡高级
削微寒 1 0 发布于 2023-09-28
开源生态——构想和未来 在PAI-Megatron-Patch的开发过程中,我们围绕中文大模型训练加速落地沉淀了以下几个方面的内容: 在PAI-Megatron-Patch的开发过程中,我们围绕中文大模型训练加速落地沉淀了以下几个方面的内容: Huggingface的
基于DFA模型的多关键字查找 hutool-extra 扩展模块,对第三方封装(模板引擎、邮件、Servlet、二维码、Emoji、FTP、分词等) hutool-http 基于HttpUrlConnection的Http客户端封装 hutool-log 自动识别日志实现的日志门面
京东云开发者 4 0 发布于 2023-08-11
模型,并重构 pipeline。 整个重构后 pipeline 如下图所示,Prompt 提示会送入 Tokenizer 进行分词和词向量编码,然后有 OpenVINO™ 推理获得结果(蓝色部分),来到后处理部分,我们会把推理结果进行进一步的采样和解码,
OpenVINO中文社区 0 0 发布于 2023-08-02
简要概述。当然,还有其他许多重要的方面,比如不同比例数据集的混合、分词(tokenization)等。鉴于CC数据集一般来说就是LLM训练领域中最大的数据集,因此我决定着重介绍在进行分词之前与该特定数据集直接相关的数据处理处理流程。 在数据预处理流程中
Baihai_IDP 1 0 发布于 2023-07-25
代码生成阶段——我们已经弄清楚每一条句子的语法结构并知道如何写出语法正确的英文句子,通过这个基本结构我们可以把英文句子完美地转换成一个中文句子。 3 AST 的基本结构 抛开具体的编译器和编程语言,在 “AST 的世界”里所有的一切都是节点 (Node),不同类
京东云开发者 6 0 发布于 2023-07-21

推荐博客

...