面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集
5月29日,面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集:Ultra-FineWeb-L3与UltraData-SFT-2605。其中,Ultra-FineWeb-L3包含高质量中文+英文网页合成数据,总量突破600BTokens,中文占据200B+Tokens,是目前开源规模最大的中文预训练合成数据集;UltraData-SFT-2605是 国内首次开源的千万级、同时包含深思考与非思考标注的SFT数据集。MiniCPM5-1B的训练过程,是UltraData分级治理体系的一次完整实践,此次上新的两大数据集Ultra-FineWeb-L3与UltraData-SFT-2605均已在MiniCPM5-1B的训练流程中得到完全验证,覆盖从预训练退火到后训练SFT的全链路。(澎湃新闻记者 范佳来)
发布于:上海
相关推荐
知乎发布最新智能应用“搜索聚合”,面壁智能开源大模型CPM-Bee 10b
98年“AI天才”、面壁智能CTO曾国洋:我像在创造一个新的智能生命体
中国AI开源16强,最新出炉
知名开源操作系统两大老板闹翻,一位联合创始人被迫退出,道一声:再见
DeepSeek R2来了?联合清华大学发布推理时Scaling突破性论文
「中国开源原生商业社区」将在GOTC 2021启动,共创中国开源原生商业生态圈
重磅开源!全球首个开源大规模混合架构的推理模型MiniMax-M1发布
开源工具开发者:AWS不再中立,给开源社区带来存亡威胁
国产大模型新年动作频频:智谱联手华为开源新模型,MiniMax开源评测集
傅利叶开源全尺寸人形机器人数据集,发布全球首个全流程工具链
网址: 面壁智能联合清华大学、OpenBMB开源社区联合发布并开源两大最新数据集 https://www.xishuta.cn/newsview150000.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
