国内多数AI模型训练使用的中文数据占比已超60%
时间:2025-08-23 12:46:54来源:新华网


(资料图片仅供参考)

中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。

“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。

人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。

下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。

标签:

最新
  • 国内多数AI模型训练使用的中文数据占比已超60%

    中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数

  • 追光 | 欧洲五大联赛战火重燃!新赛季看点啥?_时快讯

    漫长夏季休赛期过后欧洲五大联赛终于陆续重启!英超、西甲、法甲已

  • 8月18日央行开展2665亿元7天期逆回购操作

    据央行网站消息,2025年8月18日中国人民银行以固定利率、数量招标方

  • 视焦点讯!从世界冠军到全国“新时代好少年”,济南历城二中女足逐梦绿茵

    近日,在山东省济南市历城第二中学,校园里假期的静谧,被阵阵呐喊

  • 热文:人民日报刊文评陈佩斯喜剧艺术:一位喜剧人的艺术探索和理论自觉

    电影《戏台》海报。资料图片近日,陈佩斯导演的电影《戏台》登上大

  • 今日聚焦!业内热议 人工智能如何加速落地

    今年以来,人工智能产业迎来新一轮变革,大模型能力的突破式迭代和

  • 微头条丨2025第四届中国(赣州)永磁电机产业创新发展大会在江西赣县区举行

    7月12日,2025第四届中国(赣州)永磁电机产业创新发展大会在江西省赣

  • 宁波舟山国际航运中心列全球第七 大港谋变再造新推力-快讯

    2025新华·波罗的海国际航运中心发展指数日前发布。宁波舟山国际航

  • 广西河池凤山县发生4.1级地震 目前无人员伤亡报告

    广西壮族自治区地震局2日23时许通报,北京时间2025年6月2日21时20分

  • 多地地铁部门叫停扶梯“左行右立”

    北京部分地铁扶梯上出现小脚印,提醒乘客可并排站立;上海地铁在扶

  • 上海市中心大宁公园音乐喷泉焕新回归 “科技硬件”与“文化软件”完美融合

    端午至,暑意浓。记者31日看到,全新升级的大宁公园音乐喷泉回归:

  • 拓展经贸合作 日本大阪世博会中国馆河北活动周开幕

    中国国际贸易促进委员会河北省委员会26日消息,以京畿福地,美丽河

  • 世界女排联赛香港站6月18日“开战”

    记者4日获悉,由中国香港排球总会主办、中国人寿保险(海外)股份有限

  • 地板阴角线要怎么处理?地坪漆不亮怎么处理?

    地板阴角线要怎么处理?常用的阴角线材料有石膏、木质、PVC等,想处

  • 韩文秀:中国宏观政策还有较大的逆周期调节空间

    我们的宏观政策还有较大的逆周期调节空间。在23日至24日于北京举办

  • 海南离岛免税购物累计金额突破2500亿元

    海口海关19日发布统计数据,自2011年4月至2025年3月16日,海口海关

  • 旅游
    • ​西平县蔡寨回族乡开展“孝行天下满人间”重阳节主题活动_世界速读

    • 世界新资讯:前三季度银行业被罚11.81亿元,释放什么信号

    • 世界新资讯:何立峰同英国财政大臣里夫斯通电话

    • 全球今头条!自动驾驶:怕不来又怕乱来