环球热资讯！国盛证券刘高畅：中文数据欠缺算力消耗显著

(相关资料图)

国盛证券刘高畅在节目中表示，数据方面，高质量的中文语料库相对稀缺，会有一些误差率的问题；算力方面，训练端对算力的要求不是很极限，但应用端对算力的消耗非常显著。

以下为文字精华：

提问：除了算法，人工智能训练的时候也需要很大的算力，包括海量的数据，特别是我们中国跟海外的数据源可能还存在一些割裂。在算力和数据方面，我们和海外有多少差距？

刘高畅：数据方面，在GPT3以前用的都是互联网的公开数据，中文目前来看，客观的条件就是高质量的语料库相对来讲会稀缺一些。

在整个OpenAI的大模型中，我们了解到中文的语料库使用只有5%，从误差率的角度来讲，英文可能在2%—3%，中文大概在10%以上。用中文去测试ChatGPT，效果也不如英文。但是，我们也看到国内的高质量语料库在快速生成中，大家也在探索，包括知乎和万方这样的一些高质量语料库在形成。

大模型的数据还是以互联网公开数据为主，可能在写代码这个阶段，一些顶尖大厂比如微软，代码的水平会比较高，但是毕竟这一块只是小部分，我们推测起不了决定性的作用，应该不是特别大的瓶颈。OpenAI在去年GPT3.5的时候，大概用了45TB的数据，做模型数据集处理和倾斜的部分应该是不超过1TB的，所以其实是很少的数据，这一点不用特别担心。

算力方面，如果从训练端的角度来看，如果在GPT3以前，用2000张英伟达A100的算力，如果你训不出来成果，我们建议就不要去做了，说明这个团队水平有点问题。如果在GPT3.5以前，5000张如果训不出来，我们建议也不要再做训练了，说明这个团队多多少少有点问题。

我们认为在训练阶段，对算力的需求量没有那么极限，国内明面上和潜在的产业中的储备我们认为是够的。

应用端来看，做模型蒸馏和模型裁剪，把算力的消耗做到以前的90%，已经是很高的缩减度了。但是就这样的情况来看，算力还是会捉襟见肘，对未来算力的消耗还会非常显著，包括我们国家的一些晶圆代工和设计厂商，这也是他们需要努力的地方，其实是机遇也是挑战。

关键词：

责任编辑：Rex_27

环球热资讯！国盛证券刘高畅：中文数据欠缺算力消耗显著

环球热资讯！国盛证券刘高畅：中文数据欠缺算力消耗显著

一季度民企贷款新增3.7万亿元

天天快播：无大碍！哈姆透露浓眉哥伤病：右髋部受伤但他几乎能做任何事

环球头条：“与大理美景撞个满怀！”

当前焦点!汽车电瓶使用寿命多长时间_汽车电瓶使用寿命

加入“铁门”第一步：从抢注UID开始

环球热资讯！kb2919355无法安装_kb2919355

视焦点讯！星际穿越迅雷下载蓝光_星际穿越迅雷下载地址

GGII：2023Q1中国储能电池出货量为42GWh 大储增长趋势仍在

全球今日报丨如何识别花园害虫蠕虫

天天关注：河北武邑万亩高油酸花生播种机械化助农增收

环球微头条丨欧盟认定19家公司受《数字服务法案》管辖

【环时深度】“安全神话”褪色，日本哪来那么多戾气？

全球讯息：1-2！客场不敌巴列卡诺，莱万破门无功，巴萨输球依然11分领跑

环球热文：有效教学是什么意思_什么是有效学习有效教学高效课堂

天天快消息！消费者订“五一”期间民宿遭砍单，山东长岛：严罚商家

世界热推荐：暗影恶魔_对于暗影恶魔简单介绍

世界最新：为什么天生喜欢作死的人，没有被自然法则淘汰掉？

世界微动态丨动视暴雪跌近10% 英国阻止微软收购动视暴雪的交易

全球今日报丨碧水源：东腾投资投资者于4月25日调研我司

环球热资讯！国盛证券刘高畅：中文数据欠缺 算力消耗显著

环球热资讯！国盛证券刘高畅：中文数据欠缺算力消耗显著