首页 >国内 >

环球热资讯!国盛证券刘高畅:中文数据欠缺 算力消耗显著


(相关资料图)

国盛证券刘高畅在节目中表示,数据方面,高质量的中文语料库相对稀缺,会有一些误差率的问题;算力方面,训练端对算力的要求不是很极限,但应用端对算力的消耗非常显著。

以下为文字精华:

提问:除了算法,人工智能训练的时候也需要很大的算力,包括海量的数据,特别是我们中国跟海外的数据源可能还存在一些割裂。在算力和数据方面,我们和海外有多少差距?

刘高畅:数据方面,在GPT3以前用的都是互联网的公开数据,中文目前来看,客观的条件就是高质量的语料库相对来讲会稀缺一些。

在整个OpenAI的大模型中,我们了解到中文的语料库使用只有5%,从误差率的角度来讲,英文可能在2%—3%,中文大概在10%以上。用中文去测试ChatGPT,效果也不如英文。但是,我们也看到国内的高质量语料库在快速生成中,大家也在探索,包括知乎和万方这样的一些高质量语料库在形成。

大模型的数据还是以互联网公开数据为主,可能在写代码这个阶段,一些顶尖大厂比如微软,代码的水平会比较高,但是毕竟这一块只是小部分,我们推测起不了决定性的作用,应该不是特别大的瓶颈。OpenAI在去年GPT3.5的时候,大概用了45TB的数据,做模型数据集处理和倾斜的部分应该是不超过1TB的,所以其实是很少的数据,这一点不用特别担心。

算力方面,如果从训练端的角度来看,如果在GPT3以前,用2000张英伟达A100的算力,如果你训不出来成果,我们建议就不要去做了,说明这个团队水平有点问题。如果在GPT3.5以前,5000张如果训不出来,我们建议也不要再做训练了,说明这个团队多多少少有点问题。

我们认为在训练阶段,对算力的需求量没有那么极限,国内明面上和潜在的产业中的储备我们认为是够的。

应用端来看,做模型蒸馏和模型裁剪,把算力的消耗做到以前的90%,已经是很高的缩减度了。但是就这样的情况来看,算力还是会捉襟见肘,对未来算力的消耗还会非常显著,包括我们国家的一些晶圆代工和设计厂商,这也是他们需要努力的地方,其实是机遇也是挑战。

关键词:

责任编辑:Rex_27