追本溯源:ChatGPT为何在美问世-赫万佳博士

2023-08-22

      从AI技术发展路径看,ChatGPT并非新技术成果。在理论上,ChatGPT没有更多创建——核心技术在2017年就已出现。

      这次为很么能大火?“因为面向公众开放。”未来智能CEO马啸认为,“原先ChatGPT做的是企业级服务,或面向大型开发者,这次对公众开放后掀起狂潮。”

      ChatGPT问世后横扫全球,在短期内(2个月)即积累了1亿用户,成为全球迄今为止达成1亿用户最快的技术应用工具。说这是工具,但究竟什么是ChatGPT?

      简单说,ChatGPT是用Problem Models(问题模型)加上1750亿个参数/节点,以之为基础提供巨量、有监督的学习数据,借助Transformer架构,“投喂”给AI训练模型,做出的AI应用效果。

      这么解释或许过于抽象,那就换种说法。

      顾名思义,ChatGPT中的“Chat”是“聊天”的意思,GPT是什么?这是OpenAI公司的一个AI技术名词。民生证券电子行业分析师方竞在研报中写道:ChatGPT是基于OpenAI GPT技术的聊天机器人,拥有3000亿单词的语料基础,预训练出拥有1750亿个参数的模型。

       由于GPT的技术核心Transformer神经网络架构在2017年就实现了开源——这个架构由谷歌创建,其革命性在于能让AI“听懂人话”——因此,中国AI领域对此也不陌生。

      但是,中国在技术领域一向有着秉持实用主义的“优秀”传统,不愿为看不见或不明确的未来持续投入资本。因此,没有人像OpenAI那样,持续保持大投入,通过Transformer架构做AI技术开发。

     “大模型要烧很多钱,因为要大规模做算力分布式节点投入。”马啸说,“所以2017年以来,国内都在观望。”

       从现实的角度看,国内不敢投入,也确实因为基于Transformer架构的AI技术开发成本难以承受。

       自2017年,Transformer神经网络架构问世,AI即进入大模型阶段。这什么意思?大模型有三要素,即算力、算法和数据。这三要素的相互关系是,算力的强弱,决定算法的效率,而算法又决定数据的有效性;反过来,数据是训练算法的要件,能决定AI学到的知识量。

      在业界,能提供高效AI训练的载体是英伟达的A100和H100等AI专用显卡。这种专用显卡与普通消费级显卡的区别在于,后者通常会将部分算力让渡于光追等功能,而前者的特点是从硬件设计到软件配套,都为all in AI服务。

      如此很明显,GPT的训练效果优劣,与投入的显卡数量有关——巨额成本即源于此。

      这成本多高呢?据说有机构做了测算,训练一个GPT-3,需要至少1024张A100显卡持续运转30天,而A100显卡最便宜的版本,价格也高达8769美元。也就是说,为AI训练做最基础的核心硬件准备,就得投入880万美元。

      除了最基础的高额硬件投入,ChatGPT训练所耗费的成本才是不可承受之重。训练一次,需要1000万美元,要训练出一个GPT-3,以每天训练10次,持续30天计算,需要投入30亿美元。

     这就是为什么国内对开发基于Transformer架构的GPT技术缺乏探索热情的原因。

      因为,成本太高!

      现在,美国OpenAI用实力证明GPT技术应用的有效性。国内闻风而动。但是,出于同样的原因——实用主义——国内对新技术全部热情的考量源自“这种技术能不能创造出确定的应用商业价值”。

       现在,ChatGPT刚刚问世,还没出现能大规模落地的商业模式。此时,中国技术公司行动的时刻到了。

       就像在顶层话语体系中,相对于传统的西方式现代化,有中国式现代化一样(类似的还有相对于美国梦的中国梦),国内也会出现中国式ChatGPT,顶层已有此方面的明确指向。

       在马啸看来,中国式ChatGPT,可能的演进路径是数家像百度、腾讯或阿里那样的大厂负责平台搭建,之后在此平台上,必然会有“大量基于垂直领域的微调模型,在(中国式)ChatGPT上做垂直领域服务”。

       这是互联网和移动互联网技术和商业模式发展的历史路径,也很可能是ChatGPT在中国发展的未来方向。

       一旦国内ChatGPT开放API接口,这些做垂直领域小模型技术开发或服务的公司,就能随之接入平台,为之提供垂直细分场景的训练数据和成果,共同为中国式ChatGPT平台的商业繁荣添砖加瓦。