科学成果 - 微美全息科学院

追本溯源：ChatGPT为何在美问世-赫万佳博士

2023-08-22

从AI技术发展路径看，ChatGPT并非新技术成果。在理论上，ChatGPT没有更多创建——核心技术在2017年就已出现。

这次为很么能大火？“因为面向公众开放。”未来智能CEO马啸认为，“原先ChatGPT做的是企业级服务，或面向大型开发者，这次对公众开放后掀起狂潮。”

ChatGPT问世后横扫全球，在短期内（2个月）即积累了1亿用户，成为全球迄今为止达成1亿用户最快的技术应用工具。说这是工具，但究竟什么是ChatGPT？

简单说，ChatGPT是用Problem Models（问题模型）加上1750亿个参数/节点，以之为基础提供巨量、有监督的学习数据，借助Transformer架构，“投喂”给AI训练模型，做出的AI应用效果。

这么解释或许过于抽象，那就换种说法。

顾名思义，ChatGPT中的“Chat”是“聊天”的意思，GPT是什么？这是OpenAI公司的一个AI技术名词。民生证券电子行业分析师方竞在研报中写道：ChatGPT是基于OpenAI GPT技术的聊天机器人，拥有3000亿单词的语料基础，预训练出拥有1750亿个参数的模型。

由于GPT的技术核心Transformer神经网络架构在2017年就实现了开源——这个架构由谷歌创建，其革命性在于能让AI“听懂人话”——因此，中国AI领域对此也不陌生。

但是，中国在技术领域一向有着秉持实用主义的“优秀”传统，不愿为看不见或不明确的未来持续投入资本。因此，没有人像OpenAI那样，持续保持大投入，通过Transformer架构做AI技术开发。

“大模型要烧很多钱，因为要大规模做算力分布式节点投入。”马啸说，“所以2017年以来，国内都在观望。”

从现实的角度看，国内不敢投入，也确实因为基于Transformer架构的AI技术开发成本难以承受。

自2017年，Transformer神经网络架构问世，AI即进入大模型阶段。这什么意思？大模型有三要素，即算力、算法和数据。这三要素的相互关系是，算力的强弱，决定算法的效率，而算法又决定数据的有效性；反过来，数据是训练算法的要件，能决定AI学到的知识量。

在业界，能提供高效AI训练的载体是英伟达的A100和H100等AI专用显卡。这种专用显卡与普通消费级显卡的区别在于，后者通常会将部分算力让渡于光追等功能，而前者的特点是从硬件设计到软件配套，都为all in AI服务。

如此很明显，GPT的训练效果优劣，与投入的显卡数量有关——巨额成本即源于此。

这成本多高呢？据说有机构做了测算，训练一个GPT-3，需要至少1024张A100显卡持续运转30天，而A100显卡最便宜的版本，价格也高达8769美元。也就是说，为AI训练做最基础的核心硬件准备，就得投入880万美元。

除了最基础的高额硬件投入，ChatGPT训练所耗费的成本才是不可承受之重。训练一次，需要1000万美元，要训练出一个GPT-3，以每天训练10次，持续30天计算，需要投入30亿美元。

这就是为什么国内对开发基于Transformer架构的GPT技术缺乏探索热情的原因。

因为，成本太高！

现在，美国OpenAI用实力证明GPT技术应用的有效性。国内闻风而动。但是，出于同样的原因——实用主义——国内对新技术全部热情的考量源自“这种技术能不能创造出确定的应用商业价值”。

现在，ChatGPT刚刚问世，还没出现能大规模落地的商业模式。此时，中国技术公司行动的时刻到了。

就像在顶层话语体系中，相对于传统的西方式现代化，有中国式现代化一样（类似的还有相对于美国梦的中国梦），国内也会出现中国式ChatGPT，顶层已有此方面的明确指向。

在马啸看来，中国式ChatGPT，可能的演进路径是数家像百度、腾讯或阿里那样的大厂负责平台搭建，之后在此平台上，必然会有“大量基于垂直领域的微调模型，在（中国式）ChatGPT上做垂直领域服务”。

这是互联网和移动互联网技术和商业模式发展的历史路径，也很可能是ChatGPT在中国发展的未来方向。

一旦国内ChatGPT开放API接口，这些做垂直领域小模型技术开发或服务的公司，就能随之接入平台，为之提供垂直细分场景的训练数据和成果，共同为中国式ChatGPT平台的商业繁荣添砖加瓦。