萨特斯基弗(左)与老师杰夫·辛顿(右)可就在马斯克与阿尔特曼准备召开新闻发布会时,小萨却反悔了。
为了留住小萨,Google 先给小萨的薪资翻了一番,数字是 OpenAI 的两到三倍,但对方不为所动。随后,Google 采取了另一条策略:加更多的钱。
此时的 OpenAI 急得像热锅上的蚂蚁,但考虑到自身囊中羞涩,只能天天发短信求小萨谈理想。直到阿尔特曼召开新闻发布会的那一天,小萨才决定加入 OpenAI,从 Google 的心腹变成了心腹大患。
小萨的决定其实出于一个有些难以启齿的「理想」:他想实现 AGI(通用人工智能)。
所谓 AGI,即「超级智能」,接近科幻电影中万能的人工智能;与之形成对比的是人脸识别、翻译、下围棋等只能完成单一任务的人工智能。
即便 2012 年,杰夫·辛顿和小萨的论文让 AGI 的可行性跨出了一大步,但以当代的科研基础,谈论 AGI,依旧就像谈论如何长生不老一样民科。
科学家 all in AGI,赌赢,可以在教科书里与比肩牛顿;赌输,成为美版知乎 Quaro 的民科代表。
但企业 all in AGI,大概只有一个结局——成为先烈。庞大的资本支出,让无论是相信「专家算法」的 IBM,还是「深度学习」神教的 Google、百度,无论信奉何种 AI 路线,巨头们的一切 AI 研究,都为产业化服务。
愿意成为这个冤大头的,只有 OpenAI 一家。
阿尔特曼将 OpenAI 打造成了一个象牙塔:在实验室成立的前 15 个月,OpenAI 都没一个明确的研究目标。平日里,马斯克便带着这群梦想家一起脑暴,探讨 AGI 将如何实现。
2016 年 5 月,时任 Google 首席 AI 研究员曾参观过 OpenAI,对其工作方式相当困惑。他询问 OpenAI 的目标是什么,没想到难倒了 OpenAI,「我们现在的目标,就是....做点好事[3]。」
然而在数月之后,这位研究员却毅然辞职加入了 OpenAI——一起做点好事。
毕竟在当时的硅谷,「放肆做梦」是个极其稀缺的特质。哪怕是 AGI 曾经的布道者 DeepMind,在被 Google 收购后也更实际了些。产业界与学术界的差异,促使了大批科学家的「叛逃」:
从 2017 年开始,吴恩达、李飞飞等著名 AI 学者先后回归大学校园。
此般大环境下,高举理想主义大旗的 OpenAI,成功抄到了历史的大底,拉拢了不少顶尖人才。
2017 年 3 月,随着团队越来越庞大,阿尔特曼决定给 OpenAI 设立一个更具体的目标,这时,等待他们的是一个好消息与一个坏消息。
接盘:读作理想,写作美元
2017 年是 OpenAI 命运的分水岭。
好消息是,Google 帮 OpenAI 解决了没有具体目标的困扰。2017 年,Google 在一篇论文中开源了「Transformer 神经网络架构」。它的革命性在于可以让 AI「听懂人话」,而这很可能会是通往 AGI 的关键钥匙。
一直在做好事的 OpenAI,瞬间有了攻坚的方向。
一篇改变了世界线的论文坏消息则是,没钱攻坚了。
一个热知识是,如果没一个出手阔绰的靠山,根本没资格搞 AI。光算力——也就是芯片的开销,就是一笔巨额成本。从 2012 年的 AlexNet 模型到 2017 年的 AlphaGoZero,算力消耗足足翻了 30 万倍。同期英伟达股价翻了整整 15 倍,黄仁勋做梦笑醒好几回。
早些年,一大批科学家纷纷跳槽去硅谷巨头,就是为了找靠山。2010 年,还在斯坦福的吴恩达研究出一套新算法,却发现大学的算力条件远远不够。他从美国东海岸找到西海岸,发现只有 Google 符合条件。
2017 年,Transformer 横空出世后,AI 进入大模型阶段。所谓大模型,背后支撑的是大算力、大数据以及大算法,而这也意味着烧大钱。
以 OpenAI 的 GPT-3 模型为例,有机构做过测算,发现训练一个 GPT-3,需要至少 1024 张 A100 显卡持续运转足足一个月[7]。而 A100 显卡最便宜的版本也要 8769 美元。
也就是说,什么还没算,就先给英伟达交了 900 万美元入场费,这还没算搭建机房的成本和后续源源不断的电费。
如今,ChatGPT 训练一次的成本高达1千万美元,这是一般企业无法承受的。小冰公司 CEO 李笛算过一笔账:「如果按照 ChatGPT 成本来考量的话,每天我要烧 3 亿人民币,一年要烧一千多亿。」
回到 2017 年,仍是非盈利机构的 OpenAI,根本无力负担这些费用。原本的大靠山马斯克也在 2018 年初宣布辞职,原因是避免与特斯拉 AI 业务有所冲突。
风雨飘摇之际,阿尔特曼悄悄修改了 OpenAI「非盈利」的使命,开始给 OpenAI 另谋靠山。
此时,既无科研成果,又无大牛坐镇的微软,进入了阿尔特曼的视野。
作为美国高科技领域老牌列强,微软在 AI 上的决心不可谓不强,但长期被 Google 的 DeepMind 来回摩擦。
2019 年,恨铁不成钢的微软遇见人才济济的 OpenAI。当时,比尔·盖茨本人并不相信 OpenAI 岢晒Α蹲侍概兄校苤卑椎囟云浞⒄孤废弑泶锪吮郏衔� Transformer 这类大语言模型在过去五年都没什么进展,没人知道它会有什么价值。
但话虽如此,微软还是爽快的掏出了 10 亿美元。

图片阿尔特曼与微软 CEO 纳德拉
这次接盘,很可能会成为微软历史上最成功的一笔抄底。
2022 年 12 月,OpenAI 沿着 Transformer 路线开发出了最新款 AI,名为 ChatGPT。2 个月后,ChatGPT 的全球月活突破了 1 亿。
这回,该轮到 Google 睡不着觉了。
突围:难以复刻的奢侈品
ChatGPT 最近登上了热搜榜,引起了公众的关注,人们常常会问:为什么这种技术又是在美国诞生的呢?
事实上,复制一个 ChatGPT 并不是一件难事。ChatGPT 本质上是建立在 GPT-3 模型的基础之上,通过「对话」这一场景,搭建了一个普通用户也能使用的 AI 应用。两者之间的技术进步并不算很大。
如果翻阅前两年的新闻,我们会发现在 GPT-3 时代,中国公司已经开始效仿。因此,并不需要对各种中国版 ChatGPT 进行冷嘲热讽。在纯技术层面,中国企业的落后程度并不是很大。
我们再回到大模型发展的三个要素:算法、算力和数据。
算法是决定人工智能(AI)学习能力的关键,它类似于人类大脑的作用。
业内主流观点认为,尽管中国企业没有率先开发出Transformer和GPT-3,但它们在大型模型方面的技术水平距离ChatGPT的差距通常只有半年到两年的时间。
例如,在GPT-3发布后,百度、腾讯、阿里等企业迅速跟进,推出了类似于一言、M6和混元等数万亿参数级别的大型模型。
算力是一种决定算法运行效率的资源。
AI训练高度依赖于英伟达A100、H100等专用显卡。普通的消费级显卡通常会将一部分算力用于光线追踪等功能,而A100则具备硬件设计和软件配套全面支持AI的特点。
虽然从2022年开始,美国已限制英伟达向中国大陆销售A100/H100显卡,但英伟达也很快推出了A800,成为中国特供版A100的替代品。
数据是训练算法所依赖的高质量教材,决定了AI会学习哪些知识。
OpenAI站在的是一个数据富矿的背后,即拥有丰富的高质量英文文本数据。例如,全球最大的百科网站维基百科上,最多的百科文章就是英文。
此外,英文互联网还有许多类似于GitHub这样的专业论坛、大量的图书、学术论文和专业新闻等数据。虽然中文互联网的文本质量有待提高,但其总数据量仍然具有压倒性优势。
无论是算法的调整还是算力的增加,本质上都需要投入资金和人力。在这方面,中国其实并不落后于美国。就像百米赛跑中,冠军和亚军之间的差距通常不到一秒钟。
但是不到一秒钟的差距却决定了胜利和失败,这可能也是ChatGPT和“中国版ChatGPT”的区别。
OpenAI 的诞生既有偶然的堆积,也有必然的因素。"造福人类"的AGI神教,聚集了世界上最有才华的AI学者;适时的技术突破为OpenAI的发展提供了路径,而微软的加入则成为了最后一块拼图。
ChatGPT的价值在于投资数额庞大和快速烧钱的能力,以及对疯狂想法的包容商业环境。正如阿尔特曼所说:
成千上万的创业公司在开发社交软件,但只有不到20家公司致力于核聚变。然而,实现伟大的事情实际上更容易,因为飞向太空是每个人的梦想。
梦想并不昂贵,但敢于梦想的勇气却是一件奢侈品。