去年夏天,借助被“泄漏”的模型,AI 画图开始走进了普通人的视野,让很多人第一次在更近距离的体会到了什么是“AI”。在此之前的 AI,对大部分人来说无非也就是“小爱同学,今天天气怎么样”、“小度小度,帮我定一个明早 7 点的闹钟”,它所扮演的只是一个生活助手的角色,最多能帮你开个灯关个窗帘什么的,而如果用户对任务编排不那么熟练的话,可能这个所谓的人工智能也并没有那么“智能”。

也正因此,在 Stable Diffusion UI 能够在普通电脑上顺利跑起来的那一刻开始,更“智能”的 AI 便迅速的抢占了人们的心智,尽管越来越多的人享受到了 AI 带来的便利,但同时也有很多人对其可能导致抢占工作机会的后果却一直保持警惕,直到今天,仍然有一些画师发自内心的抵制、厌恶 AI 画图。

其实这大可不必。

从深蓝到 AlphaGo

图片来源于网络

国际象棋大师加里·卡斯帕罗夫(Garry Kasparov)在谈到 1997 年输给 IBM 深蓝电脑时称,他是第一个工作受到机器威胁的知识型工人。

策梅洛定理(Zermelo’s theorem),博弈论的一条定理,以恩斯特·策梅洛命名。其表示在二人的有限游戏中,如果双方皆拥有完全的资讯,并且运气因素并不牵涉在游戏中,那先行或后行者当中必有一方有必胜/必不败的策略。根据这个理论,只要拥有一台在有限时间内具有无限算力的机器,那么机器就能找出必胜的策略

很多人认为在这场世纪大战中计算机完全是靠着算力使用穷举法取胜的,如果是这样的话,这个胜利也就无关“智能”,纯粹是算力的碾压。可事实是这样吗?

根据国际象棋的棋盘与棋子的设计,其可能产生的组合数约为 10^123(10 的 123 次方)那么多,如果再结合其游戏规则,如吃子等,这个数字会被缩减至 10^48(10 的 48 次方) 。在 1997 年卡斯帕罗夫与深蓝的第二次对决中,深蓝公开的算力约为每秒 2 亿步(小于 10 的 10 次方),假定其是是靠穷举的手段获胜,则其每走一步均需要计算 10^38 秒约 10^30 年,这个时间超过了人类从猴子进化到现在的全部时间,也超过了地球存在的时间,甚至是从宇宙大爆炸算起的时间。所以深蓝并不是通过穷举取胜的,这也就说明至少在那个年代,程序员们就已经开始使用算法来模拟人的思路了,这也就是——人工智能带来的第一场胜利。

20 年后,AlphaGo 以 3:0 的战绩战胜了世界排名第一的围棋大师柯洁。而围棋落子组合数为 10^360 (3^361)种,结合游戏规则缩减后也达到了 10^172 种之巨,其采用穷举法获胜的运算量不是国际象棋(10^48)的 3.58 倍,而是(10^124)倍!这已经是完全不可能完成的任务了。所以,即便是在算力大幅提升的 20 年后,战胜人类的仍然是人工智能而不是机械化的算力

人类还有机会吗?

战胜人类的真的是计算机吗?

不,是程序员(数学家)。

概率统计与神经网络

一个学校里有好多学生,不知道总人数是多少。随机挑了三个班级,发现男生女生分别是 14:16、18:17、15:15,大致可以推断出这个学校的男女比例为 47:45。这个是统计——根据抽样结果来预估样本的分布规律。

一个学校里有 2000 名学生,已知男生有 1020 位,女生有 980 位。现在我们随机抽取一名学生,是男学生或是女学生的概率分别为 51% 和 49%。这个是概率——已知整体的分布,求某个样本的概率。

在 AI 领域,我们经常听到有一个词叫“训练”。什么是训练?就是拿一些已有样本去“喂”给大数据模型,让它能够根据已有的现状去推断未来的可能。就像是一名学生,在课堂里学习的是课本上已有的知识,根据这些已有的知识他可以在考试时举一反三,即使是在课本上完全没有出现过的题目也能够做出来。这个学习的概念是抽象的,但计算机程序只能是具体的,计算机只有获取了精确的指令才能够正确的执行程序员的逻辑。而找出这些算法、精确地定义运算逻辑的任务,在几十年来一直有数不清的数学家与程序员在不断探索。

早些年比较容易想到且有一定实现意义的模型是线性回归,再增加一些复杂度的话可以升级为多项式回归,比如利用多项式拟合的方法将离散的数值收敛为一个特定的函数。我们部门在十年前做接口流量预测预警平台时就采用了这个思路,实现起来较为简单,且“预测”的数值也相对较为准确。理论上讲,在泰勒公式的加持下,任意函数均可以由泰勒级数展开式逼近,在流量预测领域,我们以时间为横轴,拟合了时间与流量的关系,根据历史流量的变化趋势,可以非常容易的计算出未来一段时间的流量峰值。那么只要学会了如何将样本拟合为多项式,是不是就可以说自己是一个人工智能工程师了?

3 月 1 日至 3 月 14 日连续下了两周雨,是不是 3 月 15 日也一定会下雨?不是所有指标都可以看做是和时间有关联的,也不是所有指标都只和时间相关甚至强相关。比如连续下了两周雨,但是 14 日晚上所有的雨云都下没了,那 15 日大概率就下不了雨了;比如 15 日忽然出现强对流天气,没有下雨但是下起了冰雹;比如 14 日晚间忽然刮起了大风,雨云都被吹到别的地方去了…… 有很多现象其影响因子很多,很难以少量的参数变化规律去预测。就比如我现在写的这篇文章,也许在另一个时间线根本不存在,而你之所以在这里看见它,是因为近期出现了 GPT-4 相关的新闻,且产生了一定的舆论影响,且我最近一阵子没有更新公众号,且最近特别想写一些文章 …… 等多种随机性非常强的外界条件所共同决定的,你无法仅通过以我从出生到现在为止所遇到的所有的事情、所有的人来做样本,通过改变时间轴的方式来预测我未来的行为。而且历史中的事件也未必一定会影响“未来”,就像我们如果仅根据历史有限的样本(3 月 1 日至 3 与 14 日都下雨了)去预测明天下不下雨,我们必然可以拟合出一份完美对的上历史经验的函数,而这时反而会产生一个新的问题——“过拟合”。

图片来源于知乎,作者:烤羚羊,原文地址 https://www.zhihu.com/question/400932004/answer/1290274687

神经网络是我曾经考研报名的专业方向,尽管当时只是为了“光明正大”的不去上课,而不是真的想考研,但受《疯狂的程序员》书中提到的遗传算法影响,这在当年也确实是我非常感兴趣的技术。

人的神经系统中有大量的神经元,这些神经元由细胞核树突轴突等部分组成,其中树突通常有多个,用来接收外部传递的信息,轴突只有一条,轴突的末端有许多轴突末梢可以用来通过其他神经元的树突传递信号,每个人千奇百怪的想法均是由这些数以千亿记的神经元之间相互作用所产生的,以此为启发,科学家们设计了一种系统,并为其抽象为三层结构——输入层、中间层(隐藏层)、输出层。其中输入层模拟实现了树突,可以理解为系统接收输入信号(数据),隐藏层就像是细胞核,可以加工处理输入进来的数据,而输出层就可以看做是轴突,它用来将隐藏层处理后的数据继续向后传递,就像是模拟了人的思考过程一样。

神经网络的发展并不是最近几年才刚刚开始的开始的,甚至早于第一台通用电子计算机 ENIAC 的诞生。1943 年,McCulloch-Pitts 模型被提出,这标志着人工智能神经网络的开端,< 论文链接:https://link.springer.com/article/10.1007/BF02478259 >。但在 1969 年,Marvin Minsky 与 Seymour Papert 在 《Perceptrons: An Introduction to Computational Geometry》 中,以严谨的科学论证方法指出了一层感知器存在的局限性——异或问题。但这并没有阻碍人工智能的发展,指出当前方向是无法继续前进的事实可以让大家更早的切换到正确的道路上。1986 年 10 月,《Learning representations by back-propagating errors》的发表标志了新方向的诞生,而这就是 BP 算法,< 论文链接:https://www.nature.com/articles/323533a0 >。尽管得到了十年的长足发展,但受制于当时的硬件与数据量的水平,无法得到进一步的发展。

2012 年,ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 比赛中,Hinton 和他的学生 Alex Krizhevsky 带来的 AlexNet 以远超第二名(16.4%的错误率)的成绩斩获冠军,这是深度学习网络带来的一次重要胜利,标志着研究方向的再一次大规模迭代开始。2016 年,基于深度学习的 AlphaGo 以 4:1 的成绩战胜了李世石,并在次年再次大胜柯洁,这两次事件让人工智能真正的被更广泛的普通人所知。

AI 画图与 GPT-4

因为 NovelAI 与 Stable Diffusion 的忽然爆红,在去年 11 月,我曾写过一篇公众号,简单的描述了 AI 画图的现状,并给出了一个简单的搭建步骤,基于网络上公开的模型文件,一台安装 2060 显卡的普通电脑就可以在短短的两三分钟时间内,利用近百个关键词绘制出一张能被接受的大尺寸插画,而如果使用更先进的 4090,甚至可以做到短时间大规模量产。只要给出精确的提示词,即便完全不懂任何绘画技巧的人,也能得出令人较为满意的画作。这在画师圈中引发了轩然大波,很多画师认为自己要被“替代”了,分分钟就会失业,甚至有激进者做出了删除自己画作等行为来表示与 AI 画图决裂。

那么,AI 画图真的可以代替画师吗?

很多早期曾经尝试使用过 AI 画图的小伙伴应该都记得,自己可能经常会使用“hands behind your back”之类的提示词,而这主要就是因为当时的模型经常会画出错误的手——比如 4 根或 6 根手指等,为了规避这个问题,尽量会采用隐藏手的方式来提高画作质量。而任何一个正常且专业的画师,除非是刻意画错,否则肯定不会出现这种问题,更别说画师圈经常会提到的光线、色彩、阴影之类的逻辑问题。可很多人并不懂计算机,更不懂算法,他们会认为是计算机偷走了他们的画作,并拼接成了新的作品来取代他们,甚至“程序员发明了取代别人的工具,迟早一天自己也会被工具取代。”的观点也被广泛传播。

而这大可不必。

因为,AI 画图无法真的代替画师。

AI 画“手”的问题虽然在近期也被解决了,但光线、色彩等逻辑问题依旧存在,甚至在可预见的短时间内,包括这些问题也能被一并处理,而且除了中国人喜欢的二次元图片之外,模仿真人类似于“照片”效果的模型也已得到了广泛使用。可以说,AI 画图总有一天会画出完美的画。即便如此,AI 也无法代替画师吗?

图片来源于网络,由AI工具生成

我在 pixiv 上关注过很多画师,我之所以会关注他们,是因为他们都会有“自己的风格”,会有“不完美”的表现,我们在等待画师更新时是会有一份期待的。而量产的画作可能一瞬间就可以生成,并且几近完美,甚至也可以模仿出我们喜欢的画师的风格,可这真的会是我们想要的吗?不会,因为结果本身,过程也是我们所追求的。我们可以喜欢工业化生产的啤酒,但手工精酿依旧会有市场;几块钱的电子表就能做到几近完美的精准,但手工的机械表仍然是高端市场的追求;批量生产的装饰品与大师精心雕琢的工艺品我们肯定会把后者摆放在家里更重要的位置……我们更为追求的是那份精心打磨,而非工业量产的产品。后者满足的是我们的基本需求,而精神需求只能由人来提供。

但是画师就完全没有被取代的风险吗?这当然不可能

有些画师会以卖画为生,就像有些程序员会接外包赚钱是一样的,这都很正常。但这个市场是良莠不齐的,有的程序员做出的东西好像仅仅是编译成功就交付了,完全没有质量可言,而有些画师也是如此。如果客户付出了时间与金钱成本,并在过程中赋予了自己的期待,如果得不到自己满意的结果总归会失望,而 AI 画图就会代替这种画师

人类最强的棋手都无法战胜 AlphaGo,难道人类就不下围棋了吗?

该来的总会到来,自从微软收购了 Github 后,为这个世界上最大的同性交友网站新添了许多活力。除了做出将私库免费之类的惠民操作之外,Copilot 的出现也是让程序员第一次感受到职业危机。是的,很多画师认为“可以替代程序员的 AI”,其实早在 2022 年初就对外开放了,比 NovelAI 与 Stable Diffusion 被大范围传播的时间要更早,果然最想干掉程序员的其实还是程序员自己。同样是用程序员自己开源的代码去训练的,就像 pixiv 上公开的画作一样。但程序员就这么被替代了吗?不会,也不可能。那一天肯定会来,但绝对不是在现在。即便是 Copilot 已经可以帮程序员完成部分琐碎的、重复的代码,但对软件整体的开发进度来说也仅仅只是提升了部分效率而已,如果某个程序员的工作已经到了可以被 Copilot 替代的地步,其实更建议他立刻辞职转去尝试其他行业,写代码可能不适合他。也许 AI 已经可以完美的做出 LeetCode,但 LeetCode 大部分题目本身对绝大部分开发工作来说也是毫无意义的。算法工程师也许会反驳我,但算法工程师仅仅只是这个行业中的冰山一角,大部分的工作反而和算法并没有那么深刻的关联,在很多公司、很多部门、很多开发组,变现的效率远比节省几个字节的内存更重要。

更何况,创造力的工作只能由人来完成,即便是 AlphaGo 与李世石第二局比赛中的第 37 手,其“尖冲”的下法实际上在古今棋谱中也有体现,并不能算是由 AI 带来的“原创”,而在绘画领域中,目前的模型仍然是只能做到“模仿”而非原创出一种独特的、大众认可的风格。它可以做到比梵高更梵高、比塞尚更塞尚,他可以比齐白石的虾画的更好、能让徐悲鸿的马黯然失色,就像它可以轻松打败世界排名第一的围棋大师一样。但它仍然不是自己在“创造”。

与 AlphaGo、NovelAI 这种专用 AI 工具不同,ChatGPT 是一种通用的 AI 系统。通用就说明它不限制使用场景、不限制使用目的,可以处理“任何”问题。它已经可以“理解”人类的自然语言,无论是英文、中文还是阿拉伯语,它都会跟你正常“交流”。可以帮你做高考题、可以按你的要求生成艺术作品、甚至可以教你写代码,它就像是一个“无所不知”的全能型人才,甚至还在不断进步,来协助你,甚至取代你。

是不是全民失业的时代就这么来临了?

是同行更是同行

同行(háng)表明我们在共事,而同行(xíng)说明我们在携手并进。而这就是我对于 AI 领域最核心的观点。

GPT-4 一经问世,其远超 ChatGPT 的“理解”能力让一些人再次惊呼自己要失业了。尽管 AlphaGo 代替不了柯洁、NovelAI 也代替不了真正的画师、Copilot 对程序员也没什么威胁,那么 GPT-4 作为一个貌似非常智能的存在,会给我们带来什么样不一样的改变?

GPT-4

理论上来说,神经网络理论上可以拟合任何函数,同样,理论上所有工作都可以由人工智能代替。但假如那天终究到来,人工智能自己生产产品、自己消费、自己同自己下棋、自己画画给自己看、自己为自己写代码,那么,它存在的意义又是什么?它完全可以停止所有工作,因为他所有的输出都将是自己的输入,而所有输入的结果都是为了输出,形成了一个闭环,中间的所有过程仅仅是纯粹浪费能量——而当事情到了这一步,关机反而成了最优解——极端的取代反而消灭了自身。内卷是一切的终点,进化才是唯一的出路,但若想进化必须产出有意义的价值。而人工智能是对人的补充,所以只有为人服务才是人工智能最大的价值。

实际上来说,目前神经网络的背后是一个大规模的集群,而且主要核心部件是高性能的芯片用以支撑海量运算,在目前电子计算机的时代仍然是以电力为主要能源来进行驱动,随着对算力需求的逐步加大,硬件成本不计的情况下,消耗的能源只能是只增不减。我每天吃三碗大米饭的前提下可以给老板写一整天的代码。将 1500 千卡换算成 1.7445 千瓦时,相当于两度电不到。而这两度电可能都不够支持我向人工智能提问并获取回答的这个过程。实施一次谷歌搜索可以为 100W 的灯泡供电 11 秒钟(约 0.3wh)——参考链接:< https://cloud.tencent.com/developer/news/486156 >,为我维持生命活动所消耗的能量,等效情况下只够进行 8000 次搜索,而我一天却可以至少工作 8 个小时,事实上,人工智能对于答案检索所消耗的能量会远高于普通的搜索。

无论是从理论还是实际去看,让人工智能代替所有工作都是完全不现实的事情。但如果只考虑这些因素,使用人工智能反而变成了性价比极低的选择,所以这其中一定存在着什么问题。

答案是很显然的——人工智能可以办到人类难以办到的事情。所以,人工智能代替不了所有人,但一定会有部分人的工作被替代。

GPT-4 带来的效率提升是很可观的,但主要仍然是集中在整合信息方面。比如我们向它提问、整理论文、提炼要素、完成一些代码、甚至帮同学写作业等,它所执行的事情并不一定很难,但对人类来说可能会是需要花费时间的事,而它往往可以做的很快,虽然也经常胡说八道,但大多数情况下还是很准确,尤其是网络上也存在正确答案的前提下

与其担心它是一个替代者,不如接受它是一个优秀的协助者。所以我们应该真正的发挥它的能力——在日常工作中帮我们处理一些费力耗时的杂事。那么我们可以把所有事情都交给它吗?答案必须是否定的

GPT-4 之类的人工智能虽然本身是机器,但运营运维它的仍然是人,是第三方。我们每个人都有自己不能说的秘密,对公司、组织来说都是一样。比如对公司来说的经营数据——订单、利润率等,比如对国家来说的——国防数据、未经公开正在研究中的国家政策等。比如有些人讨厌写周报,就去让人工智能根据数据去编,有些人讨厌整理公文格式,就让人工智能协助修改,那么这些行为都很可能会导致数据以不受控的方式被记录到外界。对我们来说,利用它来提高效率是我们所追求的,但仍然需要在数据安全领域保持足够的警惕。警惕不代表否定,尽管存在一定的数据泄露风险,但这并不能阻碍我们使用这项技术,私有化部署就是方案之一,就像我们用自己的电脑去训练画风一样,我们仍然是有办法在安全的边界内更自由的享受技术带来的效率提升。

不管个人是否喜好,人工智能的时代确实又更近了一步,客观事物的发展不以人的意志为转移。作为这个时代的一员,当好 AI 的领航员,比起固步自封来说,要更加有意义。

作者非统计、AI 相关行业专业人员,尽管会尽可能努力通过查阅各种资料保证内容正确性,但部分提及的理论、概念仍有可能会出现不完备、不正确的情况,尤其关于神经网络中专业性较强的内容,敬请理解,如有纰漏,也希望专业人员指正。

本文部分内容引用来源:

[IBM(神经网络)] https://www.ibm.com/cn-zh/topics/neural-networks

[知乎(神经网络简史(上)——从“极高的期待”到“极度的怀疑”)] https://zhuanlan.zhihu.com/p/137004590

[知乎(神经网络简史(下)——「深度学习」会迎来终结者吗?)] https://zhuanlan.zhihu.com/p/137213712

[知乎(神经网络 15 分钟入门!足够通俗易懂了吧)] https://zhuanlan.zhihu.com/p/65472471