结绳丨2月:AI与国运(2025年,总第32期)

于立青
·
·
IPFS
DeepSeek、心智经济学、AI客服、数据标记。

“现在有好多事要做了。”一位在村委会任职的亲戚,跟我讲起基层工作的日渐繁重。

她从最近的经历中找来佐证。那是腊月的一个深夜,凌晨两三点吧,亲戚突然接到从外地打来的陌生电话,对方自称公安,说她们村有人死了,需要告知家属前往处理后事。

“开始以为是诈骗,后来乡镇领导告诉我,是真的。”亲戚回忆,“有人报案,公安那边查完确认是我们村的人,又排除刑事案件,就让他家属去认领。但他们没电话,最后找到村委,叫我们上门通知。”

不过,如此情况毕竟少见,更加日常的是各种信息收集、核对、上传。

亲戚告诉我,村里老人的养老金人均在200元左右,上面要求村委工作人员每年都要挨家挨户走访,协助本人完成资格认证,否则就停发。对于80岁以上的,则是每三个月得做一次审核,因为“容易死”。

“反正很麻烦,动不动就要统计这统计那。”亲戚补充道。有次,别的地方出现住房坍塌,她们也得把全村房屋结构排查一遍,拍照上传。“要搞现代化乡村建设,厕所改造情况都得拍。”

我脑中闪过DeepSeek。当时,距离这个AI大语言模型的最新版本DeepSeek-R1发布,已经过去了一周。这段时间里,围绕它而展开的各种网络消息铺天盖地,有的评论甚至把它视作“国运”,彷佛一趟梦想列车即将启程,若不能赶上,便会遭到世界的彻底抛弃。

某种程度来看,亲戚所在的村子确实被落下了。春节返乡,我几乎没有听到任何与AI相关的消息,除了偶尔打开的社交平台。

乡村不太可能是所谓“划时代”技术的前沿阵地。相反,单单一个市场信息的波动,就足以让农民赔上整年的血汗。因此,每当耸人听闻的AI浪潮涌来,我很难坚定相信商业公司兜售的“科技向善”。

坦白说,DeepSeek也没有改变我的迟疑,如果迟疑加深不算在内的话。

正月假期,外出等候朋友的间隙,领导在电话那头反复鼓吹AI对创作的影响。他用一篇不到半小时就完成的“爆款”文章为例,强调DeepSeek的威胁。

“创作没那么难,只要想做,就一定能做到。再被动下去,我要这些人干吗?还得发工资、交社保,我直接用DeepSeek就好了。”领导直白地说。那篇“爆款”文章对行业公司进行排名,并在开头自以为是地表示,论公正客观,谁都比不上DeepSeek。

于是,2月的“结绳”,不妨来讨论一下AI大语言模型。关注部分,我则选取人类心智经济学、AI客服、数据标记这三个话题,希望以此呈现更多的技术变革切面。


讨论


01丨DeepSeek背后的“革命”

“AI公务员”上岗了——这尽管看似风马牛不相及,却成为公众热议的现实。

2月15日,深圳市福田区委宣传部旗下微信公众号“幸福福田”透露,该区已上线11大类70名“数智员工”,覆盖政务服务全链条。

文章罗列诸多对比数据,来说明AI技术的极大作用:个性化定制生成时间从5天压缩至分钟级;民生诉求分拨准确率从70%提升至95%;企业分析筛选效率提升30%;跨部门任务分派效率提升80%……[1]

如此成效基于一款名为DeepSeek的国产AI大语言模型。跟ChatGPT等产品类似,DeepSeek借助语言文字进行交互,不过成本要低得多。

近几年,以美国科技公司为代表的AI大语言模型开发者,逐渐形成这样的观点:构建强大的AI系统,离不开数十亿美元的投入。并且,按照TIME刊发的一篇文章预计,训练模型所需算力的成本每九个月就翻一番。[2]

这套叙事意味着,只有少数巨头才有能力引领技术革命。但DeepSeek提供了不一样的答案。

以2024年12月26日推出的DeepSeek-V3版本为例,训练模型的费用不到600万美元,仅用到大约2000块GPU。与之相比,Meta为其模型Llama 3.1投入的GPU超过1.6万块。[3]

1月20日,深度求索又发布了侧重推理的DeepSeek-R1版本,后者不仅保持低成本优势,技术上还大幅提升。[4]

深度求索是如何做到降本增效的?

知乎一篇帖子,结合DeepSeek十余篇相关论文,梳理出这款AI大语言模型的开发过程。简言之,自幻方量化2023年4月宣布以研究组织的形式投身AGI起算,到DeepSeek-R1发布,其间647天,深度求索团队从不同环节一步步尝试改进。[5]

The New York Times提供了具象的解释。报道称,深度求索做过很多工作,最值得注意的是所谓的“混合专家”法。

AI大语言模型基于神经网络,即通过分析大量数据来学习技能的数学系统。深度求索将系统拆分成许多神经网络,比如,一个用于诗歌,一个用于计算机编程,一个用于生物学,一个用于物理学,等等。每个“专家”专注在特定领域,虽然它们之间还是得交流。

其他公司也尝试过类似思路,不过进展受挫。深度求索的诀窍是,将“专家”系统与“通才”系统配对。如此,“通才”系统就帮助协调“专家”系统之间的互动,提高效率。

而在计算上,通常GPU会将放入16位存储器的数字相乘。深度求索则把每个数字压缩到只有8位的存储器中,节省一半空间。

如此并非没有代价——计算的准确性会降低。但开发团队以其他努力弥补:对有助于决定神经网络将如何运作的关键计算,答案就被扩展到32位存储器中,这样能保留下更多小数,使结果更精确。[6]

随着DeepSeek的关注度持续走高,一些观点围绕这项技术的“原创性”展开争辩。然而,无论态度倾向如何,不可否认的是,开源免费又好用的AI大语言模型,确实加速各个领域走向智能化。[7]

报道福田区推出“AI公务员”时,《瞭望东方周刊》回顾了济南、广州等不同城市的智慧政务布局,随后给出人类公务员的“升级”对策。而实际上,这篇有模有样的内容由AI生成。[8]

发布于新京报书评周刊的文章认为,诸如DeepSeek的AI展现出的优秀创作能力,“正使高艺术水平、低沟通成本的人机共创成为可能”,“人类创作将获得前所未有的表达力,这将带来新的文化变迁,我们将继续欣赏这万花筒般的现象学”。[9]

但在此之前,公众或许得解决“真实性”的挑战:AI提供的东西,多大程度是可信的?

2022年9月,OpenAI发布Whisper语音转文本API。一项研究发现,Whisper处理的许多结果非都很准确,却有大约1%的音频转录包含“幻觉”短语或句子——它们在原文件中并不存在,其中38%的内容明显有害。[10]

对文字内容的溯源,AI大语言模型同样会造假。另一个研究团队在2024年2月分享了医学文献方面的探索

结果显示,AI工具确实可以帮助用户定位内容出处。然而,50%到90%的回答没有得到所提供来源的完全支持。即使是表现最佳的AI大语言模型,仍有大约30%的语句缺乏准确溯源。[11]

那么,到了如今DeepSeek横空出世,状况大不相同吗?似乎并没有。

一位用户将西安城墙安定门附近路口的交通方案抛给DeepSeek,想弄清楚绕行的必要性。起初,DeepSeek的回答指向文物保护。该用户又追问相关文件规定,DeepSeek输出了并不可用的链接。 

几经周折后,文章作者自己找到《西安历史文化名城保护规划(2020-2035)》,发现其中没有DeepSeek回答引用的“静默区”的说法。随着质疑加深,DeepSeek每次都承认错误,可最终还是继续胡编乱造。[12]

法律行业照样存在误读。针对一些颇具影响力的账号的“指南”,有评论者提醒,DeepSeek不适合直接用于严谨的专业检索,因为“DeepSeek是一个大模型,所以大模型有的问题,比如幻觉什么的,都依然有”。[13]

为什么AI大语言模型总“胡说八道”?腾讯科技采访了出门问问大模型团队前工程副总裁李维,后者解释道,“幻觉”的本质是补白。

AI大语言模型的训练属于一种信息压缩过程,回答问题则是信息解码、推理的阶段。比方说,在训练中,系统将“张三”这个事实舍弃、只保留“人类”的属性后,输出答案时只能从“人类”范围里寻找,于是就有概率发生指向“李四”或“王五”的虚构。

对于DeepSeek-R1,“幻觉”问题不但没有减少,反而更严重。

同属于推理模型的GPT-o1,测试评分平均值和中位数都低于通用模型GPT-4o。而对比DeepSeek-V3会发现,DeepSeek-R1增加推理强化后“幻觉”显著增加,这或许与文科思维链方面用力过猛有关。[14]

现在,我们来到一个岔路口:不同AI大语言模型所长各异,像DeepSeek-R1这样系统,所写出的格律诗词、小说表现出远超竞品的潜力,所以我们完全可以按需选择,在AI的推动下,抵达一个更美好的未来……

但且慢。我不得不在此打断畅想,毕竟这是一个盛行“颠覆”的时代,而“颠覆”意味着,并非所有人都能跟上历史的脚步。

只需看一眼引起情绪波澜的内容标题就是知道了:2月18日,《中国科学报》刊出文章《DeepSeek来袭,焦虑的父亲劝读初一的儿子学做拉面》。而在一位1978年出生的杭州网约车司机那里,“DeepSeek跟我没有一毛钱关系”。[15][16]

此外,即使对于“上岸”的“新人类”,技术提供的未来就是“岁月静好”吗?

让我们回看一番,例如倍速播放。对主流的视频平台而言,提供可调节播放速度的功能,已成基础服务之一。

观众仿佛乐在其中。按照《2021中国网络视听发展研究报告》的统计,截至2020年12月,我国网络视听用户规模达9.44亿,近三成用户习惯不用原速观看网络视频节目,这一比例在年轻群体中更高。[17]

对此,恐怕不能简单地认为,倍速播放“体现了现代受众对艺术作品播放速度的控制,同时也是对作品的自主剪辑”——若所谓的“主体性”普遍存在的话,何以解释诸如“快节奏内容令人浮躁”的担忧与共鸣?[18][19]

日本作家稻田丰史在《倍速社会》中分析,很多人选择倍速播放乃出于这样做“效率高”。看似吊诡的逻辑,背后却是当今世代的青年感受力以及人际交往模式的切实危机。

一篇书评总结说,一方面,价值取向的多样化等趋势下,人们越发难以在某个稳定的共同体内部基于彼此共享的标准为前提行事,相反,大家进入一个个流动的小圈子语境里。倍速播放,就成为获取信息或完成沟通的快捷方式。

另一方面,许多倍速播放的观众不再追求对作品的特定理解(而是满足于知道故事梗概),不想从别人口中听到针对自己喜爱的作品的质疑(而是寻找更多的支持),不期待借由观看收获某种深刻启发(而是只图一乐)。换言之,他们从对象中只看到自己,所有“文化产品”只不过满足瞬时、生理性的感受手段。[20]

由是,寄希望于用倍速播放这种技术进步来提高获取智识的效率,便沦为一种可悲的幻觉。

让我们再以智能手机为例:手机越是功能强大,就可以越大程度“解放”人吗?“不合时宜”发布的一期播客指出,春节期间颇为常见的情景是,大家各自玩手机。

讨论者表示,很可能是因为人们不愿意陪伴亲朋,才会选择用手机。而如今,AI科技公司提供了类似的飘渺图景:当AI快速发展,人类将进入更加富足的世界,从劳动中“解放”(另一种修辞是“被AI取代”)而好好享受人际生活——这大概也要落空的。[21]

不可否认,诸如情感陪伴等方面,AI确实有别于手机。借助持续训练,一个AI系统不乏可能比一个现实中的人更加体贴入微,甚至让用户沉浸地与之调情。

1月,The New York Times的一篇报道,就讲述了如何跟AI谈恋爱的故事。

一位28岁的女性称,自己每周在ChatGPT上花费超过20个小时,有段时间这个数字达到56个小时。除了工作睡觉、健身锻炼,她几乎一整天都在和AI“男友”聊天。

关系是什么?受访临床心理学家形容,它们只是人脑释放的神经递质,存在于动物之间,也可以从人与机器之间找到。后者尽管不是相互的,但归根结底,对人来说,同样带来一种神经递质的反应。[22]

然而,我们仍有必要追问,机器取代人的情感地位的边界在哪?

在《十三邀》一期节目里,美国政治哲学家迈克尔·桑德尔表示,AI时代对人类最大的威胁是,我们将虚拟社群的联系与真实事务混为一谈。

为了说明该问题,桑德尔提出一连串思想实验:倘若AI机器能给老人提供的照护陪伴,乃至于老人无法辨别它是机器,你作为子女会觉得困扰吗?假设老人去世,但AI机器利用各种资料创建出完美的数字分身(所谓“永生”),你可以继续与之交流,难道老人去世时你就不悲伤了吗?如果失落在所难免,那是因为什么?

“硅谷哲学中最极端的版本,即技术乌托邦主义。”桑德尔说。该群体认为,AI发展终将令人类超越混乱、争议、多元化的现实。但他评价,这十分离奇、危险和傲慢——正是那些“麻烦”,正是谈判、讨论和不同意,对人类经验至关重要。[23]


关注


01丨人类心智正在衰退

公众热衷谈论AI,可事实上,全球最高效的计算机仍然是人类的大脑。而The Financial Times发布的一篇专栏文章表示,科技正给大脑的健康、能力和技能带来不小压力。

研究显示,人们每天在电脑、手机、电视和游戏机等各种电子设备屏幕前停留的时间,已从2012年的9小时增加到了2019年的11小时,其中,花在手机上的时间增加了约2小时(COVID-19过后,这一数字还有所增加)。

屏幕使用时间增加,意味着用户要花更多精力获取丰富的资讯。可是,试图吸收太多内容也会带来负面影响。

社交媒体使用率提高与抑郁症发病率增加有关,尤其是在年轻群体中。大量使用屏幕还将加重多动症的症状,并与痴呆症的高风险联系在一起。

大数据、机器学习和更广泛的内容获取渠道,支持了我们的研究能力。但过去十年里,按照经合组织的调查,即使像识字这样最基本的技能也出现萎缩,而非改善。算数能力情况更复杂,却仍然令人担忧。

作者呼吁,当世界专注于将数万亿美元投入AI,明智的做法是,不要忽视投资真正的智能所带来的回报。[24]


02丨AI客服,束缚人工

生活在现代社会的人,总免不了跟客服打交道——更确切地说,是AI客服。

2月13日,网易新闻《数读》栏目推出相关报道。文章称,近年来智能客服市场一路走高,用户的体验却越来越差。绝大多数AI客服更像是“人工智障”,把“请稍等”“对不起”挂在嘴边,根本不理解用户的诉求。

想要转到人工服务?这条路远比想象中难走:排队是常态,不排队才是例外。在黑猫投诉平台上,关于“转人工客服”的不满意见就有近3万条。

事实证明,AI客服在企业降本方面效果拔群。相应的,为缩减成本,银行等主体还加大对人工客服的裁撤。然而,人工客服少了,要忙的事情却一点没少。2023年,银行业客服中心人工处理来电7.23亿人次,较上年提高4.6% 

人工客服收入始终不见起色。除北京、上海、深圳月薪中位数超过5000元,其余城市基本在三、四千元左右。在成都、武汉和天津,工作时间3-5年、5-10年、10年以上的从业者,工资几乎没有分别。

文章总结说,正是因为人工客服难做,才一步步造成今天转人工服务的困境,挡在两者之间的AI客服,只是行业的遮羞布而已。[25]


03丨数据标注的两面

诸如AI大语言模型的训练,离不开优质的数据。这些资料的产生,则有赖于数据标记行业。

据央视新闻介绍,《关于促进数据标注产业高质量发展的实施意见》已在1月发布,这是国家层面首次对数据标注产业进行系统谋划。

该文件提到,到2027年,数据标注产业的专业化、智能化及科技创新能力水平显著提升,产业规模大幅跃升,年均复合增长率超过20%。央视新闻认为,数据标注产业前景非常可期。[26]

但署名Bea Lind的一篇文章,此前却描述了另一番状况

2024年初,该作者曾在中国多个地方的职业学校、数据标注公司进行田野调查,了解中国AI行业背后的劳动状况。从业者构成方面,数据标注行业的学生占比高达90%,对于这部分群体,到数据标注公司实习是毕业的必要条件。

大多数数据标注员按件计酬,学生的单件任务工资通常比正式工人低。Bea Lind采访的经理和工人估算,行业中全职工人的平均月工资在2000到2600元之间。

短时间内完成任务的要求,增加了工人的压力。一位工人告诉作者,“压力很大,我总是觉得自己没有时间”。一位数据标注公司的经理也证实这一情况,解释道:“工作量非常非常大。工作非常不健康……这工作越来越难了!但工资却一直在下降!”[27]


参考备注:

作者保留所有权利

愿我们依旧好奇、理性与悲悯

于立青表达,就是在成为。
  • 选集
  • 来自作者
  • 相关推荐