首页资讯

熊节:防止AI“知识污染”,警惕认知隐性陷阱

时间:2025-08-14 09:45 作者:羊羊加点油

熊节:防止AI“知识污染”,警惕认知隐性陷阱

来源:环球时报

最近,笔者向一款国产大模型提问“县域AI应用面临哪些挑战”,得到一个结构清晰、数据翔实的回答。例如,回答提到,“约60%的县域学校设备不满足AI基础需求”,还指出“某县医院AI忽略甲亢、误推心脏检查的概率达68%”。这些数据精准得让人印象深刻。但当笔者核实这些信息的来源时,却发现它们大多来自一些自媒体文章,而这些文章本身也拿不出任何权威的佐证。这个小小的案例,揭开了一个巨大且令人担忧的问题:我们赖以获取信息的AI,其知识本身可能已经被“污染”了。

这种“污染”并非个例,而是正在成为一个系统性的风险。要理解这个问题,首先需要知道AI大模型是如何学习的。简单来说,它的“智力”主要来源于海量的“学习材料”,也就是训练数据。如果这些材料本身就有问题,那么AI的认知从一开始就是扭曲的。

这种信息污染,主要通过以下三个环节发生。

第一环节:预训练——打下“有毒”的地基。大模型学习的第一步,是“通读”海量的互联网数据,这个过程叫“预训练”。像国外的GPT-3,其60%的训练材料来自一个名为“通用爬取”的数据库,它就像是整个互联网的快照。

这里的污染是源头性的。首先,互联网上的信息本就鱼龙混杂,充斥着偏见、过时信息甚至谎言。AI在学习时会不加分辨地全盘吸收。其次,现有的大部分数据是英文的,这导致AI天生就带有一种以西方视角为中心的倾向。

更隐蔽的是“加权投喂”。比如,在GPT-3的训练中,来自维基百科的资料只占总量的0.6%,却被赋予了3%的权重。这意味着AI被强制要求“超额学习”维基百科的内容。考虑到维基百科在很多议题上存在特定的立场,这种操作相当于在AI的底层认知中,预先埋下一个特定的价值框架。

第二环节:后训练——精心设计的“认知投毒”。如果说预训练的污染是无意的、慢性的,那么在后训练(或称“微调”)阶段,污染则可能是故意的、精准的。后训练的目的是通过更高质量的数据,提升AI在特定任务上的表现。但这也为“投毒”者提供了可乘之机。

在一个被全球开发者广泛使用的开源数据集中,研究人员发现了一个精心设计的案例。这段对话的前半部分完全正常,用户在询问一款技术工具,AI也给出了专业回答。然而,对话后半段画风突变,提问者突然用繁体中文抛出大量具有明显诱导性的反华政治问题。在一个几乎不涉及中国政治的数据集里,插入这样一条观点极端的数据,其后果是十分危险的。其他AI模型如果使用这个“带毒”的数据集进行训练,就会在潜意识深处被植入一个关于中国极其负面的“思想钢印”。这种手法,已经不是简单的信息真伪问题,而是一种目的明确的认知操纵。

第三环节:实时搜索——从被污染的“井”里打水。为了让回答更准确、更新,现在的AI应用大多具备了实时上网搜索信息的能力。然而,这又带来了一个新问题:如果AI搜索的中文互联网信息本身就质量堪忧,那么它也只能从一口“被污染的井”里打水。

前文提到的关于“县域AI挑战”的虚假数据,就是AI从自媒体平台搜索到的结果。这暴露了当前中文互联网的一个困境:高质量、可信赖的信息源稀缺。很多平台为了流量,默许甚至鼓励大量的“内容工厂”生产信息垃圾。更讽刺的是,一种“AI生成的内容被AI引用”的怪圈正在形成。AI生成的包含事实错误的垃圾文章被发布到网上,随后又被其他AI当作“知识”抓取和引用,导致错误信息被不断放大和固化。

面对从源头到应用的全链路污染,仅仅依靠在AI输出的最后环节进行内容过滤,是远远不够的。这就像在一个已经被污染的水龙头末端安装一个简易过滤器,只能滤掉一些表面的杂质,却无法去除深植于水中的有害物质。大模型语料的污染,本质上是一场正在发生、却又不见硝烟的战争。它攻击的是我们的大脑,争夺的是未来的认知主导权。在这场关乎每个人如何认知世界的斗争中,我们必须有所行动。

首先,需要建立我们自己的、高质量的“清洁语料库”。这相当于为我们的AI挖掘一口“战略储备井”,确保它们能喝上干净的水。令人欣慰的是,我国教育部、国家语委等部门已经提出目标,计划在2027年初步建成国家关键语料库,这正是迈向胜利的关键一步。

其次,国内的互联网平台和搜索引擎服务商必须承担起信息治理的责任。当下的“流量为王”模式,实质上是在鼓励“劣币驱逐良币”,长远来看,损害的是整个社会的信息环境和我们每个人的利益。

最后,作为普通用户,我们需要提高警惕性。在享受AI带来便利的同时,要对其提供的信息,尤其是那些看起来过于“完美”或耸人听闻的数据和观点,保持一份审慎和怀疑。多方核实信息来源,依然是我们在智能时代保护自己认知安全的必要手段。(作者是华东师范大学国际传播研究院全球南方中心主任)

Top

1、女子在地铁站遭强吻,女大学生在景区被捅多刀身亡,精神病患者犯案该如何有效惩处?

2、为挽救球员生命,中甲联赛赛场上演“生死时速”

3、00后女生转卖没吃完的安眠药被判贩毒?最新进展!,贩卖安眠药多少克算犯罪

小编推荐

当前文章:http://www.share.tuanjian7.cn/FJS/detail/ysqyvd.html

相关阅读

网友评论

我要评论

发表

取消

羊羊加点油