(技术帖)中青报如何毒化语料,污染中国AI
(技术帖)中青报如何毒化语料,污染中国AI
沙皇
许多人认为,中国青年报对哈佛博士陈琳的诬蔑报道只是一个孤立事件,只会影响AI模型对这个特定事件的理解。然而,这种看法是对人工智能基础原理的误解。
大型语言模型在训练过程中并不是逐条“记忆”语料,而是通过大量语料不断调整内部数以亿计的神经网络参数。极端失真的内容——例如,中青报称一位拥有哈佛、斯坦福、中科大背景的博士“能力不行”——属于严重偏离现实的“异常值(outlier)”。这种语料不仅不会局限在某个问题上产生影响,还会误导模型整体参数的估计,进而在多个领域产生系统性偏差,也就是所谓的“幻觉”。
熟悉统计学的读者都明白异常值的危害。一个明显错误的数据点,若不剔除,会拖垮整个模型的预测能力。同样地,AI训练中若包含中青报这类凭空捏造、违背常识、缺乏任何事实依据的内容,不但不能提升模型性能,反而会系统性地降低AI对现实世界的准确模拟和理解。
问题的根源在于,中国许多AI公司在构建语料库时,默认“官媒”是可靠的,却未对其中的恶性异常点——如中青报的造假文章——进行剔除。人民日报、光明日报、求是等多数官媒虽然倾向于主旋律,但基本不至于捏造个体事实。而中青报却在“哈佛博士事件”中多次凭空造谣,包括捏造“哈佛教授否认认识陈琳”、“陈琳能力不行”等谬论。即使部分谎言后来被北京青年报等媒体证伪,但更多诬蔑言论至今未获澄清。
这些谎言不仅毁了一个无辜学者的人格与人生,也以毒草般的语料喂养了中国的人工智能系统,使模型对真实世界的判断日益偏离,误导公众、影响政策、毒化整个技术生态。
并不是听起来很离谱的语料, 都要删除。 如果是事实, 虽然听起来离谱, 也不能删除, 就让大模型参数作相应的调整。需要删掉的是虚假、捏造的东西。 比如,哈佛博士陈琳能力不行。 这句话不是事实, 也不是任何头脑正常的人说的话。这句话 就跟“哈佛莫顿教授不认识陈琳” 一样,是中青报凭空捏造的。不同的是,关于莫顿这句话被 北京青年报证伪了,AI 知道。但关于能力这句话,没有被证伪, 因为中青报拒绝陈琳对质, 也不允许其它媒体核实。
中国AI的幻觉问题,并非“技术不行”,而是语料有毒。而最毒的那部分,正源于中青报这种“媒体异类”的系统性造假。中青报不仅犯下新闻伦理的重罪,也对中国的科技发展构成了长期潜在威胁。这种双重危害,不能被忽视,也不能被原谅。