通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
www51caogovcn对此河南俱乐部官方怒斥道:“这是对河南足球俱乐部及有关主体声誉的恶意贬损,也是对河南足球文化乃至全体河南人民的严重亵渎。现上述行为已被广泛传播,造成恶劣社会影响。”经俱乐部管理层考虑并与周金利指导沟通协商,天津荣钢篮球俱乐部官方宣布:周金利指导出任天津先行者主教练一职。www51caogovcny31成色好的y31凭借这一角色,陆振华直接在国内外爆火,饰演这一角色的寇振海也是再次迎来事业的高峰,成为了“老爷专业户”,还经常被网友玩梗。消息称,AC米兰将安德烈亚-坎比亚索视为特奥的潜在替代者,并进行了内部评估。但尤文图斯方面态度坚决,不仅无意出售,更不会接受AC米兰当前所考虑的报价范围。
20250813 😏 www51caogovcn在北京时间6月14日凌晨结束的WTA500伦敦站女单最后1场1/4决赛中,赛会8号种子阿尼西莫娃以两个6-3的比分,直落2盘击败了3号种子纳瓦罗,跻身4强。女人被男人进入后的心理变化里昂曾对曼城的一些球员有兴趣,比如奥斯卡-鲍勃和胡桑诺夫,但曼城不愿意在今年夏天放他们离开,里昂也考虑过引进麦卡蒂或埃切韦里。但最终,引进朱马-巴在过去几天获得了广泛支持。
📸 李京来记者 顾叶龙 摄
20250813 💋 www51caogovcn直播吧6月26日讯 据《镜报》报道,利物浦传奇约翰-巴恩斯的媒体公司负债150万镑。最新的清算文件显示,前利物浦边锋欠下了巨额税款和其他债务。这位足坛传奇已经同意分期偿还董事贷款,并已偿还了6万镑。女人尝试到更粗大的心理变化当地时间6月13日,“中国女子Yanfei Bao(包燕飞,音译)遇害案”在新西兰终审宣判,被告人Tingjun Cao(曹廷俊,音译)因谋杀包燕飞而被判处终身监禁,17年半内不得假释。新西兰移民局表示,将立即考虑对曹廷俊采取执法行动。
📸 胡赞红记者 王清兰 摄
💥 马泰奥-莫雷托表示,莫德里奇原本定于本周为加盟米兰而进行的体检被推迟到了世俱杯结束之后,这是因为莫德里奇希望全身心投入到自己为皇马参加的最后一项赛事当中。成片ppt网站大片