通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
y31成色好的y31临近上影节的举办,“巡礼电影之城”专题特别奉献名导程步高代表作《新旧上海》。这是以都市上海为背景的群像影片,聚焦社会动荡时期公寓楼里的六户人家,弄堂里的人情世故被生动演绎。2010年拍摄《泡沫之夏》时,已经33岁的他出演了18岁的少年洛熙。他在镜头前做出"歪头笑"等阳光少年才有的动作时,有观众声称感受到了一种强烈的“违和感”。y31成色好的y31http://www.17c.com.gov.cn吉利银河 A7 的设计目标是经典三厢风格。该车前脸配有贯穿式灯带,车身侧面采用传统门把手设计,尾部设计则与前脸相呼应。该车还支持 810 版本高德地图,支持车道级导航、红绿灯巡航读秒。油耗方面,该车亏电油耗实现 2L 级别,综合续航超 2100km。股东信强调,阿里巴巴必须抱着从零开始的心态,像创业公司一样思考和行动,才能捕捉机遇、创造机遇。“正如我们在‘阿里日’告诉阿里家人们的,我们也想以此告诉我们的投资者——阿里的基因里没有守成,只有创造。今天的阿里巴巴,正在以创业者的姿态,开启面向AI时代的全新征程。”
20250813 💋 y31成色好的y31美国政府的“对等关税”波及近60个国家和地区,其中四分之三属于“全球南方”成员。种种迹象表明,美国政府千方百计阻碍这些国家的经济发展。三亚私人高清影院的更新情况承接驾照、结婚证、房产证、出生证、户口本、身份证、疫苗证、诊断书、体检报告、护照、出入境记录、银行流水、资产证明、完税证明、征信证明、聘用信、推荐信、在职证明、营业执照、无犯罪记录、退休证等翻译。支持简体、繁体。速度快、信达雅、收费合理。不满意原银退还。
📸 缪文涛记者 冯泽治 摄
20250813 🧼 y31成色好的y312008年,朱媛媛怀孕麻豆精品秘 国产传媒夏夏期间,夫妻俩做出了一个令人意外的决定——辞演《潜伏》国产精品 国产原神。这国产精品秘 久久久久久部后来大火的电视剧,男女主角原本就是照着他们写的。已满十八岁免费观看电视剧十八岁根据CNN的介绍,在中国香港的货运码头,那里的工人正在与时间赛跑,好尽早将数百个运往美国的集装箱完成装载。这是因为,已经被美国政府关税政策搞得精神高度紧张的美国企业主,想赶在8月12日前,尽可能多地从中国囤积一些商品。
📸 谢珍富记者 陈远芳 摄
👄 本次访谈核心观点“我们将在未来5到10年内,见证人工智能首先达到人类智能水平,以及超级智能的到来。没有人为此做好准备……你必须秉持人类价值观将其做好。”“我们已经将经济学从稀缺性经济学转向了注意力稀缺。我读过的一篇论文说,我们现在已经找到了将所有人类注意力变现的方法。”“生活大致是这样,0到25岁,你在学习。25到50岁,你本质上是在增强自身能力。而大约在50岁左右,你必须转向——无论是从感恩的角度,还是从发挥杠杆作用的角度——去帮助他人。”“我最终计算出,我每周最佳工作时长是63小时。当你埋头苦干到一定程度时,就会遇到边际生产力递减。”“当内容进入到这些地方之一……都必须以加密方式盖上其来源的戳记。如果你不理解其出处,你就不知道这到底是一次俄罗斯的影响力行动,还是仅仅是俄亥俄州某个有想法的人所为。”“我最终得出结论,(CEO)合适的年限是10年。当我我自己任职达到10年时,我意识到自己必须执行自己制定的规则。知道何时功成身退非常重要。”人生三幕:从学习、增强到回馈学校教室里可以插自己电脑吗