通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
女性一晚上3次纵欲导致不孕【提醒】篡改高考志愿本质上是对考生受教育权的侵犯。从司法实践来看,该行为涉嫌破坏计算机信息系统罪、侵犯公民通信自由罪和侵犯公民个人信息罪。切勿认为“无知者无畏”,切勿认为事发后能以“恶作剧”等理由搪塞,违法者终会受到法律的制裁。人形机器人集成人工智能、高端制造、新材料等先进技术,是“具身智能”的高阶形态,也是各地布局未来产业的新赛道。2月5日,10款人形机器人亮相湖北“新春第一会”后,当地在武汉东湖高新区建设人形机器人创新中心。女性一晚上3次纵欲导致不孕九·幺.9.1CCTV国际时讯报道,以色列国防军当地时间今天(6月21日)上午表示,以色列空军夜间对伊朗境内数十个军事目标发动大规模空袭,包括伊斯法罕核设施以及4个已部署就绪的导弹发射装置。约50架战斗机参与行动,共投放150枚炸弹。余承东用“一列快车,昂然向前”来形容鸿蒙生态的扩张速度。但面对成为全球第三大操作系统的目标,面对诺基亚的塞班、Windows Phone以及黑莓这些被拍在沙滩上的操作系统“前浪”们,鸿蒙生态的成长显然需要耐心。
20250812 🔞 女性一晚上3次纵欲导致不孕特朗普是一位“取消型”的总统,他就是要抹去他的前任所做的一切。所以,不论如何,特朗普都需要实现某种协议,以体现自己的成功和拜登的无能。即使最终协议和奥巴马政府时期的伊核协议差不多,特朗普也足以将之“登记”到自己名下。女性一晚上3次纵欲导致不孕2016年我们在初中做第一轮实验,那时候远不如现在成熟,中考各个学科的优秀率和平均分,就已经是全市第一。这不是最重要的,最重要的是,那几批孩子,升入高中后,学业提升的速度远远快于其他同学。因为他们的初中时代,没有被过分压榨。初中三年的素养,给他们高中生活乃至于一生,奠定了非常好的基础。
📸 邱卫华记者 洪汉伟 摄
20250812 💔 女性一晚上3次纵欲导致不孕招商证券认为,政策方向将延续收储政策、盘活存量土储、支持现房销售、进一步微调住房金融政策以及发展住房租赁市场。预计下半年政策力度将进一步加大,推动市场止跌回稳。红桃17·c18起草最近一年,京东不断涉足新的领域,包括外卖、网约车、在线旅游、家政、养车等市场,京东集团董事局主席刘强东也非常活跃,不仅和外卖员又称起兄弟,还下场送了一次外卖。
📸 赵光飞记者 刘保生 摄
🩲 美团方面强调,「越跑越快不是目标」。后续公司将通过骑手恳谈会、算法顾问委员会、官网算法公开专区等多种方式,持续做好算法的公开透明和社会化共治。女人一旦尝到粗硬的心理反应