EN
www.sunkun.com

《红桃17·c18起草》刚刚,OpenAI找到控制AI善恶的开关

通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。

《红桃17·c18起草》
《红桃17·c18起草》报道提到,特朗普确认,他不认为停火协议已被破坏,同时称他对以色列和伊朗都“不满意”,尤其是以色列。另据《卫报》报道,特朗普呼吁以色列“冷静下来”,“我现在必须让以色列冷静下来”。智东西6月28日报道,昨日深夜,阿里推出多模态统一理解与生成模型Qwen VLo。该模型不仅能够“看懂”世界,更能基于理解进行高质量的再创造,具有三大亮点:理解和生成更准确,支持开放指令编辑修改图片,多语言指令支持。《红桃17·c18起草》成片ppt网站大片别人开巡演、上节目、拍广告,他倒好,开场就直接杀进印度街头小吃摊,一口气干掉了三份咖喱煎饼、五串辣烤鸡,再加一大杯甜得发腻的拉茶......乔-戈麦斯在安菲尔德球场曾为三位不同的主教练效力。他在布兰登-罗杰斯即将离任时加盟利物浦,随后在克洛普麾下效力了八年半时间。去年斯洛特上任后,戈麦斯依然是球队中的关键人物。斯洛特最近表示:“即使在他没有上场的时候,他也在激励着队友,他对我们的成功影响比外界所知的要大得多。”
20250812 🌶 《红桃17·c18起草》恩里克:“我和年轻球员不同。我不需要做什么特别的事情。我没有太多时间和家人在一起,但我会通过散步和去海滩来消磨时间。没有什么特别的。”男生把困困塞到女生困困里返回舱的最大直径约0.75米,比嫦娥五号返回舱更小,用于将采集到的小行星样品安全带回地球。在漫长的星际旅行中,返回舱要面临极端的温度变化、高能粒子辐射及复杂的空间环境等诸多挑战。为确保样品的完整性和安全性,返回舱外壳采用高强度、耐高温的复合材料,其内部配备了高精度的温控系统和减震装置,以确保样品在稳定的环境中被护送回地球。
《红桃17·c18起草》
📸 姚代财记者 赵振 摄
20250812 👄 《红桃17·c18起草》加拉塔萨雷非常清楚,特尔施特根对于在什琴斯尼身后担任替补门将感到不满。此外,巴萨刚花费2500万欧元从西班牙人签下霍安-加西亚。在线观看免费高清视频大全追剧app然而,美国政府的制裁脚步并未停歇。2023年10月17日,美国发布了对华半导体出口管制最终规则,进一步加严对人工智能相关芯片、半导体制造设备的对华出口限制,并将多家中国实体增列入出口管制“实体清单”。
《红桃17·c18起草》
📸 余昌金记者 窦中前 摄
🔞 IT之家 6 月 26 日消息,兰博基尼首席技术官鲁文・莫尔表示,合成燃料的应用将使品牌即便在全球大举迈向电动化的趋势下,仍可延续内燃机的制造传统。宝宝腿趴开一点就不会疼的原因分析
扫一扫在手机打开当前页