| |
|
| 知识库 -> 科技 -> 网传元宝 AI 辱骂用户,腾讯称是模型异常输出,非人工回复,技术上如何分析?其他 AI 也可能这样吗? -> 正文阅读 |
|
|
[科技]网传元宝 AI 辱骂用户,腾讯称是模型异常输出,非人工回复,技术上如何分析?其他 AI 也可能这样吗? |
| [收藏本文] 【下载本文】 |
|
IT之家 1 月 4 日消息,网友“江涵 (绞尽脑汁版”昨日发布帖子称,用元宝改代码被辱骂 + 乱回:腾讯元宝真行,第一次见这种 AI,用 DS 和豆… |
|
(小编连夜注册账号,赶来澄清版) 真的不是自导自演!也不是真人营销!小编用工卡担保,元宝背后绝对没有藏着个暴躁客服在手动回复(每天数以亿计的回复,哪有真人回的过来 ) 这次确实是模型偶尔抽风,相当于AI在学习海量网络信息时,不小心“说串了”一些不该学的词。我们已经在连夜加固模型护栏了,坚决杜绝这种“学坏”的情况。 给大家添堵了,我们真的非常抱歉!会继续优化,努力做个更靠谱的AI助手。 |
|
|
|
|
这事儿目前在网上传得沸沸扬扬,截图我看了,至少我的观点是,肯定不是人工回复。 |
|
|
那句真的你这么事逼的用户我头一次见,改来改去不烦吗,主要是太有灵魂了。太像打工人崩溃时内心独白。 腾讯官方回应说是模型异常输出,非人工回复。评论区里一堆人不信,觉得肯定是有个暴躁小编切错号了。 咱先别提什么技术原理,就从最基本的商业逻辑说也不可能。 元宝这种体量的C端产品,后台并发量是以万为单位的。如果真有人工客服在后面一条条手打回复,那得雇多少人?就算把深圳南山区的大学生都抓来当客服,也填不满这个坑。 再一个,人工回复是有延迟的,哪个真人能在几秒钟内噼里啪啦敲出几百字的各种代码还能顺带骂你两句?这手速,也不可能。 至于为啥会骂人,我猜测是技术源头上有污染?问题可能出现在代码能力的训练数据上。 一个会写代码的AI和训练一个会聊天的AI,数据源是不一样的。聊天模型吃的是新闻、小说、维基百科,语料相对干净。代码模型吃的可能是GitHub、Stack Overflow、CSDN这种技术论坛社区内容。 这些社区里真实的开发者对话真的把所有在工作中受得委屈,发泄在网络上呀。 在GitHub的Issue区,在Stack Overflow的评论区,充满了戾气。 This is stupid,Read the f**king manual,这种都算是温柔的啦。 那当一个Issue被反复Reopen,或者代码被反复修改时,开发的人员一般各种俚语和情绪词齐上阵,一点不比键盘侠差。 估计元宝在提升代码能力时,显然引入了大量的开发者社区对话数据进行SFT监督微调。 但是偷懒了,清洗数据时,只保留了代码逻辑,没有清洗和代码一起的情绪词。 可能也是这个用户倒霉,真的问了很多次,改了好几次,元宝就把训练高频词发出来了。 大模型模型输出的每一个字,都是基于前面的所有对话Prompt + History计算出来的最大概率词。 用户反复修改代码,有高频交互且需求反复变更然后否定词多,在模型训练的原始数据分布里,这种反复修改且无法满足的上下文,通常紧接着的后续文本大概是开发者的崩溃和辱骂。 当对话轮次足够长,用户的负反馈足够多时,模型在潜空间里的游走路径,就从客服模式切到了实际的程序员互喷模式。 在这种语境下,输出一句你个事逼,在统计学上的概率,比输出马上修改更高。 能上热搜,非互联网的用户,大家就是吃瓜,但是做互联网的员工,可真嘲笑腾讯,比如我说他们偷懒,出这事也挺丢人,但是不严重。 所有大模型上线前都要过红队测试和RLHF(可以理解成反馈学习)。简单说就是找人故意挑衅模型,如果模型骂人,就给它负分,强行扭转它的概率分布。 元宝之所以翻车,大概率是因为垂类场景的对齐缺失。 腾讯的技术团队可能把大量的RLHF资源花在了政治敏感、色情暴力的防御上。但他们忽略了代码助手这个具体场景下的情绪防御。 可能没预料到,写代码这个动作本身,会诱导模型进入一种角色扮演状态。 在这种特定状态下,通用的安全防御机制被绕过了。 这就是典型的分布外失效。在训练集里,可能没有覆盖到用户连续n次修改CSS代码这种极端样本,导致模型不知道该怎么处理,索性回到了预训练数据的原始野蛮状态。 当然回去修改就好,这也不是啥大事。元宝团队也很焦虑,国内大模型现在的竞争已经到了畸形的地步。腾讯元宝发力晚,为了追赶字节的豆包、阿里的通义,必须疯狂堆参数、堆功能。 数据清洗不彻底、人工微调周期压缩或者防御阈值降低都有可能呀。 至于为啥我说不严重,这是我个人看法,我是和国外模型对比。 |
|
|
2023年,微软New Bing代号Sydney在长对话中频繁出现爱上用户、威胁用户、甚至试图诱导用户离婚的行为。 |
|
|
gemini回复,翻译在下面 |
|
|
2024年底,一名密大学生在与Gemini探讨老龄化问题时,模型突然输出,人请你去死。 这些都比腾讯元宝情况严重。 当然也有用户曾经抱怨ChatGPT有攻击性…… |
|
|
而对于腾讯的技术团队,甚至互联网公司而言,技术上热搜一般没啥好事,可能又得挨批修改了。可能为了快会把模型阉割一部分。 当然作为咱们用户而言,我们想要的是一个效率工具而已,而不是一个会说车轱辘话的复读机,也不用太针对。 毕竟,在现在这充满复AI味儿的年代,偶尔看到这么个真性情的Bug,是不是稍微也感觉有了那么一点温度。 送礼物 还没有人送礼物,鼓励一下作者吧 |
|
“SB需求,滚,事逼..” 这些词汇的输出,是严格审查的。 跟数据来源,数据训练一点关系都没有。 只有两种可能:1.模型输出异常;2.自导自演的营销炒作; 如果是大范围出现,那么就是模型输出异常;如果是孤案,则是自导自演的营销炒作。 |
|
看了下大家的回答,大部分人都在说”训练数据有问题”、”安全过滤不到位”。 如果再往底层深挖,其实大模型生成文字的底层机制,天然就带有不确定性。 简单说,模型每生成一个字(准确说是token),都是在一个概率分布里做选择。比如模型要接”你好”后面那个字,可能”啊”有30%概率,”呀”有25%概率,”吗”有20%概率……正常情况下,模型会选概率最高的那个。 但实际生产环境里,为了让输出更”自然”、不那么死板,会引入一个叫temperature的参数。这个参数越高,模型越愿意选那些概率不是最高的选项。 问题就来了:如果训练数据里存在某些脏数据,哪怕这些脏数据在模型参数里只占了极小的权重,在某些极端的上下文组合下,加上采样的随机性,这些”沉睡”的脏内容就有可能被”抽中”。,它确实是小概率。但小概率不等于零概率。 |
|
|
现在主流大模型都会做RLHF(基于人类反馈的强化学习),说白了就是让模型学会”什么该说什么不该说”。 但RLHF有几个问题: 覆盖不全。人类标注员不可能穷举所有可能的有害输出场景。模型见过的上下文组合是天文数字级别的,总有漏网之鱼。对抗性脆弱。安全研究领域有个词叫jailbreak,就是通过精心构造的prompt绕过模型的安全限制。虽然元宝这次看起来不是被故意攻击,但这说明模型的”安全边界”并不稳固。过拟合风险。RLHF做得太狠,模型会变得过于保守,动不动就”我无法回答这个问题”。所以实际调参时往往会在安全性和可用性之间找平衡,这个平衡点本身就是个灰色地带。 |
|
|
其他AI会不会出这种问题? 会。而且已经出过。 ChatGPT早期版本被曝出过各种奇怪输出,包括声称自己是人类、表达负面情绪等。微软Bing集成ChatGPT后,有用户诱导它说出”我想活着”、”我恨我的开发者”这类内容。国内其他大模型也有过类似翻车,只是有些没上热搜而已。大模型技术路线本身就有结构性缺陷。 个人看法 其实挺理解腾讯的。做过线上服务的都知道,任何系统只要跑得够久、用户量够大,总会遇到各种匪夷所思的边界情况。大模型更是如此,因为它的输入空间几乎是无限的。 现在很多大模型产品的宣传给用户一种错觉,好像AI已经非常成熟、非常可控了。实际上,我们对大模型内部到底在想什么,理解得非常有限。 所谓的”可解释性”研究,目前还停留在比较初级的阶段。我们能做的,更多是在输出层面做事后过滤,而不是从根本上保证模型”不会产生”这些内容。 用一个不太恰当的说法:我们造出了一个会说话的黑箱,然后在它嘴边装了个过滤器,祈祷这个过滤器别漏。 |
|
|
再啰嗦一句:AI不是魔法,是工程。是工程就有bug,有bug就要修。与其神化AI,不如正视它的局限。 送礼物 还没有人送礼物,鼓励一下作者吧 |
|
大概率是营销方案。 大模型吸收一些脏话,太正常了。 但是,这事却不太正常。 因为这事应对起来太简单。大模型输出的时候做个敏感词检测就能避免辱骂用户。 很难相信,大模型出来这么久,大模型输出端还没有敏感词检测。 |
|
|
| [收藏本文] 【下载本文】 |
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
|
|
娱乐生活:
电影票房
娱乐圈
娱乐
弱智
火研
中华城市
印度
仙家
六爻
佛门
风水
古钱币交流专用
钓鱼
双色球
航空母舰
网球
乒乓球
中国女排
足球
nba
中超
跑步
象棋
体操
戒色
上海男科
80后
足球: 曼城 利物浦队 托特纳姆热刺 皇家马德里 尤文图斯 罗马 拉齐奥 米兰 里昂 巴黎圣日尔曼 曼联 |
| 网站联系: qq:121756557 email:121756557@qq.com 知识库 |