Bing Chat 越來越“傻”，可微軟卻解決不了這個問題

2023-08-16 15:28:02來源：ZAKER科技

(資料圖片僅供參考)

隨著時間的推移，AI 聊天機器人越來越不好用這件事，似乎已經(jīng)成為了全球用戶的共同體驗。其中例如微軟的 Bing Chat，即使有著 GPT-4 的支持、并打開了創(chuàng)造力模式，也經(jīng)常會出現(xiàn)經(jīng)常回避問題或是無法給出回復(fù)的情況。在海外社交媒體 Reddit 上，就有諸多網(wǎng)友吐槽 Bing Chat 已經(jīng)變得沒有樂趣可言，回答的內(nèi)容不再風(fēng)趣、不再快樂，讓人感覺是冷冰冰、沒有人性的機器。

更有甚者，在有用戶試圖要求 Bing Chat 圍繞某個虛構(gòu)人物進(jìn)行演繹時，在明知相關(guān)討論是無害的情況下，Bing Chat 居然認(rèn)為這一行為存在風(fēng)險。事實上，微軟方面也承認(rèn)了 Bing Chat 性能下降的事實，并在給出的相關(guān)回復(fù)中表示，正在積極監(jiān)測用戶的反饋，并計劃在不久的將來做出改變、以解決相關(guān)問題。

其實自今年 2 月初內(nèi)測以來，New Bing 已經(jīng)經(jīng)過了大大小小的幾次更新，從一開始的 " 牛 Bing"、到后來被 " 賽博閹割 " 成 "New 病 "，再到現(xiàn)在提供精準(zhǔn)、平衡、創(chuàng)造力三種模式，微軟方面一直在試圖做一款讓所有人滿意的 AI 大模型。但現(xiàn)在看來，似乎有點適得其反了，而 ChatGPT 這類大語言模型（下文簡稱為 LLM）之所以能夠在 2022 年秋季開始走紅，在 AI 熱退燒之后重新點燃外界對于其未來的熱情，靠的就是 ChatGPT 比以往任何同類產(chǎn)品都更智能，或者說更像人。

無獨有偶，ChatGPT 如今也開始被用戶吐槽逐漸出現(xiàn)了速度變慢、回復(fù)冗長重復(fù)、聊天主題單一無趣等問題。其實這類聊天機器人產(chǎn)品性能下降并非孤立事件，在不同廠商的 LLM 中都有發(fā)生。

事實上，業(yè)界也早已關(guān)注到這一現(xiàn)象。例如為了驗證 ChatGPT 的行為如何隨時間變化，斯坦福大學(xué)和加州大學(xué)伯克利分校的研究人員就測試了 GPT-4 在今年 3 月和 6 月的兩個版本，測試內(nèi)容橫跨數(shù)學(xué)問題、回答敏感問題、代碼生成和視覺推理四個部分。

最終的測試結(jié)果也確實證明了 ChatGPT 能力的衰減，例如在數(shù)學(xué)和視覺推理部分，研究人員使用了思維鏈（chain-of-thought，CoT）技術(shù)，讓 LLM 來模擬人類思考的過程，并幫助其生成一個推理路徑，將復(fù)雜的推理問題分解為多個簡單的步驟，而不僅僅只是從語料庫中直接擬合出最終答案。

然而結(jié)果顯示，GPT-4 的性能發(fā)生了顯著的漂移，從 3 月到 6 月，GPT-4 關(guān)于數(shù)學(xué)問題的準(zhǔn)確率一路從 97.6% 降至 2.4%，同時回答長度也減少了超過 90%。

而在視覺推理方面，6 月的 GPT-4 在部分此前在 3 月曾正確回答的查詢上，反而又出現(xiàn)了錯誤。即對于 3 月能給出正確結(jié)果的問題，6 月反而就做不到了。

如今相當(dāng)多程序員每天都在使用的 AI 編寫代碼，但研究人員發(fā)現(xiàn)，在 3 月時 GPT-4 輸出的代碼中有超過 50% 是可直接執(zhí)行的，可這一數(shù)字到了 6 月就僅有 10%。而且這還不是最夸張的，在回答敏感問題方面，GPT-4 的直接回答率已經(jīng)從 21% 降至 5%，甚至在拒絕回答不當(dāng)問題時，6 月版本的 GPT-4 也傾向于不向用戶提供解釋。

通常來說，事物的發(fā)展往往是呈螺旋形上升，具體到信息技術(shù)領(lǐng)域更呈現(xiàn)出了跨越式前進(jìn)的狀態(tài)，" 今不如古 " 的情況可以說是絕無僅有。那么問題就來了，出現(xiàn) " 科研靠考古 " 這種情況只有一種可能，那就是行業(yè)整體曾崩潰過、如今又在重建。但 AI 大模型可是純粹的前沿科技，并不存在類似的問題，所以這其中肯定是有蹊蹺的。

目前在網(wǎng)絡(luò)上最主流的聲音，是 ChatGPT、Bing Chat 能力下降是為了平衡用戶體驗的結(jié)果。畢竟 ChatGPT 生成的內(nèi)容是需要消耗算力的，用戶越多需要的算力就會隨之增加，但 OpenAI、微軟購買算力資源的速度在這半年以來，卻無法與用戶增長相匹配，所以就導(dǎo)致了響應(yīng)速度的下降，用戶得排隊向這類產(chǎn)品提問，而且提問數(shù)量被限制的情況也早已發(fā)生。所以在這種情況下，降低性能來平衡響應(yīng)速度就是不難想到的一種解決方案。

當(dāng)然，更深層次的核心矛盾是 AI 倫理問題，也就是數(shù)月前曾引起諸多討論的 "AI 可能給人類帶來滅絕風(fēng)險 "，對于 AI 的擔(dān)憂甚至讓 OpenAI 創(chuàng)始人奧特曼走上了美國參議院的聽證會，更讓他這幾個月來一直在全球各地 " 布道 "。不受控制的 AI 會成為毀滅人類文明的罪魁禍?zhǔn)祝@無疑是科幻小說的一個重要題材，因此對于 AI 失控的擔(dān)憂也是這一技術(shù)自誕生以來就存在的。

由此也衍生出了一個控制 AI 的概念 "AI 對齊 "，即要求 AI 系統(tǒng)的目標(biāo)要與人類的價值觀和利益對齊，使其符合設(shè)計者的利益預(yù)期，不會產(chǎn)生意外的有害后果，比如生成各種不當(dāng)言論等內(nèi)容。事實上，微軟、OpenAI 這列企業(yè)搞 AI 對齊是必然，例如微軟在 2016 年發(fā)布的聊天機器人 Tay 就曾出現(xiàn)過發(fā)表種族歧視內(nèi)容的情況，也直接導(dǎo)致它出師未捷身先死。

但強行讓 AI 遵守人類的價值觀本身就是反直覺的事情，想要讓 AI 與人類對齊，開發(fā)者就需要指定正確的目標(biāo)函數(shù)，需要證實應(yīng)當(dāng)提供什么樣的反饋才能正確引導(dǎo) AI。此外甚至還需要證明提供這些反饋是合理的，而這無疑堪稱是當(dāng)下難以解決的技術(shù)難題。那么問題也就來了，如果想要讓一個人不胡思亂想，并矯正其思維模式，最直接的方式是什么？當(dāng)然是諾貝爾獎中的黑歷史前腦葉白質(zhì)切除術(shù)了，直接就把人類的思維能力從物理層面消滅。

回到 AI 領(lǐng)域也是一樣，由微軟研究院發(fā)布的一篇論文證實對 AI 大模型所進(jìn)行的任何 AI 對齊行為，都會損失其準(zhǔn)確性和性能，因為 ChatGPT 這類產(chǎn)品是基于人類反饋的強化學(xué)習(xí)來構(gòu)建智能，人工強行干預(yù)的 AI 對齊會阻礙大模型對任務(wù)理解的真實程度。所以自然而然的，AI 大模型的性能就出現(xiàn)了開局即巔峰的情況。

但無論是算力緊張、還是 AI 倫理限制，短時間來看幾乎都是無解的，因此用戶體驗高開低走也是必然，相關(guān)企業(yè)也不太可能解決得了這一問題。

【本文圖片來自網(wǎng)絡(luò)】

關(guān)鍵詞：

責(zé)任編輯：hnmd003