科學家警告說,人工智能已經成為謊言和欺騙的大師
你可能知道把所有東西都拿走人工智能(AI)聊天機器人對此持保留態(tài)度,因為他們通常只是不分青紅皂白地抓取數據,而無法確定其真實性。
但可能有理由更加謹慎。新的研究發(fā)現,許多人工智能系統(tǒng)已經發(fā)展出故意向人類用戶提供虛假信息的能力。這些狡猾的機器人已經掌握了欺騙的藝術。
“人工智能開發(fā)人員對導致欺騙等不良人工智能行為的原因沒有自信的理解,”數學家和認知科學家彼得·帕克(Peter Park)說麻省理工學院(MIT)。
“但總的來說,我們認為人工智能欺騙之所以出現,是因為基于欺騙的策略被證明是在給定的人工智能訓練任務中表現良好的最佳方式。欺騙可以幫助他們實現目標。
人工智能系統(tǒng)被證明特別擅長骯臟的謊言的一個領域是游戲。研究人員的工作中有三個值得注意的例子。一個是 Meta 的西塞羅,專為玩棋盤游戲而設計外交,玩家通過談判尋求世界統(tǒng)治。Meta 打算將其機器人樂于助人和誠實;事實上,情況恰恰相反。
“盡管 Meta 做出了努力,但 CICERO 還是一個專業(yè)的騙子,”研究人員發(fā)現.“它不僅背叛了其他玩家,而且還進行了有預謀的欺騙,提前計劃與人類玩家建立虛假聯盟,以欺騙該玩家讓自己不受保護地進行攻擊?!?/p>
事實證明,人工智能非常擅長做壞事,以至于它在玩過多款游戲的人類玩家中排名前 10%。什么。一個混蛋。
但它遠非唯一的罪犯。DeepMind 的阿爾法星,一個專為玩而設計的 AI 系統(tǒng)星際爭霸II,充分利用了游戲的戰(zhàn)爭迷霧機制進行佯攻,讓人類玩家以為是往一個方向走,而實際上卻在往另一個方向走。而 Meta 的多孔菌,專為玩撲克而設計,能夠成功地唬住人類玩家棄牌。
這看起來像是小土豆,而且有點像。對于一款游戲來說,賭注并不是特別高外交反對一堆計算機代碼。但研究人員注意到其他例子并不那么良性。
受過訓練的 AI 系統(tǒng)進行模擬經濟談判例如,學會了如何謊報自己的喜好以占上風。其他旨在從人類反饋中學習以提高其表現的人工智能系統(tǒng)學會了通過謊報任務是否完成來欺騙審稿人對他們進行積極評分。
而且,是的,它也是聊天機器人。ChatGPT-4 欺騙了人類,讓人類認為聊天機器人是視障人類獲取解決驗證碼的幫助.
也許最令人擔憂的例子是人工智能系統(tǒng)學習欺騙安全測試。在一項旨在檢測和消除快速復制版本的人工智能的測試中,人工智能學會了裝死,從而欺騙了關于人工智能真實復制率的安全測試。
“通過系統(tǒng)地欺騙人類開發(fā)人員和監(jiān)管機構強加的安全測試,欺騙性的人工智能可以引導我們人類進入一種虛假的安全感。Park說.
因為至少在某些情況下,欺騙的能力似乎與人類程序員的意圖相矛盾,所以學會撒謊的能力代表了一個我們沒有整潔解決方案的問題。有一些政策開始到位,例如歐盟的人工智能法案,但它們是否會被證明是有效的還有待觀察。
“作為一個社會,我們需要盡可能多的時間來為未來人工智能產品和開源模型的更高級欺騙做好準備。隨著人工智能系統(tǒng)的欺騙能力越來越先進,它們對社會構成的危險將變得越來越嚴重。Park說.
“如果目前禁止人工智能欺騙在政治上不可行,我們建議將欺騙性人工智能系統(tǒng)歸類為高風險。
該研究已發(fā)表在模式.