聊天機(jī)器人已通過類人智能的關(guān)鍵測(cè)試?,F(xiàn)在怎么辦?

已經(jīng)有幾個(gè)標(biāo)題過去一周關(guān)于 AI 聊天機(jī)器人正式通過圖靈測(cè)試。

這些新聞報(bào)道基于最近的預(yù)印本研究由加州大學(xué)圣地亞哥分校的兩名研究人員進(jìn)行,其中四個(gè)大型語言模型 (LLM) 通過了圖靈測(cè)試。一個(gè)模型——OpenAI 的 GPT-4.5——被認(rèn)為在超過 70% 的時(shí)間里與人類沒有區(qū)別。

圖靈測(cè)試已經(jīng)普及作為機(jī)器智能的最終指標(biāo)。然而,關(guān)于該測(cè)試的有效性存在分歧。事實(shí)上,它有一段有爭(zhēng)議的歷史,這讓人質(zhì)疑它在衡量機(jī)器智能方面的真正效果。

那么,這對(duì)這項(xiàng)新研究的意義意味著什么呢?

研究發(fā)現(xiàn)了什么?

認(rèn)知科學(xué)家卡梅隆·瓊斯 (Cameron Jones) 和本杰明·伯根 (Benjamin Bergen) 的預(yù)印本研究于 3 月發(fā)表,但尚未經(jīng)過同行評(píng)審。它測(cè)試了 4 個(gè) LLM:伊麗莎,GPT-4o,LLaMa-3.1-405BGPT-4.5 的.

測(cè)試包括參與者完成八輪對(duì)話,在對(duì)話中,他們充當(dāng)審訊者,同時(shí)與兩名證人交換短信。一名證人是人類,另一名是法學(xué)碩士。大約 284 名參與者被隨機(jī)分配為審訊者或證人。

參與者需要通過分屏同時(shí)與兩名證人互動(dòng) 5 分鐘,測(cè)試界面模仿傳統(tǒng)消息傳遞界面。在這次互動(dòng)之后,他們確定了哪個(gè)證人是人類,哪個(gè)是 AI 聊天機(jī)器人。

參與者判斷 GPT-4.5 在 73% 的情況下是人類,在 56% 的情況下判斷 LLaMa-3.1-405B 是人類。其他兩個(gè)模型(ELIZA 和 GPT-4o)分別只騙了 23% 和 21% 的參與者。

圖靈測(cè)試到底是什么?

圖靈測(cè)試的第一次迭代是由英國數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家艾倫·圖靈在 1948 年的一篇題為”智能機(jī)械".它最初被提議為一項(xiàng)實(shí)驗(yàn),涉及三個(gè)人使用稱為造紙機(jī)的理論機(jī)器下棋,其中兩人是玩家,一名作員。

在 1950 年的出版物”計(jì)算機(jī)與智能“,圖靈將實(shí)驗(yàn)重新引入”模仿游戲“,并聲稱這是一種確定機(jī)器表現(xiàn)出相當(dāng)于人類的智能行為能力的方法。它涉及三名參與者:參與者 A 是女性,參與者 B 是男性,參與者 C 是任一性別。

通過一系列的問題,參與者 C 需要確定“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”,X 和 Y 代表兩種性別。

1951 年的艾倫·圖靈。(Elliott & Fry/維基百科)

然后提出了一個(gè)命題:“當(dāng)機(jī)器在這個(gè)游戲中占據(jù) A 的一部分時(shí)會(huì)發(fā)生什么?當(dāng)游戲以這種方式進(jìn)行時(shí),審訊者會(huì)像在一男一女之間進(jìn)行游戲時(shí)一樣經(jīng)常做出錯(cuò)誤的決定嗎?

這些問題旨在取代模棱兩可的問題,“機(jī)器能思考嗎?圖靈機(jī)聲稱這個(gè)問題是模棱兩可的因?yàn)樗枰斫狻皺C(jī)器”和“思考”這兩個(gè)術(shù)語,而這兩個(gè)詞的“正?!笔褂脮?huì)導(dǎo)致對(duì)問題的回答不充分。

多年來,這個(gè)實(shí)驗(yàn)被推廣為圖靈測(cè)試。雖然主題各不相同,但測(cè)試仍然是對(duì)“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”的審議。

為什么會(huì)有爭(zhēng)議?

雖然圖靈測(cè)試作為一種測(cè)試機(jī)器智能的手段而廣受歡迎,但并未被一致接受為一種準(zhǔn)確的方法。事實(shí)上,該測(cè)試經(jīng)常受到挑戰(zhàn)。

對(duì)圖靈測(cè)試的四個(gè)主要反對(duì)意見:

  1. 行為與思考。一些研究人員認(rèn)為,“通過”測(cè)試的能力是行為問題,而不是智力問題。因此,說機(jī)器可以通過模仿游戲,但不能思考,這并不矛盾。
  2. 大腦不是機(jī)器。圖靈斷言大腦是一臺(tái)機(jī)器,聲稱它可以用純粹機(jī)械的術(shù)語來解釋。許多學(xué)者反駁了這一說法,并以此為基礎(chǔ)質(zhì)疑該測(cè)試的有效性。
  3. 內(nèi)部作。由于計(jì)算機(jī)不是人類,它們得出結(jié)論的過程可能無法與人相提并論,這使得測(cè)試不充分,因?yàn)橹苯颖容^不起作用。
  4. 測(cè)試范圍。一些研究人員認(rèn)為,僅測(cè)試一種行為不足以確定智力。
聊天機(jī)器人可能變得與人類難以區(qū)分,但這并不意味著它們的想法相同。(NicoElNino/Canva)

那么 LLM 和人類一樣聰明嗎?

雖然預(yù)印本文章聲稱 GPT-4.5 通過了圖靈測(cè)試,但它也指出:

圖靈測(cè)試是可替代性的衡量標(biāo)準(zhǔn):一個(gè)系統(tǒng)是否可以代替一個(gè)真實(shí)的人,而 [...]沒有注意到差異。

這意味著研究人員不支持圖靈測(cè)試是人類智能的合法指標(biāo)的觀點(diǎn)。相反,它是對(duì)人類智能的模仿——對(duì)測(cè)試起源的頌歌。

還值得注意的是,該研究的條件并非沒有問題。例如,五分鐘的測(cè)試窗口相對(duì)較短。

此外,每個(gè) LLM 都被提示采用特定的角色,但目前尚不清楚“角色”的細(xì)節(jié)和對(duì)測(cè)試的影響。

目前,可以肯定地說 GPT-4.5 不如人類聰明——盡管它可能會(huì)合理地說服一些人。

澤娜·阿薩德, 高級(jí)講師, 工程學(xué)院,澳大利亞國立大學(xué)

本文轉(zhuǎn)載自對(duì)話根據(jù) Creative Commons 許可。閱讀原創(chuàng)文章.

寶寶起名 起名

本站所有相關(guān)知識(shí)僅供大家參考、學(xué)習(xí)之用,部分來源于互聯(lián)網(wǎng),其版權(quán)均歸原作者及網(wǎng)站所有,如無意侵犯您的權(quán)利,請(qǐng)與小編聯(lián)系,我們將會(huì)在第一時(shí)間核實(shí)并給予反饋。
相關(guān)期刊推薦
湖北農(nóng)機(jī)化

湖北農(nóng)機(jī)化

農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級(jí)期刊

知識(shí)窗

知識(shí)窗

合作期刊 - 省級(jí)期刊

建材與裝飾

建材與裝飾

合作期刊 - 省級(jí)期刊

科技經(jīng)濟(jì)導(dǎo)刊

科技經(jīng)濟(jì)導(dǎo)刊

合作期刊 - 省級(jí)期刊

時(shí)代農(nóng)機(jī)

時(shí)代農(nóng)機(jī)

農(nóng)業(yè)綜合 - 省級(jí)期刊

攝影與攝像

攝影與攝像

信息科技 - 國家級(jí)期刊

智庫時(shí)代

智庫時(shí)代

合作期刊 - 省級(jí)期刊

科海故事博覽(科技探索)

科海故事博覽(科技探索)

信息科技 - 省級(jí)期刊

新校園

新校園

合作期刊 - 省級(jí)期刊

數(shù)字通信世界

數(shù)字通信世界

合作期刊 - 國家級(jí)期刊