聊天機(jī)器人已通過類人智能的關(guān)鍵測(cè)試?，F(xiàn)在怎么辦？

已經(jīng)有幾個(gè)標(biāo)題過去一周關(guān)于 AI 聊天機(jī)器人正式通過圖靈測(cè)試。

這些新聞報(bào)道基于最近的預(yù)印本研究由加州大學(xué)圣地亞哥分校的兩名研究人員進(jìn)行，其中四個(gè)大型語言模型（LLM）通過了圖靈測(cè)試。一個(gè)模型——OpenAI 的 GPT-4.5——被認(rèn)為在超過 70% 的時(shí)間里與人類沒有區(qū)別。

圖靈測(cè)試已經(jīng)普及作為機(jī)器智能的最終指標(biāo)。然而，關(guān)于該測(cè)試的有效性存在分歧。事實(shí)上，它有一段有爭(zhēng)議的歷史，這讓人質(zhì)疑它在衡量機(jī)器智能方面的真正效果。

那么，這對(duì)這項(xiàng)新研究的意義意味著什么呢？

研究發(fā)現(xiàn)了什么？

認(rèn)知科學(xué)家卡梅隆·瓊斯（Cameron Jones）和本杰明·伯根（Benjamin Bergen）的預(yù)印本研究于 3 月發(fā)表，但尚未經(jīng)過同行評(píng)審。它測(cè)試了 4 個(gè) LLM：伊麗莎,GPT-4o,LLaMa-3.1-405B和GPT-4.5 的.

測(cè)試包括參與者完成八輪對(duì)話，在對(duì)話中，他們充當(dāng)審訊者，同時(shí)與兩名證人交換短信。一名證人是人類，另一名是法學(xué)碩士。大約 284 名參與者被隨機(jī)分配為審訊者或證人。

參與者需要通過分屏同時(shí)與兩名證人互動(dòng) 5 分鐘，測(cè)試界面模仿傳統(tǒng)消息傳遞界面。在這次互動(dòng)之后，他們確定了哪個(gè)證人是人類，哪個(gè)是 AI 聊天機(jī)器人。

參與者判斷 GPT-4.5 在 73% 的情況下是人類，在 56% 的情況下判斷 LLaMa-3.1-405B 是人類。其他兩個(gè)模型（ELIZA 和 GPT-4o）分別只騙了 23% 和 21% 的參與者。

圖靈測(cè)試到底是什么？

圖靈測(cè)試的第一次迭代是由英國數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家艾倫·圖靈在 1948 年的一篇題為”智能機(jī)械".它最初被提議為一項(xiàng)實(shí)驗(yàn)，涉及三個(gè)人使用稱為造紙機(jī)的理論機(jī)器下棋，其中兩人是玩家，一名作員。

在 1950 年的出版物”計(jì)算機(jī)與智能“，圖靈將實(shí)驗(yàn)重新引入”模仿游戲“，并聲稱這是一種確定機(jī)器表現(xiàn)出相當(dāng)于人類的智能行為能力的方法。它涉及三名參與者：參與者 A 是女性，參與者 B 是男性，參與者 C 是任一性別。

通過一系列的問題，參與者 C 需要確定“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”，X 和 Y 代表兩種性別。

1951 年的艾倫·圖靈。(Elliott & Fry/維基百科)

然后提出了一個(gè)命題：“當(dāng)機(jī)器在這個(gè)游戲中占據(jù) A 的一部分時(shí)會(huì)發(fā)生什么？當(dāng)游戲以這種方式進(jìn)行時(shí)，審訊者會(huì)像在一男一女之間進(jìn)行游戲時(shí)一樣經(jīng)常做出錯(cuò)誤的決定嗎？

這些問題旨在取代模棱兩可的問題，“機(jī)器能思考嗎？圖靈機(jī)聲稱這個(gè)問題是模棱兩可的因?yàn)樗枰斫狻皺C(jī)器”和“思考”這兩個(gè)術(shù)語，而這兩個(gè)詞的“正?！笔褂脮?huì)導(dǎo)致對(duì)問題的回答不充分。

多年來，這個(gè)實(shí)驗(yàn)被推廣為圖靈測(cè)試。雖然主題各不相同，但測(cè)試仍然是對(duì)“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”的審議。

為什么會(huì)有爭(zhēng)議？

雖然圖靈測(cè)試作為一種測(cè)試機(jī)器智能的手段而廣受歡迎，但并未被一致接受為一種準(zhǔn)確的方法。事實(shí)上，該測(cè)試經(jīng)常受到挑戰(zhàn)。

有對(duì)圖靈測(cè)試的四個(gè)主要反對(duì)意見:

行為與思考。一些研究人員認(rèn)為，“通過”測(cè)試的能力是行為問題，而不是智力問題。因此，說機(jī)器可以通過模仿游戲，但不能思考，這并不矛盾。
大腦不是機(jī)器。圖靈斷言大腦是一臺(tái)機(jī)器，聲稱它可以用純粹機(jī)械的術(shù)語來解釋。許多學(xué)者反駁了這一說法，并以此為基礎(chǔ)質(zhì)疑該測(cè)試的有效性。
內(nèi)部作。由于計(jì)算機(jī)不是人類，它們得出結(jié)論的過程可能無法與人相提并論，這使得測(cè)試不充分，因?yàn)橹苯颖容^不起作用。
測(cè)試范圍。一些研究人員認(rèn)為，僅測(cè)試一種行為不足以確定智力。

聊天機(jī)器人可能變得與人類難以區(qū)分，但這并不意味著它們的想法相同。(NicoElNino/Canva)

那么 LLM 和人類一樣聰明嗎？

雖然預(yù)印本文章聲稱 GPT-4.5 通過了圖靈測(cè)試，但它也指出：

圖靈測(cè)試是可替代性的衡量標(biāo)準(zhǔn)：一個(gè)系統(tǒng)是否可以代替一個(gè)真實(shí)的人，而 [...]沒有注意到差異。

這意味著研究人員不支持圖靈測(cè)試是人類智能的合法指標(biāo)的觀點(diǎn)。相反，它是對(duì)人類智能的模仿——對(duì)測(cè)試起源的頌歌。

還值得注意的是，該研究的條件并非沒有問題。例如，五分鐘的測(cè)試窗口相對(duì)較短。

此外，每個(gè) LLM 都被提示采用特定的角色，但目前尚不清楚“角色”的細(xì)節(jié)和對(duì)測(cè)試的影響。

目前，可以肯定地說 GPT-4.5 不如人類聰明——盡管它可能會(huì)合理地說服一些人。

澤娜·阿薩德，高級(jí)講師，工程學(xué)院，澳大利亞國立大學(xué)

本文轉(zhuǎn)載自對(duì)話根據(jù) Creative Commons 許可。閱讀原創(chuàng)文章.

寶寶起名起名

本站所有相關(guān)知識(shí)僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請(qǐng)與小編聯(lián)系，我們將會(huì)在第一時(shí)間核實(shí)并給予反饋。

相關(guān)期刊推薦