top top top
第B06版:要聞 上一版3  4下一版  
      本版標題導航
世衛:H5N1病毒影響較低
駐日美軍基地排污恐已洩漏
研究:AI認知障礙測試獲差評
尼首都人踩人十死
聖誕禮物
特斯拉召回近七十萬車
德大眾三○年前裁員逾三萬五
     [ 設為首頁 ] | | [ 返回主頁 ] |
今日日期:     版面導航
當前報紙日期:
2024 12月22日 星期
 
3上一篇  下一篇4  
  放大 縮小 默认        

研究:AI認知障礙測試獲差評



人工智能模型在當前測試中表現出輕度認知障礙 (路透社)

    研究:AI認知障礙測試獲差評

    【據新華社北京廿一日電】《英國醫學雜誌》最新發表的一項研究顯示,在廣泛用於檢測阿爾茨海默病早期症狀的測試中,大部分參與測試的人工智能(AI)大語言模型都表現出相當於人類輕度認知障礙的跡象。儘管這只是一項基於觀察的研究,但新發現挑戰了人工智能將很快取代人類醫生的假設。

    醫學診斷表現突出

    過去幾年,人工智能尤其是大語言模型生成能力取得了巨大進步。在醫學領域,這些發展引發了猜測:這些大語言模型能在醫療任務上超越人類醫生嗎?儘管先前的多項研究表明,大語言模型在一系列醫學診斷任務上表現非常出色,但它們的認知能力變化還需要進一步驗證。

    為填補這一知識空白,以色列哈達薩醫療中心等機構的研究人員使用“蒙特利爾認知評估量表”測試了多個領先和公開的大語言模型的認知能力。這些大語言模型包括由美國開放人工智能研究中心(OpenAI)開發的GPT-4和GPT-4o、由美國Anthropic公司開發的“克勞德3.5”以及由美國谷歌公司開發的“雙子座1.0”和“雙子座1.5”。

    視覺空間技能不佳

    “蒙特利爾認知評估量表”廣泛用於檢測認知障礙和阿爾茨海默病的早期跡象,通常用於老年人。通過一系列簡短的任務和問題,該測試可以評估注意力、記憶力、語言、視覺空間技能和執行功能等能力。得分最高為三十分,通常得分廿六分及以上被視為認知正常。

    測試結果顯示,GPT-4o得分最高——廿六分,“雙子座1.0”得分最低——十六分。所有大語言模型都能很好地完成命名、注意力、語言和抽象等方面的任務,但在視覺空間技能和執行功能測試中都表現不佳。在進一步的視覺空間測試中,大部分大語言模型無法準確解釋複雜的視覺場景。

    臨床環境恐難勝任

    研究人員表示,在需要視覺抽象和執行功能的任務中,大語言模型幾乎“全軍覆沒”,這表明人工智能在臨床環境中的使用可能會有困難。因此他們開玩笑說,神經科醫生不僅不太可能很快被大語言模型取代,而且他們可能會發現自己將迎來新的“虛擬患者”——表現出輕度認知障礙的人工智能模型。

3上一篇  下一篇4