AI聊天機械人 也能當醫生?
研究顯示,人工智能(AI)聊天機械人ChatGPT通過美國執業醫師資格考試(USMLE),得分達到或接近及格所需的六十分。
美國期刊《PLOS數碼醫療》近日發佈的報告說,該研究由三個部份組成,採用USMLE試卷二○二二年六月版三百七十六道試題中的三百五十道,測試ChatGPT的多個醫學學科知悉,涉及基礎科學、生物化學、診斷推理和生物道德學。結果顯示,ChatGPT在三個部份中取得了五十二點四至七十五分的成績。它還在研究報告的撰寫方面提供了輔助。該測試評估醫學生和實習醫生對大多數醫學學科的知識,自一九九二年以來一直使用。USMLE Step 1通常在醫學院第二年結束時進行,Step 2在第四年進行,Step 3在完成醫學院和住院醫師的第一年後進行。每年有超過十名學生和研究生參加考試。ChatGPT還針對其百分之八十八點九的回覆產生了“至少一個重要見解”,該見解是“新的、非顯而易見的和臨床有效的”。結果超過了PubMedGPT的性能,PubMedGPT是一種專門針對生物醫學領域文獻進行訓練的對應模型,在較舊的USMLE式問題數據集上得分為 百分之五十點八。
研究員認為他們的發現表明ChatGPT可能成為醫學教育中的一個有價值的工具,這標誌着臨床AI成熟的一個顯著里程碑。“這些成績說明,大量的語言模型或許可以輔助醫療教育,且有可能用於臨床決策。”
由加州公司OpenAI研發的ChatGPT可以在幾秒之內編寫論文、詩歌和程序代碼。新西蘭軟件工程專家麥考倫說,除了ChatGPT以外,Google的人工智能醫學工具Med-PaLM,或許也能為病人提供堪比專業全科醫生的問診服務。他預見社會即將發生變化,人們或將很快就能從Google醫生或必應(Bing)護士獲取醫療建議。
不過,一些專家強調了研究結果和人工智能使用的局限性。巴斯大學人工智能教授內洛 · 克里斯蒂亞尼尼教授說:“這並不意味着ChatGPT擁有與人類相當的知識……我們擁有一種經過訓練可以生成文本的統計機制,所以我們不應該談論理解或相關概念。”
人工智能技術還可以延續種族、性別和文化等社會偏見。包括谷歌和亞馬遜在內的科技巨頭此前已經承認,他們的一些試驗人工智能的項目存在“道德風險”並且存在局限性。在幾家公司,人類不得不介入並解決這些問題。
儘管如此,Aligned AI的聯合創始人兼首席研究員斯圖爾特 · 阿姆斯特朗博士認為,“這是一個令人印象深刻的表現,我們應該期待在未來看到更多這樣的人工智能成功案例。”在許多領域,人類比人工智能更有效……不過,人類的這種優勢不會永遠持續下去。總有一天,AI會在幾乎每一項任務上都比我們做得更好。
水 登