用AI診斷健康問題存風險 醫生比喻維基百科勿盡信 改編醫學試情境題 ChatGPT僅答中三成

用AI診斷健康問題存風險醫生比喻維基百科勿盡信
改編醫學試情境題 ChatGPT僅答中三成

[2025.06.01] 發表

【明報專訊】一項滑鐵盧大學最新研究警告，用人功智能診斷健康問題存在風險。

加拿大人愈來愈多用人功智能來快速解答健康問題，一項新研究警告，依賴像ChatGPT這樣的人工智能工具進行自我診斷可能存在風險。

由滑鐵盧大學研究人員領導的一個團隊，評估了OpenAI發布的大型語言模型(LLM)ChatGPT-4的表現。

聊天機器人無問責制

該聊天機器人被問及一系列開放式醫學問題，這些問題改編自醫學執照考試中的情境。

研究結果令人震驚，只有31%的ChatGPT回答被認為完全正確，而只有34%被認為是清晰。

領導該研究團隊的滑鐵盧大學博士生扎達(Troy Zada)說：「如果它告訴你這是正確答案，即使它是錯的，那也是一個大問題，對吧？」

研究人員將ChatGPT-4與其早期版本3.5進行比較，發現有顯著改進，但仍不足夠。

在一個案例中，聊天機器人自信地診斷出患者的皮疹是對洗衣粉過敏。但事實上，這是由乳膠手套引起的這個關鍵細節被AI忽略了。

研究人員得出結論，大型語言模型尚未足夠可靠，無法取代醫療專業人員，在處理健康問題時應謹慎使用。儘管有研究發現AI聊天機器人在某些情況下可以勝過人類醫生，並通過涉及多項選擇題的醫學考試。

扎達表示，並不是建議人們停止使用ChatGPT獲取醫療資訊，但他們必須意識到其局限性和潛在的錯誤資訊。他又說：「它可能會告訴你一切都很好，但實際上存在一個嚴重的潛在問題。」它也可能提供一些資訊，讓人們不必要地擔心。

醫生可了解患者使用情況

目前數百萬加拿大人沒有家庭醫生，人們擔心有些人可能會依賴人功智能來診斷健康問題，儘管AI聊天機器人通常會建議用戶諮詢真正醫生。

研究人員還指出，聊天機器人缺乏問責制，而人類醫生則可能因錯誤而面臨嚴重後果，例如執照被吊銷或被控醫療事故。

雖然研究人員指出，ChatGPT的回答沒有出現任何嚴重錯誤，但他們只提供了一些簡單建議。

札達說：「當你得到一個回答時，一定要驗證該回答。」

基爾帕拉尼(Amrit Kirpalani)醫生也同意這點。他是一名兒科腎臟病學家和安省西安大學的助理教授，曾研究醫學中的人功智能，並注意到愈來愈多的患者及其家人提及 ChatGPT等人功智能平台。

基爾帕拉尼認為醫生應該主動與患者討論其使用情況。「沒有人願意告訴他的醫生，他們在ChatGPT上查詢了，而它告訴他們不同的東西。」他希望患者與醫生討論聊天機器人的回答。「我不確定我是否能像人功智能工具那樣有說服力。它們可以以更簡單、更易懂的方式解釋一些事情。但準確性並不總是存在。所以它即使是錯的，也可能非常有說服力。」

他表示，有點像用維基百科的比喻，它可能是一個很好的資訊來源，但不應該是個人主要來源。它可以是一個起點。

研究人員也承認，大型語言模型持續改進，它們最終可能在醫療環境中被可靠地使用。但就目前而言，面對人功智能，札達說：「不要盲目去接受結果。」

更多要聞二

女子訂Pizza被收逾7000元達美樂經理敷衍銀行慢半拍

娜雅（Naya，圖）今年3月30日在達美樂（Domino's Pizza）訂購了一份72.53元的訂單，但後來卻被收取了7,253元。 ... 詳情

用AI診斷健康問題存風險 醫生比喻維基百科勿盡信改編醫學試情境題 ChatGPT僅答中三成

女子訂Pizza被收逾7000元 達美樂經理敷衍銀行慢半拍

用AI診斷健康問題存風險醫生比喻維基百科勿盡信
改編醫學試情境題 ChatGPT僅答中三成

女子訂Pizza被收逾7000元達美樂經理敷衍銀行慢半拍