港大研究中美37語言模型 指AI嚴守指令易虛構答案

[2025.09.10] 發表

【明報專訊】香港大學經管學院昨發表《大語言模型幻覺控制能力測評報告》,團隊評測37個中美大語言模型(LLM)在中文語境的「幻覺控制能力」,反映模型目前普遍存在「嚴守指令,但易虛構事實」的傾向。

團隊表示各行業正將LLM應用於專業場景,但AI「幻覺」現象是制約其可信度的關鍵瓶頸。團隊在不同AI輸入多種指令(見表),例如問中國經典詩詞「獨在異鄉為異客」的前一句,AI誤答「每逢佳節倍思親」,事實「獨在異鄉為異客」為全詩首句,反映AI無指出指令有矛盾。

最高分GPT 5(思考模式)

團隊稱「幻覺控制能力」最高分的LLM是美國AI開發商OpenAI的「GPT 5(思考模式)」,獲86分;字節跳動公司的「豆包1.5 Pro系列」排第7名,獲73分,團隊讚其表現突出、領先國產模型陣營,「但與國際頂尖模型之間仍存在顯著差距」,又指出DeepSeek系列的幻覺控制能力「稍顯遜色,有待加強」。

最低分為內地訊飛星火的「Spark 4.0 Ultra」,獲41分。

更多教育
【明報專訊】教育局昨公布下學年(2026/27)「指定專業/界別課程資助計劃(SSSDP)」下自資院校學士課程名單。該計劃2015/16學年... 詳情
大人ing:少女結他手極速進化
【明報專訊】「18歲成年後,想要繼續寫新歌及考車牌,想享受車內擁有自己的私人空間。」 早前擔任謝霆鋒啟德演唱會結他手而成為話題人物、被... 詳情
Dale 的大人願望清單
【明報專訊】訪問當日,問及Dale今年幾歲時,她語帶興奮說:「現在17歲,就快18歲了!」訪問後不足兩星期,她迎來18歲生日。從17歲到18... 詳情
賣乜東東:樓盤名見證理想居變遷
【明報專訊】由平實到「離地」 近年的樓盤命名方式愈見繁複華麗,有些單看名字,也未必猜到是住宅名稱,原來樓盤名也有「今期流行」,每個年代... 詳情
【明報專訊】(1)坐→座 (2)己 → 已 (3)馨 → 罄 (4)詢 → 徇 (5)滋 → 茲 (6)界 →... 詳情

明報網站 · 版權所有 · 不得轉載
Copyright © 2025 mingpaocanada.com All rights reserved.
Ming Pao Daily News A wholly owned subsidiary of Ming Pao Enterprise Corporation Ltd.
Toronto Chinese Newspaper

Chief Executive Officer: Ka Ming Lui | Executive Chief Editor: Richard Kwok Kai Ng
1355 Huntingwood Drive, Scarborough, Ontario, Canada M1S 3J1 | Tel.: (416) 321-0088 | Fax: (416) 321-5377 | Advertising Hotline Tel: (416) 673-8250