明報新聞網海外版-明報加東版(多倫多) - Ming Pao Canada Toronto Chinese Newspaper
[ 前往新版面 ]
 
主頁    要聞     加國新聞     地產新頁     中國     國際     港聞     經濟     體育     影視     副刊    工商專業    股市行情  
即時新聞網 ·  醫事網 ·  車網 ·  樂在明廚 ·  置業頻道 ·  FAN club ·  分類網 ·  特刊專區 ·  香港股市行情
   
 
其他新聞
速龍隊無編號 郭卓堅申覆核
搭棚墜狗臂架 孫睹x遭擊斃 住宅裝修出事 工人涉誤殺被捕
建造業:防甩手 裝拆同應先綁繩
深圳:蓮塘口岸9月具備開通條件
App影相度身出紙樣 訂製衣履更快更合身
[顯示全部題目]

[昔日明報]

 
港聞
 林鄭網上逾30花名 系統懂辨認

【明報專訊】以搜尋器優化(SEO)技術為本業的梁元邦,6年前由澳洲回流,為一網上媒體主理社交媒體平台內容,2016年自立門戶,與團隊開發出全港首個「無字庫文本分析系統」,並能辨認人名及歸類,特首林鄭月娥在網上有逾30個花名,該系統可辨識花名所指是林鄭月娥,方便分析輿論。

「無字庫文本分析系統」是梁元邦的公司ASI Analytics & Media的核心技術。梁表示,2016年曾以文本分析系統分析立法會選舉,發現該系統對中文文本並沒足夠敏感度,決定自建人工智能系統認中文字,為現時「無字庫文本分析系統」的雛形,稱為「MIMI」。

上「兩登」學常用語 變學粗口

團隊最初讓「MIMI」從本地兩大討論區連登及高登學認日常用語,卻發現一大問題,「一放它(MIMI)入去就學到粗口,其中一個為高登粗口filter(過濾)『向左走向右走』」,故把它拉出來並重建另一系統。

新的「無字庫文本分析系統」名為「工廠妹系統」,有別於Google蜘蛛式爬取數據,其系統如工廠,派出一隊工人撈取數據。系統已由最初3分鐘進化至現時約100秒,就可從過千個本地新聞網站、媒體專頁等抓取數據,以新聞學中文,每日可學習300至500個生字,令字庫與時並進,成功率由早期的逾80%升至逾95%。

梁說,最初系統辨認人名如「曾俊華」,亦同時認到「俊華的」,因不少文章會寫「曾俊華的」,因有深度學習機制,現不會再現這情G,已可認到名詞、動詞、人名、量詞等。

系統亦懂得歸類,如林鄭月娥在網上有逾30個花名,如「777」、「好打得」、「女版689」等,系統可辨識以其「花名」作稱號的內容,實質提及林鄭,以分析輿情。

(反修例風暴)

 
 
今日相關新聞
6?16遊行人數C 大數據系統早猜出 稱政府漠視輿情 開發者:分析助解公關災難
林鄭網上逾30花名 系統懂辨認
大數據分析:報道標題有「逃犯」 搜尋結果排較前
英外相:人權關注獲回應前 停批裝備輸港
陳太:林鄭下台無補於事 鄭若驊應請辭
[顯示全部題目]



引用明報

引用明報(加拿大)內容收費準則:(包括:報章,各類附刊,數碼及任何名下之內容)

文字:每100字(含標點符號) 30元
特別內容如獨家新聞,名家約稿等另按情況收費

圖片:每張50元
獨家,合成圖片,圖樣設計另議。

凡未於收費表列明之項目而屬明報(加拿大)內容者,引用者請先行查詢收費。

舉報剽竊內容獎勵辦法:

凡舉報可能剽竊明報(加拿大)內容者,若有關舉報能成功令明報(加拿大)追討有關費用,在扣除追討費用後,舉報者可獲有關金額的15%作為酬勞。

 
廣告 advertisement
廣告 advertisement
 
 
 
 
主頁 ,  誠聘 , 待聘 ,
房屋出租  ,  招生  , 
服務  ,  買賣  ,  其他