Google AI數據庫曝光 HKFP港媒來源最多勝《南早》 「立場」仍留存16萬Token

人工智能(AI)聊天軟件連月熱爆,美國《華盛頓郵報》與艾倫人工智能研究所合作研究多個AI模型使用的Google數據集「C4」資料來源,整理出約1,000萬個網站的資料。不少香港網站也被列入參考,其中來自香港政府新聞網的資訊,在資料庫中約有92萬個「Token」(業內術語,可理解為AI程式內的字元單位,每個Token約相當於0.5個中文字),英文傳媒Hong Kong Free Press則有180萬個Token,估計冠絕香港傳媒,已結束的「立場新聞」亦有約16萬個Token,至於仍留存於香港的中文傳媒,暫則以香港獨立媒體的6.2萬個Token佔優。

人工智能無法像人類一樣學習,只是從不同網站獲取資料,再轉化為人類語言,才能跟人類用戶「聊天」。Google「C4」是其中一個AI模型常用的數據庫,目前Google和Facebook的語言模型都會參考其資料。《華郵》和艾倫人工智能研究所發現「C4」背後約有1,500萬個網站,當中約1,000萬個找到來源,以及數據庫從這些網站輸入的Token數量。

本文為節錄版本,全文請到Patreon閱覽:
https://www.patreon.com/posts/81792956

《紐時》歐美新聞網最多引用

報道列出C4數據庫的「Token」來源,首3位分別是Google專利網頁「patents.google.com」、維基百科和網上圖書館「scribd.com」。多個歐美新聞網站亦名列前茅,其中《紐約時報》以約1億個Token排第四、《洛杉磯時報》約有8,500萬個Token排第六、英國《衞報》以8,300萬個Token排第七,英國廣播公司(BBC)則約有7,100萬個Token,以總數計可打入十大,但因分散在多個域名「bbc.com」、「bbc.co.uk」以及「news.bbc.co.uk」等而排名墮後。

香港網站方面,不少傳媒也是「C4」數據庫的來源,當中以英文傳媒佔多,例如「Hong Kong Free Press」(HKFP)被列為數據庫的資料有180萬個Token,在全球打入第5,479名,至於《南華早報》的「scmp.com」亦有120萬個Token列入數據庫。由於資料庫收集數據時《立場新聞》仍未結束,Google也從《立場》收集16萬個Token。不過若輸入《蘋果日報》昔日網址「hk.appledaily.com」或「hk.apple.nextmedia.com」,都未能找到任何資料。

美國《華盛頓郵報》

標籤: , , ,


一齊撐起《追新聞》

一齊撐起《追新聞》

訂閱《追新聞》Patreon 支持,閱讀所有「追・新聞」、「追・專題」以及「追・專欄」的全部報道內容,有賴讀者付費月訂或年訂支持營運。

訂閱支持