Mar, 20

簡體字 OUT,正體字 IN!讓AI講臺灣話!

DSR4AI 的緣起與使命 

臺灣與中國的知識體系和語言習慣已經發展出截然不同的面貌。臺灣獨特的歷史背景、地理環境、社會組成和政治制度,塑造了我們與眾不同的文化特質和語言風格。這種差異不僅體現在日常生活的方方面面,也深刻影響了我們的思維方式和價值觀念。

正如教育本地小孩需要優良的在地教科書一樣,訓練真正理解臺灣的AI系統,也需要大量高品質的臺灣在地文本。然而,隨著AI技術的日新月異和應用的廣泛普及,越來越多人開始利用AI進行學習、研究和工作。這種趨勢雖然帶來了便利和效率,但也潛藏著巨大的隱憂:目前的 AI 系統主要依賴中國的訓練資料,那麼它們產生的內容將不可避免地帶有濃厚的中國色彩與認知。臺灣獨特的在地文化和用語將面臨快速崩潰的危機。

DSR4AI 懷抱守護臺灣文化、傳承在地智慧的使命,致力於建立一個開放、自由、多元的臺灣文化資料集。通過廣泛募集涵蓋各種在地語言的臺灣文本,例如文學作品、新聞報導、社交媒體對話、政府公文等,我們希望為 AI 系統提供豐富且真實的臺灣文化教科書。AI 的臺灣文化教科書,是在地化應用和創新的基礎,也是臺灣文化走向世的關鍵。


AI訓練資料的失衡與隱憂

Meta 先前發布的 Llama 1模型,其訓練資料量達到了驚人的 4700GB。這相當於250萬部《紅樓夢》的文字量!其中,AI 訓練資料呈現出嚴重的失衡狀態:英語資料的比例高達 89.7%,中文的資料僅佔 0.13%,其中包含了簡體與正體。以 Meta 推出的開源模型 Llama 2 為例,這種懸殊的資料差距清晰地反映在它生成的內容上,常常可以看到滿篇的中國用語。

反觀臺灣,目前能用於AI訓練的正體中文資料,恐怕遠不及這個簡體中文的萬分之一。

在AI時代,資料就是決定 AI 發展方向和品質的關鍵。如果我們繼續讓 AI 只能利用中國的簡體中文學習知識,不僅 AI 對臺灣文化的理解會停留在非常片面和膚淺的層次。更可怕的是,隨著 AI 在學習中的大規模應用,臺灣豐富而獨特的在地知識和語言,將快速被中國的文化、用語所同化,進而失語、瀕危。文化主體和話語權的喪失,將導致文化的消亡。建立高品質、大規模的臺灣文化資料集,已成刻不容緩的任務。


DSR4AI的目標與行動策略

面對 AI 訓練資料嚴重失衡的現狀,DSR4AI提出了一套務實的行動策略。

首先,我們設定了一個清晰而富有挑戰性的目標:在兩年內逐步累積 100GB 的臺灣文本資料,為AI提供豐富、多元的學習素材。我們的遠期目標,是建立一個規模達到 1TB 的巨量資料集,收進臺灣多元族群、文化、地方的資訊。

其次,我們開放、自由的CC授權模式,並推薦使用 CC0,使募集到的文本資料,可以被任何人、任何組織自由使用、修改、分享,甚至用於商業用途,不受任何限制。這種最大程度的開放性和可用性,將極大地促進臺灣文本資料的傳播和應用,吸引更多的 AI 公司和研究者將臺灣文化與用語教給 AI。

第三,為了確保資料的品質和安全,DSR4AI 建立了一套高效、嚴謹的資料處理流程。透過直接收進高品質的文本,並進行仔細的標註和分類,提高資料的價值,將採取嚴格的資料安全設計,保護捐贈者的隱私和權益。

過線上線下的多種通路,舉辦講座、工作坊、比賽等活動,邀請各領域的專家學者、意見領袖參與,引發更多人的興趣和共鳴。我們也將積極與政府、企業、學校等機構合作,爭取他們的支持和資源。


預期效益與影響

目前,由於缺乏足夠的正體中文訓練資料,AI 對臺灣文化的認知還非常片面和粗淺。而隨著DSR4AI 文本資料集的不斷擴大,AI 將能夠從海量的在地文本中,學習到臺灣文化的歷史、地理、風俗、語言、文學、藝術等。這種全面而深入的理解,將為 AI 在臺灣的在地化發展奠定基礎。未來,我們有望看到更多契合臺灣社會需求、體現臺灣文化特色的AI應用和服務湧現。

長期以來,臺灣文化在全球網路空間中的能見度和影響力總體偏低,大量的在地知識和語言資源分散、隱沒,難以被有效利用。而一個集中、開放、規範的臺灣文化資料集,將使這些珍貴的文化遺產透過 AI 擴散到全球。讓更多人能快速了解、學習和運用臺灣文化,這是提升臺灣軟實力、國際能見度的全新手段,亦是抵禦中國文化侵蝕的重要工具。而以 AI 進行廣泛的在地文化運用,亦將將為社會共創提供肥沃的土壤。當海量的個人智慧在這裡碰撞、融合,將產生出令人驚歎的化學反應、釋放社會的創造力。

在這場關乎文化未來的角力中,文化軟實力將以「資料」的形態呈現。DSR4AI 致力於累積臺灣文化資料,建立 AI 的教科書,將大大提升臺灣在全球 AI 文化生態中的地位和影響力。


您的參與非常重要

DSR4AI 是一項前所未見的文化事業,它的成敗將取决於每一個臺灣人的參與和貢獻。我們真誠地邀請您加入這場知識共享的運動,參與書寫 AI 臺灣文化教科書的其中一頁。

也許,您是一位作家、詩人或學者,長期耕耘在文學、歷史、哲學等領域。您的作品,將為 AI 提供臺灣文學深沉醇厚的人文底蘊。也許,您是一位教師、記者或公務員,工作中接觸並製作了大量的教學資料、新聞報導、政府出版物等。它們記錄和反映了臺灣社會變遷,具有極高的文化保存價值。也許,您是一位工程師、科學家或企業家,在科技、產業、商業等領域有著豐富的經驗。您的技術文件、專利資料、商業計畫書等,將為 AI 書寫最實用的知識。又或許,您只是一位普通的網路使用者,但您在部落格、社交媒體、論壇上留下了大量真實、生動的文字。這些看似平凡的網路語言,其實正是臺灣社會的縮影,是最有生命的文化資料。

無論您是誰,從事什麼樣的工作,只要您熱愛臺灣文化,您就是 DSR4A I不可或缺的一員。我們渴望您的加入,期待您的貢獻。哪怕只是一篇短短的網誌,一則簡單的評論,都可能在未來成為AI理解臺灣的一扇窗口。