視頻、激活、創建、信息…是否發現臺灣人使用頻率提高、也慢慢習慣了?因為中國用語的 AI 普級了

0
目前文件數量
0 M
目前總字數
0
目前檔案大小 (MB)
0 %
目前進度

臺灣 直行橫列;中國 直列橫行。完全相反

臺灣知識體系與中國迥異。教育本地小孩需要優良的在地教科書,訓練理解臺灣的AI也是。目前AI多用簡中文本訓練,導致習慣中國用語。隨著AI普及,越來越多人用 AI 學習和工作,臺灣在地文化與用語正快速崩潰。

DSR4AI希望募集涵蓋各種在地語言的臺灣文本,開放給全球AI公司使用,成為AI認識臺灣的「教科書」。

為什麼臺灣文化是 AI 時代的瀕危文化?

臺灣文本在國際大型 AI 訓練資料中僅佔 0.0012。AI 是透過閱讀大量篩選過的高品質網路資料來學習,就像教導小孩一樣。給 AI 看什麼樣的資料,AI 就會有什麼樣的世界觀。DSR4AI 關注的是「大型語言模型」(Large Language Model, LLM),這類 AI 透過閱讀大量人類書籍、文章,掌握了語言和推理能力。

科技公司的科學家使用網路上的高品質文本訓練 AI,希望 AI 能夠博學多才,用各種語言協助研究和對話。網路上優質英文資料佔大多數,因此科學家教 AI 認識「英文母語人士眼中的世界」,對臺灣所知有限,臺灣文化自然是 AI 時代的瀕危文化。
正體中文
簡體中文
English
< 0.1 GB

編纂 AI 的臺灣文化教科書需要多少資料?

目前訓練 AI 的資料主要來自網路,以 Meta 的 AI「Llama2」為例,英文佔比高達 89.7%,中文僅 0.13%。AI 生成的正體中文內容中,常見「視頻」、「音頻」等中國用語,顯示訓練資料中簡體中文遠多於正體中文。Meta 的大型語言模型「Llama1」的訓練資料集高達 4700GB,約 2.464 兆個中文字,相當於 250 萬本《紅樓夢》。
DSR4AI 建議 2 年內逐步累進至 100GB,未來再挑戰 500GB 至 1TB。20 年前,維基用 5 年累積到 100GB,2024 年臺灣的數位化程度更高,累積速度將更快。讓我們現在就開始。
1 TB
1 GB

DSR4AI 募「資」計畫

很多人認為「用於 AI 的公開資料應該由政府負責」,因為是龐大的工作。但我們建議由民間自由發展會更好、更有效率。民主社會裡,「資料」是私有財產;所謂「將私有資料公開化」其實就像是捐款,可以匿名捐款、也可以具名捐款、限定非商業用途,也比較靈活。
  • 1

    建立資料捐贈平台

    建立易用的線上平台,方便民眾捐贈各種「撰寫給人類閱讀的文本」,如部落格文章、食譜、教學資料、論文、書籍等。提供清晰指引和直觀介面,引導完成上傳和授權,並提供匿名和具名選項,尊重捐贈者的隱私和意願。
  • 2

    制定資料標準和規範

    定義資料的應用分類、品質標準和檔案格式要求,建立分類和標註規範與欄位,建立詮釋資料需求表,提供資料整理和預處理的指引,制定資料使用的授權範圍,確保收集到的文本具有一致性、可用性,方便後續整理與運用。
  • 3

    推動文本徵集活動

    與學術機構、內容創作平台合作舉辦全通路的文本徵集活動,鼓勵學者、研究人員、作者和創作者分享其研究資料和原創作品,透過推廣AI應用,積極宣傳DSR4AI計畫,提高社會各界對臺灣需要大量公開原生資料的認知,吸引更多人參與資料捐贈。
  • 4

    建立資料處理流程

    高效的資料接收、儲存和自動化處理:格式轉換、去識別化和審核。對收到的文本進行篩選、分類和敏感內容檢查,並添加詮釋資料(metadata),讓文本應用於不同型態的 AI 訓練。流程中確保資料完整、安全、可信任與可追蹤,保護捐贈者隱私,並適度揭露處理流程,以維持信任。
  • 5

    建構資料集發佈平台

    搭建一開放資料集發佈平台,提供多樣化的資料集格式和使用方式,智慧合約將確保使用者將符合授權模式和使用條款,將資料應用於有利臺灣的情境。建立資料集的版本控管和更新機制,供研究人員和開發者使用,以滿足不同利害關係人之使用需求,以確保資料的即時性和一致性。
  • 6

    建立資料使用回饋機制

    鼓勵資料使用者提供回饋和評價,定期公佈資料集與平台的使用情況和成果,舉辦資料應用競賽和創新挑戰,建立資料使用者社群,致力提升資料集的品質與實用性,展示DSR4AI計畫的影響力,促進資料的創新應用和價值,推動臺灣在地AI的發展。

我要捐贈我的文件

只要你手邊有「撰寫給台灣人閱讀的文本」, 都歡迎捐贈。請了解 DSR4AI 對於文本的建議與限制。

先註冊後上傳,可以管理上傳的檔案,您的資料被發佈時將獲得通知。未註冊可以直接上傳檔案。

無註冊上傳檔案將被視為「匿名捐贈資料」,系統無法記錄上傳的檔案,您將無法管理、刪除任何檔案,您亦無法獲得任何系統通知。