《客家消息》

| | | 轉寄

轉載:世界頭一個臺灣客語語料庫建置 結合AI永續保存客語

  客語結合AI m̀-he夢!客家委員會主任委員十一月二十九號在「建置臺灣客語語料庫」第一階段成果發表會上表示,透過AI客語語料庫ke建置後,保存客家文化、pûn大家做得認識客語ke全貌,ên-lí臺灣he全世界頭一個官方帶頭建置客語語料庫ke國家,客語「生語料庫」蒐集自全臺灣客語書寫文本lâu客語發音ke口語內容作為客語語料庫來源,包含電視節目、出版品、田野調查採錄ke客語口說、訪談、演講、日常生活對話、老人家講古liá-teû,蒐集回來後,還經過客語母語人士轉寫(轉檔)、校訂liá-teû多道人工ke繁複程序,故所政大團隊聚總各種腔頭ke客語薪傳師,藉由辦理教育訓練向客語薪傳師說明語料處理ke過程lâu規範,讓參加ke薪傳師m̀單淨then-sú語料處理工作,ya做得vi保存客語盡一份心力。經轉寫(轉檔)、校訂後ke語料,由政大團隊進行專家修訂,嚴謹的語言學標記,配合系統建置來回除錯,以利系統機器學習(Machine Learning),án-nè層層加工ke語料正做得匯入語料庫pûn未來使用。
  目前,「臺灣客語語料庫」既經完成書面語料授權筆數316筆出版品、149筆單篇文章,ko處理語料庫書面語語料500萬字、口語語料10萬字,ya完成語料庫斷詞系統、權威詞控管系統lâu後臺管理系統初步規劃。預計111年底正式上線。