《客家消息》

| | | 轉寄

轉載:臺灣客語語料庫試用版上線

  客語數位化,臺灣客語語料庫試用版上線了!客家委員會tui 106年開始建置臺灣客語語料庫,to今既經收錄超過600萬字(含書面、口語)客語語料,語料庫系統ti十二月二十四號正式上線開放各界試用,客委會副主任委員鍾孔炤表示,客語數位化ke語料庫,m̀-tân-chhiang 做得then-sú客話研究lâu教學,me做得運用to日常生活,pûn學客變to當簡單,歡迎大家多多利用!

  臺灣客語語料庫試用版上線記者會,由國立政治大學英國語語文學系教授賴惠玲親自示範ngiong-è線上使用「臺灣客語語料庫試用版」,希望大家共下利用liá-teû超過600萬字(含書面、口語)ke珍貴客語語料,做還啊多元面向ke應用,另外,liá-pái lâu語料庫結合人工智慧技術ke團隊「華碩雲端有限公司」吳漢章總經理指出,語音資料庫盡大ke特色he,yû各腔各調客話語音辨識lâu語音合成語料,未來做得結合人工智慧技術,發展客語數位應用,pûn客語迎接時代潮流。

  客委會表示,客委會委託國立政治大學規劃建置「臺灣客語語料庫」,以全臺灣客語書寫ke文本、發音內容作為語料來源。在書面語料方面,蒐羅既經出版lâu對外發表ke書面文本,me盤點臺灣tui過去tolia2-ha既經出版ke各種珍貴客語出版品;口語語料部分,來源包含電視節目,lâu由執行團隊親自採錄ke客語口說內容,比將講:訪談、演講、日常生活對話、故事liá-teû。另外,語料蒐整工作me請當多客語薪傳師then-sú,共下為保存客話盡一份心力。語料庫收錄ke語料tu經過轉寫(轉檔),lâu請專家進行文字校訂,me由系統斷詞;口語語料,yû ko經過專家人工聽音檔、標記時間碼,好pûn系統辨識lâu串接語料文字同音訊區段。

  臺灣客語語料庫系統yû多項功能,第一,資料視覺化lâu多媒體展示,ti入口網頁設置客語常用詞文字雲、客語特色詞彙展示,lâu相關資訊視覺化,方便民眾快速瀏覽客語常用詞彙;同時設yû「口語人物誌」,以多媒體形式展示本語料庫所收錄ke口語語料。第二,語言典藏lâu保存,透過書面語料lâu口語語料ke蒐集,完成臺灣客語六腔(四縣、海陸、大埔、饒平、詔安、南四縣)ke基礎保存,保存語言資產、展現語言多樣性、記錄語言生命。第三,教學研究lâu數位化應用,語料檢索系統lâu客語斷詞同詞性標注器ke設置,m̀-tân-chhiang 做得作為客話學術研究、教學推廣使用,me做得完成臺灣客語ke數位接軌,建立語言資料lâu資訊科技介接ke管道,提供大數據分析能力,提供臺灣客語數位應用ke重要素材。

  另外,跈等數位時代ke來臨,客委會在臺灣客語語料庫基礎之上,進一步規劃並建置「臺灣客語語音資料庫」,由華碩雲端股份有限公司執行團隊以分年分階段逐步執行,語音資料庫盡大ke特色he kì yû各腔各調客話語音辨識lâu語音合成語料,未來做得結合人工智慧技術,發展客語數位應用,歡迎大家點選連結:https://corpus.hakka.gov.tw/ 共下泅入珍貴ke客語資料雲海,迎接全新客話時代。