簡易檢索 / 詳目顯示

研究生: 李佳鴻
論文名稱: 讓格書寫的台語自動標音初探
An Initial Study on Automatic Phonetic Annotations of Taiwanese in LangGeh Orthography
指導教授: 江永進
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2010
畢業學年度: 98
語文別: 中文
論文頁數: 49
中文關鍵詞: 台文自動標音平行斷詞平行語料庫讓格對齊
外文關鍵詞: Taiwanese, Phonetic Transcription, Automatic Phonetic Annotations, Parallel Segmentation, Parallel Corpus, LangGeh, Alignment
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本文 主要在 探討 讓格書寫下的 台文 自動標音。 在 順向長詞優先(Forward Maximal Matching) 斷詞標音的 基礎上, 我們討論 高頻音、 位置修正的 改善。 接著, 使用 含拼音的 台華平行 語料庫, 藉由 平行斷詞, 自動抽取 含拼音的 新詞條(PSi詞典), 藉以 改善 自動標音的 效率。 文中 並比較 讓格書寫 與 無間書寫的 標音效果 差異。


    With Taiwanese text written in LangGeh orthography, we study the automatic phonetic annotations of the text. Compared to the baseline case that uses Daiim phonetic dictionary (Chiang 2002) and forward maximal matching, we study some possible improvements using various information extracted from corpus: using high frequency phones of single characters as well as multi-syllabic words, positional information of a character in a LangGeh phrase, and additional phonetic dictionary extracted from parallel corpus. Due to limitation of corpus size, only high frequency phones of characters exhibits significant improvement in our experiments.

    第一章 概論 1 第二章 讓格書寫 與 台文書寫 2 2.1 讓格書寫 2 2.2 讓格書寫的 簡要規則 3 2.3 台文書寫 3 2.4 台語拼音 4 2.5 台音詞典 (台音6.0) 5 2.6 CKIP詞典 5 第三章 拼音語料庫 6 3.1 tcpd格式 6 3.2 數學家e故事 語料製作 7 3.3 名家e故事 語料製作 10 3.4 合併建議 15 3.5 訓練語料 與 測試語料 15 3.6 正確率的 計算方式 17 第四章 讓格之下的 台語 自動標音 19 4.1 利用斷詞 自動標音 19 4.1.1 FMM (Forward Maximal Matching) 19 4.1.2 拼音 自動標記 20 4.2 改善 讓格書寫下的 自動標音 23 4.3 單字詞 高頻音 23 4.4 多字詞 高頻音 27 4.5 位置修正 28 4.6 讓格書寫 與 無間書寫 自動標音的 比較 30 4.6.1 台音詞典 標音結果的 比較 30 4.6.2 改善標音後的 結果比較 34 第五章 讓格 平行語料下的 台語 自動標音 38 5.1 平行語料庫之應用 38 5.2 PSi 詞典 39 5.3 讓格 平行語料下的 台語 自動標音 結果 46 第六章 結論 48 參考文獻 49

    [1] CKIP詞典
    [2] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra,
    Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin(1990).
    “A Statistical Approach to Machine Translation,” Computational Linguistics
    Volume 16, Number 2, June 1990.
    [3] Python 3.0.1(2009). http://www.python.org/.
    [4] 江永進、張春凰、呂菁菁 (2009),“讓格書寫:意義、理由gah簡則”,台灣風
    物五十九卷一期,pp.111-132,2009年3月。
    [5] 江永進,2005,台語拼音課程。屏東:安可出版社。
    [6] 江永進,2010,台語拼音 雙拼法 333版。私人溝通。
    [7] 江永進,2010,台語注音文程式v1.4.1版。
    [8] 江永進,2002,台音輸入法6.0。新竹:國立清華大學統計學研究所。
    [9] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」。新竹:國立清華大學
    統計學研究所碩士論文,2009。
    [10] 楊佩琦(2009)。「讓格書寫下統計式台華翻譯初探」。新竹:國立清華大學統
    計學研究所碩士論文,2009。

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE