研究生: |
李佳鴻 |
---|---|
論文名稱: |
讓格書寫的台語自動標音初探 An Initial Study on Automatic Phonetic Annotations of Taiwanese in LangGeh Orthography |
指導教授: | 江永進 |
口試委員: | |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2010 |
畢業學年度: | 98 |
語文別: | 中文 |
論文頁數: | 49 |
中文關鍵詞: | 台文 、自動標音 、平行斷詞 、平行語料庫 、讓格 、對齊 |
外文關鍵詞: | Taiwanese, Phonetic Transcription, Automatic Phonetic Annotations, Parallel Segmentation, Parallel Corpus, LangGeh, Alignment |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本文 主要在 探討 讓格書寫下的 台文 自動標音。 在 順向長詞優先(Forward Maximal Matching) 斷詞標音的 基礎上, 我們討論 高頻音、 位置修正的 改善。 接著, 使用 含拼音的 台華平行 語料庫, 藉由 平行斷詞, 自動抽取 含拼音的 新詞條(PSi詞典), 藉以 改善 自動標音的 效率。 文中 並比較 讓格書寫 與 無間書寫的 標音效果 差異。
With Taiwanese text written in LangGeh orthography, we study the automatic phonetic annotations of the text. Compared to the baseline case that uses Daiim phonetic dictionary (Chiang 2002) and forward maximal matching, we study some possible improvements using various information extracted from corpus: using high frequency phones of single characters as well as multi-syllabic words, positional information of a character in a LangGeh phrase, and additional phonetic dictionary extracted from parallel corpus. Due to limitation of corpus size, only high frequency phones of characters exhibits significant improvement in our experiments.
[1] CKIP詞典
[2] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra,
Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin(1990).
“A Statistical Approach to Machine Translation,” Computational Linguistics
Volume 16, Number 2, June 1990.
[3] Python 3.0.1(2009). http://www.python.org/.
[4] 江永進、張春凰、呂菁菁 (2009),“讓格書寫:意義、理由gah簡則”,台灣風
物五十九卷一期,pp.111-132,2009年3月。
[5] 江永進,2005,台語拼音課程。屏東:安可出版社。
[6] 江永進,2010,台語拼音 雙拼法 333版。私人溝通。
[7] 江永進,2010,台語注音文程式v1.4.1版。
[8] 江永進,2002,台音輸入法6.0。新竹:國立清華大學統計學研究所。
[9] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」。新竹:國立清華大學
統計學研究所碩士論文,2009。
[10] 楊佩琦(2009)。「讓格書寫下統計式台華翻譯初探」。新竹:國立清華大學統
計學研究所碩士論文,2009。