研究生: |
楊哲瑋 |
---|---|
論文名稱: |
台華平行讓格語料的自動對齊 On Alignment of Parallel Sentences of Taiwanese and Mandarin in LangGeh Orthography |
指導教授: | 江永進 |
口試委員: | |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2010 |
畢業學年度: | 98 |
語文別: | 中文 |
論文頁數: | 47 |
中文關鍵詞: | 台文 、台語 、中文 、華語 、平行語料庫 、讓格 、對齊 、平行斷詞 、正向長詞優先法 、最大共同子序列 、候選香腸 |
外文關鍵詞: | Taiwanese, Mandarin, Parallel Corpus, LangGeh, Alignment, fmm algorithm, Parallel Segmentation, LCS algorithm, Sausage net |
相關次數: | 點閱:3 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
對 台文 或 華文 來說, 「讓格書寫」是 書寫方式上的 新提議, 「讓格書寫」主要是以 分 簡單詞組的 方式 來書寫。 依照 讓格書寫的 方式 我們 製作出了 台華 讓格 平行語料庫。 本文 使用 Brown et. al. (1990) 作 對齊的標記, 對 台華 簡短詞組 作 詞組的對齊。 因 台文 和 華文 之間 具有 兩個 共通性, 第一: 漢字 共同詞 不少、 第二: 詞序接近, 所以 林淑卿(2009) 是 基於 這兩種 共通性 而使用 最大共同子序列 的 方法 實作 台華的自動對齊, 而 我們 則是 再進一步 去討論 將 簡短詞組 透過詞典 產生 候選香腸 再作 最大共同子序列 的 方法 實作 台華的自動對齊。
Written in LangGeh orthography, the alignment of parallel sentences in Taiwanese and in Mandarin has been studied (Lin 2009). By substituting a few common words in Taiwanese with their counterparts in Mandarin, the LCS (longest common subsequence) algorithm is able to give about 70% recall rate while keeps those aligned highly correct (it actually was perfectly correct in the experiment). This thesis continues the study on alignment by constructing sausage nets from Taiwanese sentences and from Mandarin sentences using various parallel dictionaries, and then applying the LCS algorithm. The sausage net approach gives in 85%~90% recall rates on various corpora while still retaining nearly perfect correctness for those marked aligned.
[1] CKIP詞典
[2] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin(1990). “A Statistical Approach to Machine Translation,” Computational Linguistics Volume 16, Number 2, June 1990.
[3] Python 3.1(2009). http://www.python.org/.
[4] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」,國立清華大學統計學研究所碩士論文,2009。
[5] 楊佩琦(2009)。「讓格書寫下統計是台華翻譯初探」,國立清華大學統計學研究所碩士論文,2009。
[6] 江永進、張春凰、呂菁菁(2009)。「讓格書寫:意義、理由gah簡則」,台灣風物,59卷1期,2009。
[7] 江永進(2002)。 「台音輸入法」, 國立清華大學統計學研究所。