簡易檢索 / 詳目顯示

研究生: 楊哲瑋
論文名稱: 台華平行讓格語料的自動對齊
On Alignment of Parallel Sentences of Taiwanese and Mandarin in LangGeh Orthography
指導教授: 江永進
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2010
畢業學年度: 98
語文別: 中文
論文頁數: 47
中文關鍵詞: 台文台語中文華語平行語料庫讓格對齊平行斷詞正向長詞優先法最大共同子序列候選香腸
外文關鍵詞: Taiwanese, Mandarin, Parallel Corpus, LangGeh, Alignment, fmm algorithm, Parallel Segmentation, LCS algorithm, Sausage net
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 對 台文 或 華文 來說, 「讓格書寫」是 書寫方式上的 新提議, 「讓格書寫」主要是以 分 簡單詞組的 方式 來書寫。 依照 讓格書寫的 方式 我們 製作出了 台華 讓格 平行語料庫。 本文 使用 Brown et. al. (1990) 作 對齊的標記, 對 台華 簡短詞組 作 詞組的對齊。 因 台文 和 華文 之間 具有 兩個 共通性, 第一: 漢字 共同詞 不少、 第二: 詞序接近, 所以 林淑卿(2009) 是 基於 這兩種 共通性 而使用 最大共同子序列 的 方法 實作 台華的自動對齊, 而 我們 則是 再進一步 去討論 將 簡短詞組 透過詞典 產生 候選香腸 再作 最大共同子序列 的 方法 實作 台華的自動對齊。


    Written in LangGeh orthography, the alignment of parallel sentences in Taiwanese and in Mandarin has been studied (Lin 2009). By substituting a few common words in Taiwanese with their counterparts in Mandarin, the LCS (longest common subsequence) algorithm is able to give about 70% recall rate while keeps those aligned highly correct (it actually was perfectly correct in the experiment). This thesis continues the study on alignment by constructing sausage nets from Taiwanese sentences and from Mandarin sentences using various parallel dictionaries, and then applying the LCS algorithm. The sausage net approach gives in 85%~90% recall rates on various corpora while still retaining nearly perfect correctness for those marked aligned.

    第一章 概論 1 第二章 讓格平行語料庫 3 2.1 讓格 3 2.2 讓格平行語料庫的製作 5 2.2.1 語料庫製作 - 翻譯 5 2.2.2 語料庫製作 - 讓格 6 2.2.3 語料庫製作 - 對齊 6 2.3 讓格平行語料庫的格式 9 第三章 候選香腸 LCS對齊法 12 3.1 解釋名詞 12 3.2 PCPS詞典 14 3.3 利用 PCPS詞典 單個SSP 詞組香腸的 生成方法 17 3.4 將 語句的 候選香腸 串接 18 3.5 替代 LCS對齊法 實作 20 3.6 候選香腸 LCS對齊法 實作 21 第四章 實驗結果 24 4.1 K-fold交叉檢驗法 24 4.2 正確率的計算 25 4.3 自動對齊並計算正確率 27 4.4 未來的語料庫 標記 所需 資料量 32 第五章 APPS香腸的對齊 35 5.1 AP斷詞 35 5.2 APPS詞典 36 5.3 利用 APPS詞典 生成 候選香腸 39 5.4 使用 APPS詞典 對齊的效率 47 第六章 結論 46 參考文獻 47

    [1] CKIP詞典
    [2] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin(1990). “A Statistical Approach to Machine Translation,” Computational Linguistics Volume 16, Number 2, June 1990.
    [3] Python 3.1(2009). http://www.python.org/.
    [4] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」,國立清華大學統計學研究所碩士論文,2009。
    [5] 楊佩琦(2009)。「讓格書寫下統計是台華翻譯初探」,國立清華大學統計學研究所碩士論文,2009。
    [6] 江永進、張春凰、呂菁菁(2009)。「讓格書寫:意義、理由gah簡則」,台灣風物,59卷1期,2009。
    [7] 江永進(2002)。 「台音輸入法」, 國立清華大學統計學研究所。

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE