簡易檢索 / 詳目顯示

研究生: 楊佩琦
Yang, Pei-Ci
論文名稱: 讓格書寫下統計式台華翻譯初探
An Initial Study of Statistical Translation of Taiwanese and Mandarin in LangGeh Orthography
指導教授: 江永進
Chiang, Yuang-Chin
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2009
畢業學年度: 97
語文別: 中文
論文頁數: 58
中文關鍵詞: 台文台語中文華語平行語料庫讓格對齊機器翻譯香腸詞組
外文關鍵詞: Taiwanese, Mandarin, Parallel Corpus, LangGeh, Alignment, Machine Translation, Sausage Phrase
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 對 台文 與 華文 來說, 「讓格書寫」 是 新提議的 書寫方式。 有別於英文的 分詞書寫 與 台華文傳統的 分句書寫, 「讓格書寫」 主要是以 分簡單詞組的 方式 來書寫。 在 讓格書寫 下, 我們 製作了 台華 平行語料庫。 本文 仿效 Brown et. al.(1990, 1993)的 統計式 翻譯方法, 使用 此 平行語料庫 初探 台華對譯 問題。 而 由於 台華 對譯文 之間, 有 兩個 共同特徵: 相同 漢字寫法 的 詞組 多、 詞組的順序 也 大多相同。 基於 這兩個 特徵, 我們 提出 「香腸詞組」 來簡化 翻譯問題。 此方法的好處 就是 實作概念 簡單, 且 計算量少。


    “LangGeh” is a new orthography for languages using Chinese character such as Taiwanese or Mandarin. Similar to word separation in English orthography, LangGeh proposes simple phrase separation. Based on LangGeh, We build a Taiwanese-Mandarin parallel corpus and use it to study the translation between Taiwanese and Mandarin using the statistical machine translation framework of Brown et. al. (1990, 1993). There are at least two common characteristics between Taiwanese and Mandarin that one can utilize in translation: many common phrases and word orders are similar. We simplify the translation framework using the concept of “Sausage Phrase”. It has the advantage of being conceptual simple and easy to calculate.

    第一章 概論 1 第二章 讓格書寫 4 2.1 讓格緣由 4 2.2 讓格 簡要規則 6 第三章 讓格09平行語料庫 8 3.1 讓格09平行語料庫的 製作 8 3.1.1 翻譯 9 3.1.2 讓格 10 3.1.3 對齊 10 3.2 讓格09平行語料庫的 格式 13 3.3 讓格詞組典的 抽取 15 3.3.1 台華讓格詞組典的 抽取 16 3.3.2 華台讓格詞組典的 抽取 17 第四章 台華對譯──架構和簡化 19 4.1 語言模型 20 4.2 翻譯模型 28 4.3 香腸詞組 32 4.4 香腸詞組 翻譯法 37 第五章 實驗 40 5.1 自動翻譯的 輔助策略 40 5.2 翻譯結果 44 第六章 結論 52 附錄 53 參考文獻 58

    [1] 江永進、張春凰、呂菁菁(2009)。「讓格書寫:意義、理由gah簡則」,台灣風物,59卷1期,2009。
    [2] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin(1990). “A Statistical Approach to Machine Translation,” Computational Linguistics Volume 16, Number 2, June 1990.
    [3] Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer(1993). “A Statistical Approach to Machine Translation,” Association for Computational Linguistics, 1993.
    [4] Dekai Wu and Xuanyin Xia(1994). “Learning An English-Chinese Lexicon from A Parallel Corpus,” Association for Machine Translation in the Americas, Columbia, pp.206-213, Oct. 1994.
    [5] 「中英對照讀新聞」,自由時報,2008。
    [6] 游政榮(2006)。青鳥(台譯本),時行台語文會出版,2006。
    [7] 林慧婷、陳則伊、謝旻男(2009)。發明的故事(台譯本),將出版(時行台語文會),2009。
    [8] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」,國立清華大學統計學研究所碩士論文,2009。
    [9] 教育部國語會網址。http://www.edu.tw/MANDR/content.aspx?site_content_sn=3863。
    [10] Python 3.0.1(2009). http://www.python.org/.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE