簡易檢索 / 詳目顯示

研究生: 許皓評
Hsu, Hau-Ping
論文名稱: 華英平行句 的 詞組對齊 初探
An Initial Study on Phrase Alignment of Parallel Sentences of Mandarin and English
指導教授: 江永進
Chiang, Yuang-Chin
口試委員: 高明達
Ko, Ming-Tat
呂仁園
Lyu, Ren-Yuan
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2012
畢業學年度: 100
語文別: 英文
論文頁數: 44
中文關鍵詞: 讓格書寫簡短詞組平行語料庫最長共同子序列平行句對齊詞組LCS分數
外文關鍵詞: LangGeh, simple short phrase, parallel corpus, longest common subsequence, parallel sentence alignment, LCS score
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 針對 平行語料庫 中的 台語、華語 讓格平行句, 林淑卿(2009)、 楊哲瑋(2010) 使用 最長共同子系列 (LCS, longest common subsequence) 方法 來幫助 平行句對齊。 「讓格書寫」是 書寫方式上的 新提議, 是以 簡單詞組 為單位的 書寫方式。 本文 繼續 平行句的 對齊研究, 對象換成 英文、 華文。 借用chunking 技術幫助, 我們 首先將 英文句 轉換做 簡短詞組 序列, 然後 華英 簡短詞組句 的 對齊 就可使用 同樣的LCS方法。 平行句的 LCS對齊 需要一個 gain函數, 現在 基礎單位 是 簡短詞組, 因此, 我們 再使用 類似的LCS方法, 計算 華英 簡短詞組對 的 LCS分數, 然後用來 執行 平行句對齊。 我們 也使用本方法 來幫助標記 一個 新聞語料庫 的 華英對齊。


    In previous studies Lin (2009) and Yang (2010) used the method of longest common subsequence (LCS) to help aligning parallel sentences in a parallel corpus between Taiwanese and Mandarin. Contrast to the traditional writing of no space inside a sentence, the parallel corpus consists of sentences written in so-called “LangGeh”(讓格) orthography, or, using simple short phrases(SSP) as a unit and having spaces in-between. This paper continues the alignment study on parallel sentences between Mandarin and English. With the help of chunking, we first segment an English sentence into sequence of simple short phrases, and align the Mandarin-English parallel sentences in SSP using the same LCS method. In sentence alignment using LCS, a gain function between the SSP’s is required. We again use LCS to compute a score for each pair of simple short phrases. The method is used to help aligning a news parallel corpus in Mandarin and English.

    目錄 第一章 概論 1 第二章 讓格平行語料庫 3 2.1平行語料庫概述 3 2.2翻譯、讓格與對齊 5 第三章 台華平行句 詞組對齊 方法回顧 7 3.1 LCS及LCSA (最長 共同子序列 及其 對齊法) 7 3.2簡單替代 LCS對齊法 11 3.3候選香腸LCS對齊法 13 3.4結果比較 17 第四章 英文句 合 簡短詞組 18 4.1英語句的 簡短詞組 記號 18 4.2使用CHUNKING 幫助合成 簡短詞組 19 4.3 CHUNKING結果 與 人工修正 23 4.4實驗語料 23 第五章 用 詞組LCS分數 來做 平行句LCS對齊 24 5.1計算 簡短詞組 的LCS分數 24 5.2華英句 的 簡單詞組 LCS對齊 27 5.3實驗語料 及 標準答案 30 5.4實驗結果 30 5.5錯誤分析 31 第六章 結論 32 參考文獻 33 附錄 34 附錄一、中文查英文(PYTHON CODE) 34 附錄二、英文查中文(PYTHON CODE) 38

    參考文獻
    [1] Peter F. Brown , John Cocke , Stephen A. Della Pietra , Vincent J. Della Pietra , Fredrick Jelinek , John D. Lafferty , Robert L. Mercer , and Paul S. Rossin.(1990) "A Statistical Approach To Machine Translation" , Computational Linguistics Volume 16 (Number 2 , June 1990)
    [2] Peter F. Brown , Stephen A. Della Pietra , Vincent J. Della Pietra , Robert L. Mercer. (1993) , "The Mathematics of Statistical Machine Translation : Parameter Estimation" , Association for Computaional Linguistics (1993)
    [3] Steven Bird, Ewan Klein, Edward Loper. (2009) , "Natural Language Processing With Python - Analyze Text with the Natural Language Toolkit" , Publisher: O'Reilly Media (2009)
    [4] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」新竹市:國立清華大學統計學研究所碩士論文 (2009)
    [5] 楊哲瑋(2010)。「台華平行讓格語料的自動對齊」新竹市:國立清華大學統計學研究所碩士論文 (2010)
    [6] Python 3.2.3(2012) http://www.python.org/

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE