研究生: |
陳惠群 Chen, Huey-Chyun |
---|---|
論文名稱: |
多語言知識擷取─形式與統計分析 Formal and Statistical Text-Translation Analysis for Multilingual Knowledge Acquisition |
指導教授: |
張俊盛
Chang Jyun-Sheng |
口試委員: | |
學位類別: |
博士 Doctor |
系所名稱: |
電機資訊學院 - 資訊工程學系 Computer Science |
畢業學年度: | 86 |
語文別: | 中文 |
論文頁數: | 102 |
中文關鍵詞: | 機器翻譯 、譯文對照 、形式語言 、雙語剖析器 、知識擷取 |
外文關鍵詞: | Machine Translation, Text-Translation Alignment, Formal Language, Bilingual Parser, Knowledge Acquisition |
相關次數: | 點閱:132 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
多語言知識是多語言處理系統的核心,長久以來,必須仰賴語言專家的專
業,去擷取這些知識,並建立多語言知識庫。這種人工作業的方式,最大
的缺點是成本高和可適應性低。隨著語料庫研究的興起,自動或半自動的
多語言語料庫處理成為多語言知識擷取的另一個重要基礎。語料庫為本的
多語言知識擷取,有兩種主要的研究課題;第一個是語際關係的表達方式
;第二個是擷取知識的演算方法。布朗等人提出統計式機器翻譯模型,以
詞彙翻譯、位置扭曲、詞彙衍生度三個因子來描述語際關係;隨後又提出
由簡而繁的五個譯文對照演算法,從平行語料庫中擷取知識。由於沒有充
份地利用語言結構的限制,布朗的演算方法需要龐大的計算時間,去分析
所有的狀況。本文的主要目的是建立一個描述語際關係的新模型。這個模
型將譯文對照視為二維圖形辨識問題,並用上下文無關語法加以描述。這
種形式方法,提供了既直觀又有意義的譯文對照模型;它不但包含了詞彙
翻譯、位置扭曲、詞彙衍生度等因子,也考慮像是中文的構詞問題。同時
它更進一步地包含分散型的詞彙衍生,像是介系詞on的中譯是「在…之上
」這個過去不易處理的問題。由於這個模型考慮語言結構的限制,因此剔
除許多不必要的分析並降低找到最優解答的複雜度。