多語言知識擷取─形式與統計分析｜國立清華大學博碩士論文庫

回結果列表

研究生：	陳惠群 Chen, Huey-Chyun
論文名稱：	多語言知識擷取─形式與統計分析 Formal and Statistical Text-Translation Analysis for Multilingual Knowledge Acquisition
指導教授：	張俊盛 Chang Jyun-Sheng
口試委員:
學位類別：	博士 Doctor
系所名稱：	電機資訊學院 - 資訊工程學系 Computer Science
畢業學年度：	86
語文別：	中文
論文頁數：	102
中文關鍵詞：	機器翻譯、譯文對照、形式語言、雙語剖析器、知識擷取
外文關鍵詞：	Machine Translation, Text-Translation Alignment, Formal Language, Bilingual Parser, Knowledge Acquisition
相關次數：	點閱：132 下載：0
分享至:	分享至facebook 分享至twitter

查詢本校圖書館目錄查詢臺灣博碩士論文知識加值系統勘誤回報

多語言知識是多語言處理系統的核心，長久以來，必須仰賴語言專家的專
業，去擷取這些知識，並建立多語言知識庫。這種人工作業的方式，最大

的缺點是成本高和可適應性低。隨著語料庫研究的興起，自動或半自動的

多語言語料庫處理成為多語言知識擷取的另一個重要基礎。語料庫為本的

多語言知識擷取，有兩種主要的研究課題；第一個是語際關係的表達方式

；第二個是擷取知識的演算方法。布朗等人提出統計式機器翻譯模型，以

詞彙翻譯、位置扭曲、詞彙衍生度三個因子來描述語際關係；隨後又提出

由簡而繁的五個譯文對照演算法，從平行語料庫中擷取知識。由於沒有充

份地利用語言結構的限制，布朗的演算方法需要龐大的計算時間，去分析

所有的狀況。本文的主要目的是建立一個描述語際關係的新模型。這個模

型將譯文對照視為二維圖形辨識問題，並用上下文無關語法加以描述。這

種形式方法，提供了既直觀又有意義的譯文對照模型；它不但包含了詞彙

翻譯、位置扭曲、詞彙衍生度等因子，也考慮像是中文的構詞問題。同時

它更進一步地包含分散型的詞彙衍生，像是介系詞on的中譯是「在…之上

」這個過去不易處理的問題。由於這個模型考慮語言結構的限制，因此剔

除許多不必要的分析並降低找到最優解答的複雜度。

全文公開日期本全文未授權公開 (校內網路)

全文公開日期本全文未授權公開 (國家圖書館：臺灣博碩士論文系統)