簡易檢索 / 詳目顯示

研究生: 陳惠群
Chen, Huey-Chyun
論文名稱: 多語言知識擷取─形式與統計分析
Formal and Statistical Text-Translation Analysis for Multilingual Knowledge Acquisition
指導教授: 張俊盛
Chang Jyun-Sheng
口試委員:
學位類別: 博士
Doctor
系所名稱: 電機資訊學院 - 資訊工程學系
Computer Science
畢業學年度: 86
語文別: 中文
論文頁數: 102
中文關鍵詞: 機器翻譯譯文對照形式語言雙語剖析器知識擷取
外文關鍵詞: Machine Translation, Text-Translation Alignment, Formal Language, Bilingual Parser, Knowledge Acquisition
相關次數: 點閱:132下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 多語言知識是多語言處理系統的核心,長久以來,必須仰賴語言專家的專
    業,去擷取這些知識,並建立多語言知識庫。這種人工作業的方式,最大

    的缺點是成本高和可適應性低。隨著語料庫研究的興起,自動或半自動的

    多語言語料庫處理成為多語言知識擷取的另一個重要基礎。語料庫為本的

    多語言知識擷取,有兩種主要的研究課題;第一個是語際關係的表達方式

    ;第二個是擷取知識的演算方法。布朗等人提出統計式機器翻譯模型,以

    詞彙翻譯、位置扭曲、詞彙衍生度三個因子來描述語際關係;隨後又提出

    由簡而繁的五個譯文對照演算法,從平行語料庫中擷取知識。由於沒有充

    份地利用語言結構的限制,布朗的演算方法需要龐大的計算時間,去分析

    所有的狀況。本文的主要目的是建立一個描述語際關係的新模型。這個模

    型將譯文對照視為二維圖形辨識問題,並用上下文無關語法加以描述。這

    種形式方法,提供了既直觀又有意義的譯文對照模型;它不但包含了詞彙

    翻譯、位置扭曲、詞彙衍生度等因子,也考慮像是中文的構詞問題。同時

    它更進一步地包含分散型的詞彙衍生,像是介系詞on的中譯是「在…之上

    」這個過去不易處理的問題。由於這個模型考慮語言結構的限制,因此剔

    除許多不必要的分析並降低找到最優解答的複雜度。


    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)

    全文公開日期 本全文未授權公開 (國家圖書館:臺灣博碩士論文系統)
    QR CODE