簡易檢索 / 詳目顯示

研究生: 孫玉萍
論文名稱: 讓格書寫下延複詞類自動標記初探
An Initial Study on Automatic Tagging of Extended Word in LangGeh Orthography
指導教授: 江永進
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2010
畢業學年度: 98
語文別: 中文
論文頁數: 62
中文關鍵詞: 讓格延複詞延複詞類長詞優先語法規則集Brill Rule
外文關鍵詞: LangGeh, extended word, extended part-of-speech, forward maximum matching, syntax rules, Brill Rule
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 斷詞 ( word segmentation ) 以及 詞類標記 是 處理 自然語言 最基礎的問題。 本論文 延續 延複詞 以及 延複詞類 概念, 利用 高頻 以及 長詞優先 加上 語法規則集, 初步 自動標記 延複詞類。 之後 再針對 簡單延複詞 利用 外部結構 訊息, 以 Brill Rule方法 改善 高頻標記 結果。 另外 也對 內部結構 訊息, 以 三字雙成分 抽取 語法規則 改善 兩字寬鬆 自動標記的 結果。 這對 語料庫的製作, 有相當的幫助。


    Contrast to the traditional Chinese writing that writes characters consecutively without spaces in-between, LangGeh orthography proposes writing in (simple) extended words and simple short phrases. In comparison, English is written in words. The distinction between a traditional word and an extended word is that the latter includes, in addition to the traditional words in Mandarin, two character phrases and other words of easily recognizable patterns. This inclusion greatly simplifies the syntactic tagging of our corpus. With hand-tagged corpus, this thesis also gives a preliminary study of the automatic tagging of extended words and simple short phrases in LangGeh Mandarin text.

    第一章 概論 1 第二章 延複詞 3 2.1 基礎語法 3 2.2 字數 與 成分數 5 2.3 從形式 初看 延複詞 6 2.3.1 重複型構詞 7 2.3.2 雙字 寬鬆認定 7 2.3.3 前後綴 構詞 8 2.4 延複詞 分類原則 9 2.5 讓格詞組 與 延複詞的關係 10 第三章 延複詞類 11 3.1 延複詞類 原則 11 3.2 新聞 語料庫 製作過程 14 3.3 新聞 延複詞類 語料庫 16 3.4 延複詞類 語料庫 統計資料 17 第四章 一般延複詞類的 自動標記 21 4.1 從 語料庫 擷取 延複詞詞典 及 成分詞詞典 22 4.1.1 延複詞詞典 22 4.1.2 成分詞詞典 24 4.2 語料庫 抽取 一般語法規則集 26 4.3 詞組類 自動標記的 兩種情況 27 4.4 P case: 以成分詞 推論 詞組結構 28 4.4.1 斷詞 並 自動標記 成分詞性 29 4.4.2 一般語法規則集: 次要標記 配對 主要標記 30 4.5 總結 31 第五章 簡單延複詞的 自動標記 33 5.1 為何 分類 簡單延複詞 與 一般延複詞 33 5.2 語料庫 抽取 簡單語法規則集 35 5.3 初步 自動標記 簡單延複詞類 36 5.4 改善 自動標記 簡單延複詞類 39 5.4.1 使用文境 改善: Brill Rule 39 5.4.2 內部結構 改善: 三字 雙成分的 一般語法規則集 41 5.5 未知詞 自動標記 專有名詞 42 第六章 實驗 43 6.1 F-measure 43 6.2 實驗結果 44 第七章 結論 51 附錄一 54 附錄二 55 附錄三 57 參考文獻 62

    [1] CKIP規範(1996), 《 「搜」文解字--中文詞界研究與資訊用分詞標準 》。中文詞知識庫小組 技術報告 96-1, 台北:中央研究院資訊科學研究所,中央研院歷史語言研究所。 (簡稱 分詞規範 或者 CKIP規範)
    [2] CKIP斷詞(2010), 中文斷詞系統, 提供 線上斷詞服務。 http://ckipsvr.iis.sinica.edu.tw/
    [3] CKIP詞典。
    [4] Brill Eric(1992),“A simple rule-based part of speech tagger. In Proceedings of the Third Conference on Applied Natural Language Processing", ACL, Trento, Italy.
    [5] Brill Eric(1995),“Transformation-Based Error Driven Learning and Natural Language: A Case Study in Part of Speech Tagging", Computational Linguistics, 21(4): 543-555.
    [6] 「中英對照讀新聞」, 自由時報, 2008。
    [7] 江永進、張春凰、呂菁菁(2009)。 「讓格書寫:意義、理由gah簡則」,台灣風物, 59卷1期, 2009。
    [8] 林淑卿(2009)。 「從台華平行語料庫擷取對應詞組典」, 國立清華大學統計學研究所碩士論文, 2009。
    [9] 陳建忠(2010)。 「延複詞 延複詞類 初探」, 國立清華大學統計學研究所碩士論文, 2010。
    [10] 陸儉明(2003)。 “對“NP+的+VP"結構的重新認識"。 北京大學。
    [11] Python 3.1(2009). http://www.python.org/.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE