簡易檢索 / 詳目顯示

研究生: 李柏宏
論文名稱: 台華 平行語料中 台語 簡短詞組 的 詞類標記
Tagging Simple Short Phrase in Taiwanese Using their Mandarin Counterparts in a Parallel Corpus
指導教授: 江永進
口試委員: 呂仁園
高明達
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2011
畢業學年度: 99
語文別: 中文
論文頁數: 44
中文關鍵詞: 平行語料台語簡短詞組詞類標記
相關次數: 點閱:1下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 斷詞 (word segmentation) 以及 詞類標記 是 語言處理 的 基礎問題。 本篇論文 延續 讓格書寫下 延複詞類 自動標記, 利用 華語 簡短詞組的 延複詞類 輔助 標記 台語 簡短詞組的 延複詞類。 利用 香腸 及 替換 比對 的 兩種方法, 完成 自動標記。 正確率 分別落在 99% 以及 100% 。 雖然 替換 比對 的 召回率 只有 55%, 但是 正確率 100%的方法 對於 語料庫的 製作, 才是 有相當的 幫助。


    In preparing Taiwanese-Mandarin parallel corpus written in Langgeh orthography (that is, with spaces between simple short phrases), previous study explores the tagging of Mandarin simple short phrases. This paper continues the study on tagging Taiwanese simple short phrases using their Mandarin counterparts. With aim as aid to the semi-automatic tagging process, we emphasize the full correctness of tagging procedures; a partially correct tagging procedure requires manual inspection of the tagging results, an effort no less than full manual tagging. After exploring several possibilities, we come up with a simple tagging procedure that attains 100% correctness in tagging our experimental corpus, although with only 55% recall rate among all Taiwanese simple short phrases.

    第一章 介論 1 第二章 延複詞 2 2.1 延複詞 的 產生 2 2.2 基礎語法 3 2.3 延複詞 形式 5 2.3.1 重複構詞 5 2.3.2 雙字 寬鬆認定 6 2.3.3 前後綴 構詞 7 2.4 字數 與 成分數 8 2.5 延複詞 原則 9 2.6 讓格詞組 與 延複詞 的 關係 10 第三章 延複詞類 12 3.1延複詞類 的 產生 12 3.2 延複詞類 原則 12 3.3 新聞 延複詞類 語料庫 17 3.4 台語 簡短詞組 延複詞類 語料庫 統計資料 18 第四章 標記 台語 延複詞類: 斷詞 比對 沿用 22 4.1 對齊 22 4.2 正確率 和 召回率 23 4.3 ssp分類 24 4.4 結果比較 26 4.5 標記方法 介紹 28 4.5.1 方法A 28 4.5.2 方法B 29 第五章標記 台語 延複詞類: 香腸 及 替換 比對 沿用 30 5.1 讓格 平行 語料庫 30 5.2 膨風詞典 31 5.3 ssp 候選香腸 生成方法 33 5.4 利用 候選香腸 輔助 標記 延複詞類 34 5.5 利用 簡單替換 輔助 標記 延複詞類 36 5.6 結果比較 38 第六章 結論 41 附錄一 42 附錄二 43 參考文獻 44

    [1] CKIP 規範 (1996), 「搜」文解字--中文詞界研究與資訊用分詞標準。中文詞知識庫小組 技術報告 96-1, 台北:中央研究院資訊科學研究所,中央研究院歷史語言研究所。 (簡稱 分詞規範 或者 CKIP 規範。)
    [2] CKIP斷詞 (2010), 中文斷詞系統, 提供線上斷詞服務。 http://ckipsvr.iis.sinica.edu.tw/
    [3] CKIP詞典
    [4] 自由時報(2008)。中英對照讀新聞(每日 新聞專欄) 。 台北: 自由時報, 2008。
    [5] 江永進、張春凰、呂菁菁(2009)。 “讓格書寫:意義、理由gah簡則”,台灣風物,59卷1期, 2009。
    [6] 林淑卿(2009)。 從台華平行語料庫擷取對應詞組典。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2009。
    [7] 陳建忠(2010)。 延複詞 延複詞類 初探。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2010。
    [8] 孫玉萍(2010)。 讓格書寫 下 延複詞類 自動標記 初探。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2010。
    [9] 楊哲瑋(2010)。 台華平行 讓格語料 的 自動對齊。 新竹市: 國立 清華大學 統計學 研究所 碩士論文,2010。
    [10] 陸儉明(2003)。 “對 “NP+的+VP”結構的重新認識”。 中國 北京市:
    北京大學。

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE