研究生: |
李柏宏 |
---|---|
論文名稱: |
台華 平行語料中 台語 簡短詞組 的 詞類標記 Tagging Simple Short Phrase in Taiwanese Using their Mandarin Counterparts in a Parallel Corpus |
指導教授: | 江永進 |
口試委員: |
呂仁園
高明達 |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2011 |
畢業學年度: | 99 |
語文別: | 中文 |
論文頁數: | 44 |
中文關鍵詞: | 平行語料 、台語 、簡短詞組 、詞類標記 |
相關次數: | 點閱:1 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
斷詞 (word segmentation) 以及 詞類標記 是 語言處理 的 基礎問題。 本篇論文 延續 讓格書寫下 延複詞類 自動標記, 利用 華語 簡短詞組的 延複詞類 輔助 標記 台語 簡短詞組的 延複詞類。 利用 香腸 及 替換 比對 的 兩種方法, 完成 自動標記。 正確率 分別落在 99% 以及 100% 。 雖然 替換 比對 的 召回率 只有 55%, 但是 正確率 100%的方法 對於 語料庫的 製作, 才是 有相當的 幫助。
In preparing Taiwanese-Mandarin parallel corpus written in Langgeh orthography (that is, with spaces between simple short phrases), previous study explores the tagging of Mandarin simple short phrases. This paper continues the study on tagging Taiwanese simple short phrases using their Mandarin counterparts. With aim as aid to the semi-automatic tagging process, we emphasize the full correctness of tagging procedures; a partially correct tagging procedure requires manual inspection of the tagging results, an effort no less than full manual tagging. After exploring several possibilities, we come up with a simple tagging procedure that attains 100% correctness in tagging our experimental corpus, although with only 55% recall rate among all Taiwanese simple short phrases.
[1] CKIP 規範 (1996), 「搜」文解字--中文詞界研究與資訊用分詞標準。中文詞知識庫小組 技術報告 96-1, 台北:中央研究院資訊科學研究所,中央研究院歷史語言研究所。 (簡稱 分詞規範 或者 CKIP 規範。)
[2] CKIP斷詞 (2010), 中文斷詞系統, 提供線上斷詞服務。 http://ckipsvr.iis.sinica.edu.tw/
[3] CKIP詞典
[4] 自由時報(2008)。中英對照讀新聞(每日 新聞專欄) 。 台北: 自由時報, 2008。
[5] 江永進、張春凰、呂菁菁(2009)。 “讓格書寫:意義、理由gah簡則”,台灣風物,59卷1期, 2009。
[6] 林淑卿(2009)。 從台華平行語料庫擷取對應詞組典。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2009。
[7] 陳建忠(2010)。 延複詞 延複詞類 初探。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2010。
[8] 孫玉萍(2010)。 讓格書寫 下 延複詞類 自動標記 初探。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2010。
[9] 楊哲瑋(2010)。 台華平行 讓格語料 的 自動對齊。 新竹市: 國立 清華大學 統計學 研究所 碩士論文,2010。
[10] 陸儉明(2003)。 “對 “NP+的+VP”結構的重新認識”。 中國 北京市:
北京大學。