研究生: |
王建傑 Wang, Jian Jie |
---|---|
論文名稱: |
讓格書寫下 之 斷詞探討 A Study of Chinese Word Segmentation under LangGeh orthography |
指導教授: |
江永進
Jiang, Yong Jin |
口試委員: |
呂仁園
高明達 |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2013 |
畢業學年度: | 101 |
語文別: | 中文 |
論文頁數: | 49 |
中文關鍵詞: | 中文斷詞 、斷詞標準 、避免 單字詞落單 、讓格 |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
中文斷詞 是 資訊處理 基礎動作, 但 中文詞 的定義 模糊, 使得 應用 因此受限。 台灣 主要的 斷詞標準 是 中研院 CKIP規範(CKIP, 1997[8]), 此標準 是以 語意、語法 及 使用頻率 為基準 所建構。 本文 提出 新的 斷詞標準, 主要想法 是 避免 單字詞落單, 減少瑣碎的 斷詞結果, 增加 字數 做為 斷詞標準的 所能扮演的 角色, 使 斷詞標準 能夠 更加 簡潔好用。 在 新提出的 斷詞標準下, 我們 準備了 一份 近3萬字元的 網路文章, 加以 讓格, 再加以 (新標準)斷詞, 然後 撰寫 簡單的 斷詞系統, 結果 斷詞F-量度 可以達到 98%。 相對的, 簡單的 最長詞匹配法 只有70%左右; 而 傳統書寫 的 傳統斷詞 使用 大量語料 訓練模型 效率可到96%。 本文方法 使用簡單, 實作也簡單。
關鍵字:中文斷詞、斷詞標準、避免 單字詞落單、讓格
The concept of words in Mandarin Chinese is not really well defined. And as a result the important basic word segmentation module of the natural language processing of Chinese becomes somewhat difficult to implement. The primary standard of word segmentation in Taiwan is the CKIP standard of Academia Sinica, which uses semantics, syntax, and usage frequency to define a word. We propose an added principle of singleton-avoiding that dictates minimizing single character word in a segmented text. More specifically, two character string and three character string are principally treated as a word. By making use of the number of characters in defining a word, the standard becomes easy to follow. Furthermore, by writing the Chinese sentences with spaces between simple short phrases (called LangGeh orthography) instead of traditional way of no spaces in-between, and the segmentation module becomes much easier to implement. An implemented segmentation module written in programming language Python is tested on a testing text corpus of around 30000 characters, collected from internet and transformed into LangGeh orthography. The resulting performance is 98% in F-measure, and compared quite favorably to the traditional word segmentation of about 96% using large amount of training data. For marginalized languages such as Taiwanese and Hakka, LangGeh and the new segmentation standard seem to be the way to follow.
Keywords: Chinese word segmentation, singleton-avoiding principle, LangGeh orthography, segmentation standard.
[1]Hongmei Zhao and Qun Liu. 2010.“The CIPS-SIGHAN CLP 2010 Chinese Word Segmentation Bakeoff”. In Proceedings of the First CPS-SIGHAN Joint Conference on Chinese Language Processing. Beijing, China.
[2]江永進、 楊佩琦、 林淑卿、 張春凰、 高明達、 呂仁園、 陳孟彰(2009)。 讓格書寫 以及 台華互譯 初探。 第二十一屆 自然語言 與 語音處理 研討會,p.399-413。
[3]李佳鴻(2010), “讓格書寫的台語自動標音初探”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[4]陳建忠(2010), “延複詞 與 延複詞類 初探”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[5]謝博行(2013), “局部最長 連續共同子序列 與 收集新詞”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[6]林千翔(2006), “基於特製隱藏式馬可夫模型之中文斷詞研究”,國立中央大學 資訊工程 研究所 碩士論文,桃園縣。
[7]CKIP斷詞(2013).中文斷詞系統(http://asbc.iis.sinica.edu.tw/)(提供線上斷詞服務。
[8]CKIP規範(1996),《「搜」文解字:中文詞界研究與資訊用分詞標準》,中文詞知識庫小組技術報告 96-01,台北,中央研究院。
[9]何孟翰(2012年10月04日), “超強圖解 前進App Store!iOS6 SDK 實戰演練”。悅知文化。
[10]林宏翰(2013年1月9日), “未打先轟動 中職回春 露曙光”, 中央通訊社。
2013年6月14日,取自http://www.cna.com.tw/News/aSaM/201301090378-1.aspx.
[11]自由時報 電子報http://www.libertytimes.com.tw/
[12]Python 3.2.3(2012), http://www.python.org/