研究生: |
陳薇婷 Chen, Wei-Ting |
---|---|
論文名稱: |
從 無間書寫 到 讓格寬格書寫 From Spaceless Orthography to Spaced Orthography in Chinese Text |
指導教授: | 江永進 |
口試委員: |
呂仁園
高明達 |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2014 |
畢業學年度: | 102 |
語文別: | 中文 |
論文頁數: | 58 |
中文關鍵詞: | 中文分詞 、讓格 、寬詞 |
外文關鍵詞: | Chinese word segmentation, LangGeh, Spaced orthography |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
英文書寫 使用 空格 將詞組分隔, 但中文書寫時, 詞和詞之間, 並不會 以空白區分。 這對 自然語言 造成了 某些問題, 如分詞和 句法分析。 江永進等 (2009) 提出的 讓格書寫, 使用 簡單的短詞組 作為 基本書寫單元。 用簡短的 詞組, 分詞的問題 就變得 容易多了, 也有 方便閱讀, 不易模楜 的好處。 而且, 讓格詞組 也與 台語變調模式, 習習相關。 本文 進行了 三項探討。 首先是 新詞組採礦, 從 報章文字 自動提取。 第二個 和 第三個是 中文 無間書寫句子 轉換成 寬詞書寫 以及 讓格書寫。 放寬 傳統 詞 的定義 較不易操作, 我們 提議 寬詞, 並且 提出 高可操作性 計算字數的 寬詞1234原則。
Unlike written English having spaces between words, the current Chinese orthography uses no spaces. This poses certain problems in automatic text processing, such as word segmentation and syntactic parsing. Chiang et. al. (2009) proposed Spaced (讓格) orthography that uses simple short phrases as basic writing units. With simple short phrases, the problem of word segmentation becomes much easier. Texts in Spaced orthography are also easier to read. For Taiwanese, Spaced orthography seems closely related to Taiwanese tone sandhi patterns. Three tasks are studied in this paper. The first is the mining of new words, automatic extractions of new words from newspaper texts. The second and the third are the automatic segmentations of traditional Chinese sentences into so-called generalized words (寬詞) and into simple short phrases. Using the number of characters for easy operability, we propose a set of 1234 rules for the specification of generalized words.
[1] Hongmei Zhao and Qun Liu. 2010.“The CIPS-SIGHAN CLP 2010 Chinese Word Segmentation Bakeoff”. In Proceedings of the First CPS-SIGHAN Joint Conference on Chinese Language Processing. Beijing, China.
[2] 江永進、 楊佩琦、 林淑卿、 張春凰、 高明達、 呂仁園、 陳孟彰(2009)。 讓格書寫 以及 台華互譯 初探。 第二十一屆 自然語言 與 語音處理 研討會,p.399-413。
[3] 謝博行(2013), “局部最長 連續共同子序列 與 收集新詞”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[4] 王建傑(2013), “讓格書寫下 之 斷詞探討”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[5] Ckip分詞(2013). 中文分詞系統(http://asbc.iis.sinica.edu.tw/)(提供線上分詞服務。
[6] Ckip規範(1996),《「搜」文解字:中文詞界研究與資訊用分詞標準》,中文詞知識庫小組技術報告 96-01,台北,中央研究院。
[7] 自由時報 電子報http://www.libertytimes.com.tw/