簡易檢索 / 詳目顯示

研究生: 陳薇婷
Chen, Wei-Ting
論文名稱: 從 無間書寫 到 讓格寬格書寫
From Spaceless Orthography to Spaced Orthography in Chinese Text
指導教授: 江永進
口試委員: 呂仁園
高明達
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2014
畢業學年度: 102
語文別: 中文
論文頁數: 58
中文關鍵詞: 中文分詞讓格寬詞
外文關鍵詞: Chinese word segmentation, LangGeh, Spaced orthography
相關次數: 點閱:1下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 英文書寫 使用 空格 將詞組分隔, 但中文書寫時, 詞和詞之間, 並不會 以空白區分。 這對 自然語言 造成了 某些問題, 如分詞和 句法分析。 江永進等 (2009) 提出的 讓格書寫, 使用 簡單的短詞組 作為 基本書寫單元。 用簡短的 詞組, 分詞的問題 就變得 容易多了, 也有 方便閱讀, 不易模楜 的好處。 而且, 讓格詞組 也與 台語變調模式, 習習相關。 本文 進行了 三項探討。 首先是 新詞組採礦, 從 報章文字 自動提取。 第二個 和 第三個是 中文 無間書寫句子 轉換成 寬詞書寫 以及 讓格書寫。 放寬 傳統 詞 的定義 較不易操作, 我們 提議 寬詞, 並且 提出 高可操作性 計算字數的 寬詞1234原則。


    Unlike written English having spaces between words, the current Chinese orthography uses no spaces. This poses certain problems in automatic text processing, such as word segmentation and syntactic parsing. Chiang et. al. (2009) proposed Spaced (讓格) orthography that uses simple short phrases as basic writing units. With simple short phrases, the problem of word segmentation becomes much easier. Texts in Spaced orthography are also easier to read. For Taiwanese, Spaced orthography seems closely related to Taiwanese tone sandhi patterns. Three tasks are studied in this paper. The first is the mining of new words, automatic extractions of new words from newspaper texts. The second and the third are the automatic segmentations of traditional Chinese sentences into so-called generalized words (寬詞) and into simple short phrases. Using the number of characters for easy operability, we propose a set of 1234 rules for the specification of generalized words.

    第 1 章 概論 1 1.1. 研究動機 1 1.2. 無間、 寬詞 與 讓格 2 1.3. 本文內容 3 第 2 章 新詞組採礦 4 2.1. 未知詞擷取 4 2.2. 字串處理 規則 5 2.3. 實驗語料庫 5 2.4. 局部最長 連續 共同子序列 6 2.5. 文章 相似度評估 7 2.5.1. LLCCS運算時間 8 2.5.2. KNN 串接篇數 8 2.6. 採礦實作 9 第 3 章 分寬詞 13 3.1. 分詞軌範 13 3.2. 緊密關係 16 3.2.1. 初級漢語語法 17 3.2.2. 只講究 緊密關係 的 層次分析法 18 3.2.3. 連續 二成分分析 緊密關係 21 3.3. 分寬詞1234原則 23 3.4. 分寬詞程序 25 3.5. 分寬詞 例外輔則 26 3.5.1. 數序量詞 各當1字 26 3.5.2. 範圍詞 及 介詞詞組 28 3.5.3. 的之 特例規定 29 3.5.4. 的寬詞 及 的詞組 30 3.5.5. 四字例外外成專姓 並疊綴 不妨4字 32 3.5.6. 細項 33 3.5.7. 尊重 使用者的 分詞意向 34 3.5.8. 輔則結論 35 第 4 章 分寬詞實驗 及 Brill’s Rule 36 4.1. 實驗語料庫 36 4.2. 斷詞方法 36 4.2.1. 長詞優先法 36 4.2.2. CKIP 斷詞 38 4.3. 評估標準 F-measure 40 4.4. Brill’s Rule 40 4.4.1. 前後 特定詞組 41 4.4.2. 前後 詞組字數 42 4.5. 實作評估 44 4.6. 檢討 49 第 5 章 從剖析 到讓格 50 5.1. 讓格 簡要規則 51 5.2. CKIP 剖析系統 52 5.3. 合併詞組 54 5.4. 實作評估 55 5.5. 檢討 56 第 6 章 結論 57 參考文獻 58

    [1] Hongmei Zhao and Qun Liu. 2010.“The CIPS-SIGHAN CLP 2010 Chinese Word Segmentation Bakeoff”. In Proceedings of the First CPS-SIGHAN Joint Conference on Chinese Language Processing. Beijing, China.
    [2] 江永進、 楊佩琦、 林淑卿、 張春凰、 高明達、 呂仁園、 陳孟彰(2009)。 讓格書寫 以及 台華互譯 初探。 第二十一屆 自然語言 與 語音處理 研討會,p.399-413。
    [3] 謝博行(2013), “局部最長 連續共同子序列 與 收集新詞”,國立清華大學 統計學 研究所 碩士論文,新竹市。
    [4] 王建傑(2013), “讓格書寫下 之 斷詞探討”,國立清華大學 統計學 研究所 碩士論文,新竹市。
    [5] Ckip分詞(2013). 中文分詞系統(http://asbc.iis.sinica.edu.tw/)(提供線上分詞服務。
    [6] Ckip規範(1996),《「搜」文解字:中文詞界研究與資訊用分詞標準》,中文詞知識庫小組技術報告 96-01,台北,中央研究院。
    [7] 自由時報 電子報http://www.libertytimes.com.tw/

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE