簡易檢索 / 詳目顯示

研究生: 陳建忠
論文名稱: 延複詞及延複詞類初探
Initial study on extended compound word and its syntactic category
指導教授: 江永進
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2010
畢業學年度: 98
語文別: 中文
論文頁數: 88
中文關鍵詞: 延複詞延複詞組斷詞分詞讓格書寫
外文關鍵詞: extended compound word, extended compound part-of-speech, segmentation, LangGeh orthography
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 分詞 是 中文 語言處理e 基礎問題, 也是 困難e問題。 困難來源 主要來自 詞界線難定。 現有e 分詞規範 主要倚靠 語意、語法, 除了 規則眾多 以外, 分詞結果 也常常 無夠一致。另外一面, 字串e 表面形式 卻是 容易辨認e 要件。本文 提出 延複詞, 自 六種 字面形式 認定 延複詞: 1. 重複型式、 2. 二字寬鬆、 3. 2+1名詞、 4. 並列並合、 5. 總字數、 6. 總成分數。延複詞 包括 簡單延複詞、一般延複詞; 簡單延複詞 約略等於 現有e分詞, 一般延複詞 則放寬到長度 四五字左右, 但是 保持 語法結構 簡單。趣味e是, 讓格書寫 以及分延複詞 差別無大。阮 同時探討 標記 延複詞e 語法類別, 稱 延複詞類; 因為 標記e單位 卡大, 提供機會 免標記 語法行為 複雜e 濟濟單字詞, 因此得著 標記 卡簡單e 延複詞類。


    With traditional orthography in Chinese or Taiwanese where the writing is without spaces between words, segmentation is both fundamental and difficult. It is difficult because there hardly are clear boundaries between words and compound words, and between words and phrases. The current segmentation standard proposed in CKIP (1996) relies mainly on semantics and syntaxes, and noticeably gives inconsistent segmentation results. On the other hand, we find that the literal forms of character strings are much easier to recognize. We thus propose segmentation in so-called extended words. We emphasize the use of six literal forms to define extended words: 1. character repetition patterns, 2. two-character strings are loosely defined as an extended words, 3. noun in 2+1 shape with head word at the right, 4. concatenation of parallel words, 5. total number of words, 6. total number of constituents. Extended words include simple extended words and general extended words. Simple extended words correspond roughly to units segmented by CKIP standard, while using much simpler rules. The general extended word consists of multiple constituents with total length up to four or five characters, while keeping syntactic structure simple. Interestingly the segmentation in extended words and the LangGeh orthography (江永進等(2009)) give similar results. We also try to tag the extended words with syntactic categories. Due to the fact that we use a larger unit, we are given the opportunity to omit tagging those constituents of single character which are syntactically complex, and results in a simpler tagging process.

    第一章 紹介 第二章 基礎語法 及 ckip規範 2.1 詞組 gah 結構 2.2 詞類 gah 分詞 2.3 ckip規範 第三章 形式初看:簡單延複詞 3.1 概論 3.2 語學詞、詞類詞 gah 構詞詞 3.3 易認形式之一: 重複構詞 3.4 易認形式之二: 雙字 寬鬆認定 3.5 由詞到詞組 e 轉折 3.6 易認形式之三:要詞在後 2+1字串 (前後綴接) 3.7 縮減詞: 詞組縮減、 前後綴接 以及 其他考慮 3.8 易認形式之四: 並列詞組 3.9 本章結論 第四章延複詞 4.1 字數、成分數 4.2 數字、人名、 地名 寬鬆認定做 單成分 4.3 延複詞原則 4.4 延複詞舉例 4.5 延複詞 gah 書寫形式 4.6 本章結論 第五章延複詞類 5.1 延複詞類: 原則與細節 5.2 ckip規範舉例 e 延複詞類 第六章結論 參考文獻 附錄 ckip規範舉例 e 延複詞類

    Angela Troni著 陳黎娟、方秀芬 譯(2009). 《德語一本通》。 彰化市:陵曦文化。
    Collins, M. (1999). Head-Driven Statistical Models for Natuaral Language Parsing. Phd Dissertation, University of Pennsylvania.
    ckip規範 (1996).《「搜」文解字——中文詞界研究與資訊用分詞標準》。中文詞知識庫小組 技術報告 96-1, 台北:中央研究院資訊科學研究所, 中央研究院歷史語言研究所。 (簡稱 分詞規範 或者 ckip規範。)
    ckip斷詞 (2010). 中文斷詞系統 (http://ckipsvr.iis.sinica.edu.tw/). (提供 線上斷詞 服務。)
    朱德熙(1984).
    江永進(200?). 台音輸入法
    江永進等(2009a). “讓格書寫” 台灣風物。

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE