簡易檢索 / 詳目顯示

研究生: 張問賢
Wun-Sian Chang
論文名稱: 以音斷詞與注音轉漢字
Word Segmentation over Syllable Sequence with Application to Transformation from Phonetic Symbols to Chinese Characters
指導教授: 江永進
Yuang-Chin Chiang
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 41
中文關鍵詞: 以音斷詞注音
外文關鍵詞: Word Segmentation, Syllable Sequence, Phonetic Symbols
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 近年來斷詞方面有許多的研究,不過都是利用中文漢字的字串,將句子斷詞,得到詞串,而本文則是利用注音作為斷詞的依據,使用斷詞的方法,希望以注音斷詞能得到與以漢字斷詞相當的效果。由於近年來斷詞方法的進步,中文斷詞的正確率已經可以達到96%,所以本論文希望將斷詞方法應用在注音轉漢字的問題上,以改善注音轉漢字的正確率。我們利用基於BIES詞位標籤的特製化隱藏式馬可夫模型,將以「注音」寫成的句子作為斷詞的依據,轉換為「注音詞」組合的句子,再以轉換後的「注音詞」比對具有標記注音的辭典,將「注音詞」轉為漢字詞,文中稱此方法為「兩階段注音轉漢字」方法。另外,我們利用改良的隱藏式馬可夫模型,直接將注音轉為漢字。與傳統隱藏式馬可夫模型不同的地方,是將以往固定不變的狀態,使其隨著觀測符號的不同而改變,減少因為狀態數過多,導致運算效率低落的情形,我們將此方法命名為「一階段注音轉漢字」。


    The purpose of this thesis is to see whether the recent segmentation technique, M-HMM (a specialized Hidden Markov Model), can help the transformation from syllable sequence to character sequence. Basically, this transformation is the task of keyboard input method for entering Chinese character into a computer using phonetic symbols. Unlike the usual word segmentation that segments a character sequence into word sequence, we here group syllables (in phonetic symbols) into word sequence (in group of syllables). Based on BIES, position labels of a Chinese character in a word, M-HMM gives rise to best segmentation candidate that group syllables into words, and then the groups of syllables are transformed into words in characters. This is a two stage approach. For comparison, we also study a one stage approach of M-HMM without using the BIES labels. The finding is that the one stage approach gives better result of 94.60% correctness.

    第一章 概論 1 第二章 注音文章語料庫 4 2.1 資料概述 4 2.2 注音文章語料庫 5 2.3 注音辭典語料庫 8 2.4 t辭典 8 第三章 以音斷詞系統 9 3.1 以音斷詞問題 9 3.2 以音斷詞所用到的方法 10 3.2.1 長詞優先法(Maximum Matching Algorithm,MM) 11 3.2.2 BIES詞位標籤 12 3.2.3 隱藏式馬可夫模型(Hidden Markov Model,HMM) 13 3.2.4 Viterbi演算法 15 3.2.5 M-HMM 18 第四章 注音轉漢字 20 4.1 資料來源 20 4.2 兩階段注音轉漢字 20 4.2.1 訓練資料與測試資料選取 21 4.2.2 訓練過程 21 4.2.3 以音斷詞 24 4.2.4 斷詞完後轉漢字 25 4.3 一階段注音轉漢字 27 4.3.1 一階段注音轉漢字中的HMM 27 4.3.2 一階段注音轉漢字中的M-HMM 30 4.4 正確率的計算 30 第五章 實驗 33 5.1 兩階段注音轉漢字 33 5.1.1 t辭典以音斷詞 33 5.1.2 p辭典以音斷詞 35 5.1.3 k辭典以音斷詞 36 5.2 一階段注音轉漢字 36 5.3 實驗結果討論 38 第六章 結論 41 參考文獻 i

    [1] Chen K. J. And S. H. Liu, “Word Identification for Mandarin Chinese Sentences,” Proceeding of COLING-92, 14th Int. Conf. On Computational Linguistics, pp. 101-107, 1992.
    [2] Fan, C. K. and W. H. Tsai, “Automatic Word Identification in Chinese Sentences by the Relaxation Technique,” Computer Processing of Chinese and Oriental Languages, Vol. 2, No. 4, pp. 33-56, 1988.
    [3] Kim. J. D, S. Z. Lee and H. C. Rim. “HMM Specialization with Selective Lexi-calization.” In Proceedings of the join SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP-VLC-99), pp. 121-127, 1999
    [4] Lee. S. Z, J. I. Tsujii and H. C. Rim. Lexicalized Hidden Markov Models for Part-of-Speech Tagging. In Proceedings of 18th International Conference on Computational Linguistics, Saarbrucken, Germany, pp.481-787, 2000
    [5] Nie, J. Y., M. L. Hannan and W. Jin, “Combining Dictionary, Rules and Statistical Information in Segmentation of Chinese,” Computer Processing of Chinese and Oriental Languages, Vol. 9, pp. 125-143, 1995.
    [6] Sporat R. and C. Shih, “A Statistical Method for Finding Word Boundaries in Chinese Text,” Computer Processing of Chinese and Oriental Languages, Vol. 4,No. 4, pp. 336-351, 1990.
    [7] Sporat R., C. Shih W. Gale and N. Chang, “A Stochastic Finite-State Word-Segmentation Algorithm for Chines,” Computational Linguistics, Vol. 22, pp. 377-404, 1996.
    [8] Rabiner. L. R “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition ,”Proceedings of the IEEE, Vol.77, No.2, pp.257-286, 1989
    [9] Yeh C. L. and H. J. Lee, “Rule-Based Word Identification for Mandarin Chinese Sentences-A Unification Approach,” Computer Processing of Chinese and Oriental Languages, Vol. 5, No. 2, pp. 97-118, 1991.
    [10] 王良志、貝子勝、黎偉權、黃麗卿,「以剖析為導向的中文斷詞法」,電
    子發展月刊,163 期,頁40-45,1991。
    [11] 范長康、蔡文祥,「以鬆弛法作中文斷詞」,全國計算機會議論文集,頁423-431,1987。
    [12] 許菱祥,「中文文法」,大中國圖書公司,1986。
    [13] 陳克建、陳正佳、林隆基,「中文語句分析的研究-斷詞與構詞」,中央研究院資訊所技術報告,TR86-004,1986。
    [14] 林千翔,張嘉惠,“基於特製隱藏式馬可夫模型之中文斷詞研究”,國立中央大學資訊工程學系碩士論文,2006。
    [15] 方心伶,「中文斷詞與注音」,國立清華大學統計研究所碩士論文,2008。

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE