簡易檢索 / 詳目顯示

研究生: 方心伶
Hsin-Ling Fang
論文名稱: 中文斷詞與注音
Segmentation and Pronunciation Annotation in Mandarin Chinese
指導教授: 江永進
Yuang-Chin Chiang
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 36
中文關鍵詞: 斷詞注音
外文關鍵詞: Segmentation, Pronunciation, Annotation
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 中文斷詞在中文自然語言的處理上,是相當基礎且重要的工作。新近發展的基於詞位標籤的特製化隱藏式馬可夫模型(Specialized Hidden Markov Model)斷詞法,理論與實作合理簡單,效果優於傳統的長詞優先法(Maximum Matching Algorithm, MM)。本論文的研究目的是要利用詞位標籤斷詞法來提高中文轉注音的正確率,也就是在斷詞之後,使用詞串轉注音會比字串轉注音的正確率高。第一階段,使用各種斷詞法斷詞;第二階段,再使用中文斷詞後的詞串轉換為注音。實驗發現,其結果比單字轉注音的正確率高。而第三階段,利用第二階段M-HMM斷詞轉注音的結果,再尋求某些特定的注音轉換規則,提升注音的正確率,再以第二階段詞串轉注音的正確率為比較基礎,實驗結果也證實了確實可再提升注音的正確率。


    Chinese word segmentation is an important and fundamental task. A recent advance in Chinese word segmentation is using a specialized Hidden Markov Model, called M-HMM, based on BIES, labels of the position of a constituent character in a word. The main purpose of this thesis is to see if the M-HMM will improve the pronunciation annotation. Firstly, a character sequence (sentence without word boundary mark-space) is segmented into word sequence, and secondly, the words are transformed into pronunciation annotation. Our experiment shows that M-HMM does help. As a third stage, we apply some transformation rules to further improve the correctness of the pronunciation annotation.

    摘要 i Abstract ii 致謝 iii 表目錄 vi 圖目錄 viii 第一章 概論 1 第二章 斷詞系統架構 2 2.1 長詞優先法 3 2.2 詞位標籤 4 2.3 隱藏式馬可夫模型(HMM) 5 2.4 Viterbi演算法 8 2.5 M-HMM 10 2.6 簡化HMM 12 2.7 斷詞正確率 14 第三章 注音語料庫 15 3.1 注音斷詞文章語料庫 15 3.1.1. 自動的部份 16 3.1.2. 手動的部份 18 3.2 注音辭典語料庫(修正的p辭典) 21 3.3 t辭典 21 第四章 注音系統架構 22 4.1 中文轉注音 22 4.2 注音轉換規則 23 4.3 注音正確率 26 第五章 實驗 27 5.1 實驗的各種辭典 27 5.2 單字辭典的注音實驗 28 5.3 斷詞後注音的實驗 30 5.4 注音轉換規則的實驗 33 第六章 結論 34 參考文獻 35

    [1] Chen K. J. And S. H. Liu, (1992). “Word Identification for Mandarin Chinese Sen-tences,” Proceeding of COLING-92, 14th Int. Conf. On Computational Linguistics, pp. 101-107, 1992.
    [2] Fan, C. K. and W. H. Tsai, (1988). “Automatic Word Identification in Chinese Sen-tences by the Relaxation Technique,” Computer Processing of Chinese and Oriental Languages, Vol. 2, No. 4, pp. 33-56, 1988.
    [3] Kim, J. D., S. Z. Lee and H. C. Rim. (1999). “HMM Specialization with Selec-tive Lexicalization.” In Proceedings of the join SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP-VLC-99), pp. 121-127, 1999
    [4] Lee, S. Z., J. I. Tsujii and H. C. Rim.(2000). “ Lexicalized Hidden Markov Mod-els for Part-of-Speech Tagging”. In Proceedings of 18th International Conference on Computational Linguistics, Saarbrucken, Germany, pp.481-787, 2000
    [5] Nie, J. Y., M. L. Hannan and W. Jin.(1995) “Combining Dictionary, Rules and Sta-tistical Information in Segmentation of Chinese,” Computer Processing of Chinese and Oriental Languages, Vol. 9, pp. 125-143, 1995.
    [6] Rabiner, L. R. (1989). “A Tutorial on Hidden Markov Models and Selected Ap-plications in Speech Recognition,” Proceedings of the IEEE, Vol.77, No.2, pp.257-286, 1989
    [7] Sporat, R. and C. Shih,(1990). “A Statistical Method for Finding Word Boundaries in Chinese Text,” Computer Processing of Chinese and Oriental Languages, Vol. 4,No. 4, pp. 336-351, 1990.
    [8] Sporat, R., C. Shih W. Gale and N. Chang,(1996). “A Stochastic Finite-State Word-Segmentation Algorithm for Chines,” Computational Linguistics, Vol. 22, pp. 377-404, 1996.
    [9] Yeh, C. L. and H. J. Lee,(1991) “Rule-Based Word Identification for Mandarin Chinese Sentences-A Unification Approach,” Computer Processing of Chinese and Oriental Languages, Vol. 5, No. 2, pp. 97-118, 1991.
    [10] 林千翔,張嘉惠,“基於特製隱藏式馬可夫模型之中文斷詞研究”,國立中央大學資訊工程學系碩士論文,民95年。
    [11] 王良志、貝子勝、黎偉權、黃麗卿 (1991)。「以剖析為導向的中文斷詞法」,電子發展月刊,163 期,頁40-45,民80年。
    [12] 范長康、蔡文祥 (1987)。「以鬆弛法作中文斷詞」,全國計算機會議論文集,頁423-431,民76 年。
    [13] 陳克建、陳正佳、林隆基 (1986)。「中文語句分析的研究-斷詞與構詞」,中央研究院資訊所技術報告,TR86-004,民75年。

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE