簡易檢索 / 詳目顯示

研究生: 吳昆璟
Kun-Ching Wu
論文名稱: 以信心量度改善中文斷詞之初探
An Attempt on Improving Chinese Word Segmentation Using Confidence measure
指導教授: 江永進
Yuang-Chin Chiang
口試委員:
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 25
中文關鍵詞: 信心量度中文斷詞
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文的主要目的在模仿語音辨識的信心量度,探討信心量度在中文斷詞的效用。首先,本文利用了詞位標籤將每個字分類成B、I、E、S四種(詞頭、詞中、詞尾以及單字詞)。有了詞位標籤之後,我們就可以自然的用隱藏式馬可夫模型來模型斷詞問題。所以本文是採用新近發展出的詞位標籤之特製化隱藏式馬可夫模型來作為斷詞方法,其斷詞正確率比傳統的隱藏式馬可夫模型(Hidden Markov Model, HMM)還要高。為了減少計算量和去除掉一些機率較低的狀態序列,使用了Beam Search的方法找出前n名的狀態序列,之後再利用這n條狀態序列來算出句子和字的事後機率,本文採用此事後機率來當作信心量度的評估。實驗結果發現,全句序列的信心量度和正確率之相關係數與句子的字數有其一定的關聯,但信心量度對於提昇Top-1的正確率並沒有幫助。


    第一章 概論 1 第二章 斷詞 2 2.1 長詞優先法 2 2.2 詞位標籤 3 2.3 隱藏式馬可夫模型(Hidden Markov Model, HMM) 4 2.4 Viterbi 演算法 7 2.5 M-HMM 9 第三章 斷詞的信心量度 11 3.1 事後機率當作信心量度 11 3.2 P(O)的計算 12 3.3 Beam Search 13 3.4 全句序列的信心量度 14 3.5 單字、單標籤的信心量度 15 第四章 實驗 17 4.1 資料來源 17 4.2 信心量度對於句子正確率 18 4.3 單字、單標籤的信心量度 20 第五章 結論 24 參考文獻 25

    [1] Chen, B., J.-W. Kuo and W.-H. Tsai (2005), “Lightly Supervised and Da-ta-driven Approaches to Mandarin Broadcast News Transcription,” International Journal of Computational Linguistics & Chinese Language Processing, Vol. 10, No. 1,pp1-18,2005.
    [2] Rabiner , L. R.(1989), “A Tutorial on Hidden Markov Models and Selected Ap-plications in Speech Recongnition, ”Proceedings of the IEEE, Vol.77, No.2, pp.257-286, 1989.
    [3] Mangu, L., E. Brill and A. Stolcke (1999), “Finding Consensus Among Words: Lattice-Based Word Error Minimization”,1999.
    [4] Wessel, F., R. Schl□ter, K. Macherey and H. Ney (2001), “Explicit Word Error Minimization Using Word Hypothesis Posterior Probabilities,” Proc. Of Interna-tional Conference on Acoustic, Speech and Signal Processing, 2001.
    [5] Wessel, F. and H. Ney (2005), “Unsupervised Training of Acoustic Models for Large Vocabulary Continuous Speech Recognition,” IEEE Trans. Speech and Audio Processing, Vol.13, No. 1, pp.23-31, 2005.
    [6] 林千翔,張嘉惠(2006),”基於特製隱藏式馬可夫模型之中文斷詞研究”國立中央大學資訊工程學系,2006.
    [7] 陳璨輝,王新民,陳柏琳(2006),”信心度評估於中文大詞彙連續語音辨識之研究”國立台灣師範大學資訊工程學系,2006.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE