研究生: |
吳昆璟 Kun-Ching Wu |
---|---|
論文名稱: |
以信心量度改善中文斷詞之初探 An Attempt on Improving Chinese Word Segmentation Using Confidence measure |
指導教授: |
江永進
Yuang-Chin Chiang |
口試委員: | |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2008 |
畢業學年度: | 96 |
語文別: | 中文 |
論文頁數: | 25 |
中文關鍵詞: | 信心量度 、中文斷詞 |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本論文的主要目的在模仿語音辨識的信心量度,探討信心量度在中文斷詞的效用。首先,本文利用了詞位標籤將每個字分類成B、I、E、S四種(詞頭、詞中、詞尾以及單字詞)。有了詞位標籤之後,我們就可以自然的用隱藏式馬可夫模型來模型斷詞問題。所以本文是採用新近發展出的詞位標籤之特製化隱藏式馬可夫模型來作為斷詞方法,其斷詞正確率比傳統的隱藏式馬可夫模型(Hidden Markov Model, HMM)還要高。為了減少計算量和去除掉一些機率較低的狀態序列,使用了Beam Search的方法找出前n名的狀態序列,之後再利用這n條狀態序列來算出句子和字的事後機率,本文採用此事後機率來當作信心量度的評估。實驗結果發現,全句序列的信心量度和正確率之相關係數與句子的字數有其一定的關聯,但信心量度對於提昇Top-1的正確率並沒有幫助。
[1] Chen, B., J.-W. Kuo and W.-H. Tsai (2005), “Lightly Supervised and Da-ta-driven Approaches to Mandarin Broadcast News Transcription,” International Journal of Computational Linguistics & Chinese Language Processing, Vol. 10, No. 1,pp1-18,2005.
[2] Rabiner , L. R.(1989), “A Tutorial on Hidden Markov Models and Selected Ap-plications in Speech Recongnition, ”Proceedings of the IEEE, Vol.77, No.2, pp.257-286, 1989.
[3] Mangu, L., E. Brill and A. Stolcke (1999), “Finding Consensus Among Words: Lattice-Based Word Error Minimization”,1999.
[4] Wessel, F., R. Schl□ter, K. Macherey and H. Ney (2001), “Explicit Word Error Minimization Using Word Hypothesis Posterior Probabilities,” Proc. Of Interna-tional Conference on Acoustic, Speech and Signal Processing, 2001.
[5] Wessel, F. and H. Ney (2005), “Unsupervised Training of Acoustic Models for Large Vocabulary Continuous Speech Recognition,” IEEE Trans. Speech and Audio Processing, Vol.13, No. 1, pp.23-31, 2005.
[6] 林千翔,張嘉惠(2006),”基於特製隱藏式馬可夫模型之中文斷詞研究”國立中央大學資訊工程學系,2006.
[7] 陳璨輝,王新民,陳柏琳(2006),”信心度評估於中文大詞彙連續語音辨識之研究”國立台灣師範大學資訊工程學系,2006.