研究生: |
杜承恩 Tu, Cheng-En |
---|---|
論文名稱: |
基於決策樹與隱藏式馬可夫模型之華語聲調辨識 Mandarin Tone Recognition based on Decision Trees and Hidden Markov Models |
指導教授: |
張智星
Jang, Jyh-Shing Roger |
口試委員: |
蔡偉和
王新民 |
學位類別: |
碩士 Master |
系所名稱: |
電機資訊學院 - 資訊工程學系 Computer Science |
論文出版年: | 2011 |
畢業學年度: | 99 |
語文別: | 中文 |
論文頁數: | 42 |
中文關鍵詞: | 華語聲調辨識 、決策樹 、隱藏式馬可夫模型 |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本論文主旨以結合決策樹和隱藏式馬可夫模型的方式進行華語的四聲聲調評量,語料內容是華語可發聲調的一到四聲,且不考慮輕聲。希望能用此較為單純的語料評估決策樹與隱藏式馬可夫模型的基礎效能以及輔助四聲發音之學習。本系統使用隱藏式馬可夫模型的強制對位來切割每個音節,並利用決策樹和隱藏式馬可夫模型計算對應聲學模型之對數機率,可以得到這兩種方式的辨識效果。最後,依據這兩種方式得到每個音節的分數排名分佈,使用GMM做第二階段的分類以取得最後的辨識結果。使用的特徵為聲調辨識常用的音高與對數能量,由於使用方式不同會在個別方法中作介紹。
在決策樹的方法中,藉由詢問二元問題,而歸納出最後的聲調辨識結果。決策樹的基本架構是使用分割合併 (divide-and-conquer),從根部開始,在每個節點利用觀察值來回答問題,逐漸縮小決策考慮範圍,直到葉部節點。藉由葉節點分類和統計的特性,做出合理的決策。本論文使用C4.5演算法來訓練決策樹,使用音高以及對數能量的相關特徵。在音高相關特徵上,我們將音高曲線均分成N等份,再取出每一小段的平均值,以及相鄰等份的差值作為特徵點。在對數能量相關特徵上,採用對數能量較為穩定的韻母部分之最大值與平均值作為特徵點。因此特徵值維度為2N+2。
而在使用隱藏式馬可夫模型方面,根據強制對位的結果以音高資料與對數能量,共6維特徵。分別訓練一到四聲四種模型。辨識時,也先使用強制對位再對每個單音節進行辨識,得到最後的結果。
本論文使用單音節語料,搭配不同的特徵值組合先測試決策樹的基本效能,再與隱藏式馬可夫模型做比較。發現兩者都有不錯的辨識結果。而本論文所提出的結合方法約有20%的錯誤改進率,能夠使辨識效能更加提升。
最後,嘗試使用決策樹進行連續語音的辨識,使用的是唐詩語料。依照先前決策樹的設定取音高與能量代表點,分別以單一模型與右相關模型建立決策樹,但效果都不如隱藏式馬可夫模型之辨識結果。代表決策樹在連續語音的辨識上,尚有進步的空間。
【1】 趙金銘《漢語研究與對外漢語》<從一些聲調語言的聲調說到漢語聲調>, 1997
【2】 Witen, I. H., Frank, E., Data Mining: Practical Maching Learning Tools and Techniques (2nd Edition), Morgan Kaufmann Publishers, 2005
【3】 Quinlan, J. R., C4.5: Programs for Maching Learning, Morgan Kaufmann Publishers, 1993.
【4】 Wang, Y. R., Chen, S. H., Shieh, J. M. “Tone Recognition of Continuous Mandarin Speech Based on Hidden Markov Model”, International Journal of Pattern Recognition and Artificial Intelligence, 1994.
【5】 Chen, C. J., Gopinath R. A., Monkowski M. D., Picheny M. A., Shen K., “New Methods in Continuous Mandarin Speech Recognition”, in Proc. of Eurospeech, 1997.
【6】 Wang, H. L., Qian, Y., Soong, F. K., Zhou, J. L., Han J. Q., “Improved Mandarin Speech Recognition by lattice rescoring with enhanced tone models”, in Proc. of International Symposium on Chinese Spoken Language Processing, 2006.
【7】 Wang, H. L., Qian, Y., Soong, F. K., Zhou, J. L., Han J. Q., “A Multi-space Distribution Approach to Speech Recognition of tonal languages”, in Proc. of International Symposium on Chinese Spoken Language Processing, 2006.
【8】 Qian, Y., Lee, T., Soong, F. K., “Tone Recognition in Continuous Cantonese Speech using supratone models”, Journal of the Acoustical Society of American, 2007.
【9】 Rose, P., “Considerations in the Normalization of the Fundamental Frequency of Linguistic Tone”, Speech Communication, 1987.
【10】 Chen, J.-C., Jang, J.S. R., “TRUES: Tone Recognition Using Extended Segment”, ACM Trans. Asian Lang. Inform. Process. 7, 3, Article 10, 2008.
【11】 Liao, H.-C., Chen, J.-C. , Chang, S.-C., Guan, Y.-H., Lee, C.-H., “Decision tree based tone modeling with corrective feedbacks for automatic Mandarin tone assessment”, In INTERSPEECH 2010.
【12】 Rabiner, L., “On the Use of Autocorrelation Analysis for Pitch Detection”, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 25,No. 1,24-33, 1977
【13】 Ross, M.Shaffer, H. Cohen, A. Freudberg, R., and Manley, H., “Average Magnitude Difference Function Pitch Extractor,” IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 22,No. 5,353-362, 1974
【14】 黃士旗,” 中文語音聲調辨識的改良與錯誤分析”,清大碩士論文,2006。