研究生: |
林怡君 Yi-Chun Lin |
---|---|
論文名稱: |
國語語音訊號中鼻音偵測之研究 An Initial Study on Nasal Detection in Continuous Mandarin Speech |
指導教授: |
王小川
Hsiao-Chuan Wang |
口試委員: | |
學位類別: |
碩士 Master |
系所名稱: |
電機資訊學院 - 電機工程學系 Department of Electrical Engineering |
論文出版年: | 2005 |
畢業學年度: | 93 |
語文別: | 中文 |
論文頁數: | 48 |
中文關鍵詞: | 鼻音 、偵測 、語音辨認 |
外文關鍵詞: | nasal, detection, speech recognition |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
新一代語音辨認技術,將以多組特徵參數取代僅以一組特徵參數為辨認的基礎。在國語語音中,聲母可以依各種發音方法與發音部位區分,韻母可以口腔形狀區分,鼻音為可區分不同聲母與韻母的特性之一;若各種發音方法、發音部位、口腔形狀皆一組或多組特徵參數表示,於是所有國語語音可建立多組特徵參數表示。
在以共振峰模型作語音合成的實驗中,鼻音效果可以用一對共振器-反共振器來模擬,有鼻音時,共振頻率與反共振頻率錯開,反共振效果產生鼻音現象,而錯開的方式決定了不同的鼻音,也使得鼻音高頻音能量降低,能量集中在低頻,在200~400Hz有一共振峰存在,此外,鼻音的頻率特性穩定,也是用以偵測鼻音存在的依據。本論文將利用這些特性建立鼻音模型,用以偵測鼻音。
本論文使用Seneff聽覺模型,取其包絡線響應,切割連續語音為多段語音音段,再以同步響應,對每一音段萃取鼻音特徵參數,使
用高斯混合模型作鼻音偵測。實驗包含較是否將200~400Hz由200~ 4000Hz獨立為一個頻帶、鼻音聲母與韻母分開訓練模型,以不同鼻音特徵參數,對鼻音偵測的影響。實驗結果,以各頻帶同步響應值和之平均值及語音音段中點與起點、終點與中點同步響應值差之平均值為鼻音特徵參數,最佳正確率可達82%。
【1】 Kenneth N. Stevens, “Toward a model for lexical access base on acoustic landmarks and distinctive features,” Research Laboratory of Electronics and Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, Cambridge, Massachussetts 02139-4307, January 2002
【2】 Chin-Hui Lee, “From Knowledge-Ignorant to Knowledge-Rich Modeling: A New Speech Research Paradigm for Next Generation Automatic Speech Recognition,” Georgia Institute of Technology Atlanta, GA 30332,USA
【3】王小川,“語音訊號處理”,全華科技圖書,民國九十三年三月
【4】蔡佳君,“國語發音和語法”,臺灣學生書局,民國六十七年八月再版
【5】羅肇錦,“國語學”,五南圖書出版公司,民國七十九年一月
【6】Hong-Bin Chiou, Hsiao-Chuan Wang, Yueh-Chin Chang, “Synthesis of Mandarin Speech Based on Hybrid Concatenation,” Computer Processing of Chinese and Oriental Languages,Vol.5,No.3、4, November 1991
【7】Peter Ladefoged, “Vowels and Consonants An Introduction to the Sounds of Languages,” Blackwell Publishers,2001
【8】James R. Glass, Victor W. Zue, “Nasal Consonants and Nasalized Vowels: An Acoustic Study and Recognition Experiment,” S.M Thesis, Massachusetts Institute of Technology, February 1985
【9】James R. Glass, Victor W. Zue, “Detection and Recognition of Nasal Consonants in American English,” ICASSP 1986
【10】Marilyn Y. Chen, “Nasal Detection Module for a Knowledge-based Speech Recognition System,” ICSLP 2000, Vol.6,pp.636-639
【11】John M. Howie, “Acoustical Studies of Mandarin Vowels and Tones,” Cambridge University Press
【12】Stephanie Seneff, “A Joint Synchrony/Mean-rate Model of Auditory Speech Processing,” Journal of Phonetics 16, 55-76 1988
【13】Stephanie Seneff, “A Computational Model for the Peripheral Auditory System :Application to Speech Recognition Research,” ICASSP 86
【14】Interval Reserch Corporation Technical Report, http://rvl4.ecn.purdue.edu/%7Emalcolm/interval/1998-010/
【15】林嘉淙,”國語發音比對及其發音教學上應用,” 國立清華大學碩士論文,民國九十年六月
【16】James M. Kates, ”A Time-Domain Digital Cochlear Model,” IEEE Transaction on Signal Processing ,Vol. 39, NO.12, December 1991
【17】James R. Glass, Victor W. Zue, “Multi-Level Acoustic Segmentation of Continuous Speech,” IEEE 1988
【18】Keinosuke Fukunaga, “Introduction to Statistical Pattern Recognition,” Second Edition, Academic Press