簡易檢索 / 詳目顯示

研究生: 黃鈞尉
Chun-wei Huang
論文名稱: 語音事件偵測與國語連續語音之標音
Speech Event Detection and the Labeling of Continuous Mandarin Speech
指導教授: 王小川
Hsiao-Chuan Wang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 電機工程學系
Department of Electrical Engineering
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 79
中文關鍵詞: 語音語音事件偵測國語連續語音標音
相關次數: 點閱:1下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 語音辨認技術在近十年來蓬勃發展,傳統自動語音辨認系統(ASR)對於音素辨認是採用資料驅動方式建立統計模型,同時執行語音切割與辨認,此類聲學模型對於變化複雜的語音訊號,很難精確描述不同語音事件之間的差異性。新一代技術採用以知識為基礎(Knowledge-Based)之特徵參數,建立統計模型,對連續語音訊號先進行切割與分類,透過多層切割方式,能精確掌握不同語音事件之差異性,使用的特徵參數維度與資料量也大幅降低。
    本論文使用Seneff聽覺模型為前端處理器,取其包絡頻譜與同步頻譜輸出。從聽覺模型輸出計算特徵參數,對於不同語音事件採用不同的特徵參數,建立統計模型,或是訂定參數臨界值方式,以這種方式對國語連續語音訊號進行精確切割與分類,以供後端辨識系統使用。
    本論文實驗將國語連續語音訊號依其聲學性質切割為靜音(silence)、母音(vowel)、鼻音(nasal)、塞音(stop)、塞擦音(affricate)、摩擦音(fricative)六個語音事件。語音事件切割架構採”階層式二分法”,每一階層語音偵測皆依照其聲學上差異分為”偵測目標”與”非偵測目標”,特徵參數則選用能突顯”偵測目標”之參數值,如此架構有助於”偵測目標”的辨識。特徵參數的萃取,以往的研究,著重於語音事件頻譜上之特徵,本論文更加入”時域”上的概念,對於不同語音事件的動態變化特徵描述更為精確,實驗切割效能也有效大幅提升。


    第一章 緒論 1 1.1研究動機 1 1.2相關研究與系統架構 2 1.3中文發音性質 3 1.4章節概要 5 第二章 前端處理器 7 2.1 Seneff 聽覺模型 7 2.2階段一: 臨界頻帶濾波器組 9 2.3階段二: 毛細胞模型 11 2.4階段三: 包絡偵測器與同步偵測器 17 第三章 語音事件之分類 21 3.1 響音偵測 22 3.1.1 特徵參數擷取 23 3.1.2 統計模型訓練 26 3.2 靜音與阻塞音之分離 29 3.2.1 靜音偵測階段一 29 3.2.2 靜音偵測階段二 30 3.2.3 判定與修正規則 36 3.2.3 語音事件之分割 38 3.3 語音偵測實驗結果 39 3.3.1 語音偵測實驗語料 39 3.3.2 效能評估方式 39 3.3.3 語音偵測實驗結果 40 3.3.4 語音偵測結果分析與討論 41 第四章 鼻音事件之偵測 43 4.1 鼻音第一階段偵測 44 4.2 鼻音第二階段偵測 48 4.3 鼻音偵測之實驗結果 52 第五章阻塞音分類 55 5.1 塞音偵測 56 5.1.1 塞音偵測之特徵參數 57 5.1.2 塞音偵測實驗語料與結果 60 5.2塞擦音與摩擦音偵測 61 5.2.1 塞擦音與摩擦音偵測之特徵參數 61 5.2.2 塞擦音與摩擦音偵測實驗語料與結果 65 5.2.3 阻塞音分類結果分析與討論 67 第六章 實驗結果與分析 69 6.1 語音事件偵測 69 6.3 實驗結果討論與分析 73 第七章 結論 75 7.1結論 75 7.2未來展望 76 參考文獻 77 附表一臨界頻帶濾波器組帶通範圍 79

    【1】Ahmed M. Abdelatty Ali,”Auditory-Based Speech Processing Based on the Average Localized Synchrony Detection”,Acoustic Speech and Signal Processing (ICASSP) ,Vol.3,pp.1623-1626,2000
    【2】Ahmed M. Abdelatty Ali,”Acoustic-Phonetic Features for the Automatic Classification of Stop Consonants ”,ICASSP ,Vol.9,NO.8 , November 2001
    【3】Ahmed M. Abdelatty Ali,”An Acoustic-Phonetic Feature-Based System for the Automatic Recognition of Fricative Consonants”, Vol.2 , 12-15, pp.961-964,ICASSP 1998
    【4】Ahmed M. Abdelatty Ali,”Robust Classification of Stop Consonants Using Audtory-Based Speech Processing”,Vol.10,pp.279-292 ,ICASSP July 2001
    【5】Ahmed M. Abdelatty Ali, ”An Acoustic-Phonetic Feature-Based System for Automatic Phoneme Recognition in Continuous Speech”, Circuits and Systems ,Vol.3, pp.118-121, 1999
    【6】Ahmed M. Abdelatty Ali,”Automatic Detection and Classification of Stop Consonants Using An Acoustic-Phonetic Feature-Based System ”, 14th International Congress of Phonetic Science(accepted),1999
    【7】Ahmed M. Abdelatty Ali,”Robust Auditory-Based Speech Processing Using the Average Localized Synchrony Detection”, ICASSP ,Vol.10 , NO.5, July 2002
    【8】Guoning Hu,”Separation of Stop Consonants”,ICASSP ,Vol2,6-10, pp.748-752 ,April 2003
    【9】Guoning Hu,”Segregation of Stop Consonants From Acoustic Interference”,Neural Network for Signal Processing,17-19,pp. 647-756,2003
    【10】James R. Glass,”Detection and Recognition of Nasal Consonants in American English”,ICASSP 1986
    【11】Marilyn Y Chen ,”Nasal Detection Module for a Knowledge-Based Speech Recognition System”,ICASSP ,Vol.6,pp.636-639,2000
    【12】Sung,Kuang-Ting,”A study on Detection and Recognition of Obstruents in Continuous Mandarin Speech”,國立清華大學碩士論文,民國九十五年六月
    【13】王小川,”語音訊號處理”,全華科技圖書,2005年二月
    【14】蔡佳君,”國語發音和語法”,台灣學生書局,民國六十七年八月
    【15】羅肇錦,”國語學”,五南圖書出版公司,民國七十九年一月

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE