簡易檢索 / 詳目顯示

研究生: 黃怡寧
Yi-Ning Huang
論文名稱: 華語捲舌音與非捲舌音辨識之研究
Research on Classifying Retroflex and Non-retroflex for Mandarin Chinese
指導教授: 張智星
Jyh-Shing Roger Jang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 26
中文關鍵詞: 華語捲舌辨識隱藏式馬可夫模型語音
外文關鍵詞: HMM, MFCC, Retroflex, Mandarin Chinese, Classifying
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文是針對華語捲舌音與非捲舌音辨識之研究。研究目標是希望能準確辨識一段經過切音後的華語聲音區段是否為捲舌音。

    本論文使用隱藏式馬可夫模型(HMM)訓練捲舌音模型與非捲舌音模型,所採用的特徵除了常用的梅爾倒頻譜係數(MFCC)與log energy,另外加入子音區段的能量比值,藉由調整比例參數以取得各種不同的能量比值。訓練時利用不同models數目,並加入母音作訓練。辨識使用Viterbi演算法,並針對不同models數目,調整辨識網路。

    實驗結果顯示,擷取頻率前25%之能量總和與後75%之能量總和的比值與MFCC、log energy作為聲學特徵加以訓練辨識,可得最佳化之辨識結果,對於華語捲舌音與非捲舌音之辨識率可達98.24%。


    This thesis presents a research on recognizing the retroflex and non-retroflex speech sounds for Mandarin Chinese. The objective of this research is to identify whether the initial of a syllable obtained from forced alignment is retroflex or not.

    Hidden Markov model-based (HMM) retroflex and non-retroflex models are used in this research. Besides the conventional speech features like Mel-scale frequency cepstral coefficients (MFCC) and log-Energy, the energy ratio taken from the initial segment is also used. Different energy ratios are obtained by adjusting the proportions of the low-frequency part to the high-frequency part. Different models are also constructed based on different modeling approaches. The final of a syllable is also used for training. Viterbi algorithm is used for recognition, and the recognition network is adjusted according to different modeling approaches.

    The experimental results show that the best performance is reached when using the energy ratios of the front 25% part to the tailing 75% part of the spectrum in conjunction with the MFCC and log energy features. A 98.24% recognition rate on retroflex and non-retroflex speech sounds for Mandarin Chinese is obtained.

    第1章 緒論 1 1.1 研究動機 1 1.2 相關研究 1 1.3 研究簡介 1 1.4 章節概要 2 第2章 訓練華語捲舌音與非捲舌音聲學模型 3 2.1 捲舌音與非捲舌音 3 2.2 訓練流程 3 2.3 擷取特徵 4 2.3.1 梅爾倒頻譜係數 4 2.3.2 Energy 4 2.3.3 能量比值 4 2.4 切音 5 2.5 訓練方法 6 2.5.1 HMM訓練方法 6 2.5.2 models數目 6 2.5.3 特徵維度 8 2.5.4 加入母音 8 第3章 辨識華語捲舌音與非捲舌音 11 3.1 辨識流程 11 3.2 辨識網路 11 3.2.1 2-consonant models 11 3.2.2 44-models 12 3.2.3 2-syllable models 13 3.2.4 4-models 13 3.2.5 78-models 14 第4章 實驗與目前結果 15 4.1 語料簡介 15 4.2 實驗過程 15 4.2.1 2-consonant models與44-models之比較 16 4.2.2 39維與42維特徵訓練結果之比較 17 4.2.3 調整能量比值的R值結果之比較 17 4.2.4 加入母音訓練結果之比較 18 4.2.5 能量比值在加入母音後的辨識結果 20 4.3 實驗結果 21 4.4 錯誤分析 21 4.4.1 原始音檔有誤 21 4.4.2 zai的辨識 23 4.4.3 僅有子音的判斷資訊不足 24 第5章 結論與未來展望 26

    【1】 翁秀民,沈牧璋,郭德惠, “華語捲舌子音及其相對非捲舌子音的比較研究”,高雄應用科技大學學報, 第35卷, 第325-333頁, 民國95年.
    【2】 鄭靜宜, “國語捲舌音和非捲舌音的聲學特性”, 台南大學人文研究學報, 第40卷第1期, 第27-48頁, 民國95年.
    【3】 國立台灣師範大學國音教材編輯委員會, “國音學”, 正中書局, 台北, 民國97年.
    【4】 Jyh-Shing Roger Jang, “Audio Signal Processing and Recognition”, http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/
    【5】 王小川, “語音訊號處理”, 全華科技圖書股份有限公司, 台北, 民國93年.
    【6】 Lawrence R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”. Proceedings of the IEEE, 77 (2), p. 257–286, February 1989.
    【7】 Forney, G.D., Jr., “The viterbi algorithm”, IEEE , 1973.
    【8】 Takatoshi JITSUHIRO, Satoshi TAKAHASHI, and Kiyoaki AIKAWA, “The viterbi algorithm”, IEEE, 1998.
    【9】 W. Chou, B.H. Juang, C.H. Lee Segmental, “GPD training of HMM based speech recognizer”, IEEE, 1992.
    【10】 Tony Robinson and Frank Fallside, “Phoneme Recognition from the TIMIT database using Recurrent Error Propagation Networks”, Cambridge University Engineering Department Technical Fleport CUED/FINFENG/TR.42, 1990.
    【11】 Steve Young, “The HTK Book ver.3.4”, Cambridge University Engineering Department, 2006.
    【12】 張智星, “Matlab程式設計 入門篇”, 鈦思科技, 2007.
    【13】 賴百威Pai-Wei Lai, “華語捲舌音與非捲舌音之偵測On the Detection of Retroflex and Non-retroflex for Mandarin Chinese”, National Tsing Hua University, 2007.
    【14】 陳錫賢, “語音特定屬性之偵測與應用Speech Attribute Detection and Its Applications”, National Tsing Hua University, 2006.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE