簡易檢索 / 詳目顯示

研究生: 林青慧
Ching-Hui Lin
論文名稱: 強韌式語者辨識系統:從麥克風、市話到手機
Robust Speaker Recognition System:from Microphone, Telephone, to Cellularphone
指導教授: 張智星
Jyh-Shing Roger Jang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2004
畢業學年度: 92
語文別: 中文
論文頁數: 49
中文關鍵詞: 語者辨識梅爾倒頻譜參數離散小波轉換分群法高斯混合模型自迴歸向量模型正交化高斯混合模型向量量化結合正交化高斯混合模型分類器合併
外文關鍵詞: Speaker Recognition, MFCC, Discrete Wavelet Transform, Clustering, GMM, ARVM, OGMM, VQOGMM
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文的目標在於研究出能適應各種錄音環境下的語者辨識系統。在辨識前處理的部份,我們使用小波轉換特徵參數及梅爾倒頻譜參數來擷取語者的語音特徵參數。語者模型訓練方法則使用 OGMM 及 VQOGMM 的訓練方法。OGMM 解決了一般 GMM 訓練方法通常將共變異數矩陣假設為對角線化,而忽略特徵參數各維度間相關性的問題,且使得描述語者資料分佈的能力更佳。VQOGMM 則結合向量量化與 OGMM,透過事先將訓練資料分群的方式,能快速地訓練出語者的模型,且只要分群數適當,辨識率也有可能再提升。

    在本論文中,我們使用了 TIMIT 麥克風語料、NTIMIT 電話語料並首先嘗試用CTIMIT手機語料來作不同錄音環境下的測試,得最高辨識率分別為 99.21%、61.51% 及10.49%。由實驗結果發現,TIMIT 語料使用小波轉換特徵參數配合 OGMM 訓練方式雖可得不錯的辨識率,但相同的方法用於 NTIMIT 語料卻不甚理想,我們可得知在麥克風語料表現良好的小波轉換特徵參數不見得在每一種語料仍保有不錯的辨識率,且單一分類器的效果也有限,因此我們嘗試改用梅爾倒頻譜參數,並透過分類器合併的方式,將 GMM 分類器與 ARVM 分類器作組合,期能改善辨識率較低落的電話及手機語料。但合併結果並非如預期皆能有所提升,乃因此二分類器發生辨識錯誤的句子集合過於接近,且受到 ARVM 分類器辨識效果較低的影響,導致整體辨識辨識率不增反降,值得注意!


    The goal of this study it to investigate the proper settings for achieving robust performance of speaker recognition systems under various recording conditions, including microphone, common phones, and mobile phones. For speech feature extraction, we have tried both MFCC (Mel-frequency cepstral coefficients) and wavelet transform coefficients. For classifiers, we have tested GMM (Gaussian mixture models), OGMM (orthogonal GMM), VQOGMM (Vector quantization based OGMM) and ARVM (Auto-regressive vector models).

    To evaluate the combinations of speech features and speaker classifiers, we have used 3 speech corpora in this study, including TIMIT, NTIMIT, and CTIMIT. The best combination of features and classifiers is not always the same for different corpora. This issue is discussed in details based on empirical result in this thesis.

    第一章 緒論...........................1 1.1 研究動機 .......................1 1.2 前人相關研究....................2 1.2.1 TIMIT 語料..................2 1.2.2 NTIMIT 語料.................3 1.2.3 CTIMIT 語料.................4 1.3 研究方向........................4 1.4 章節概要........................4 第二章 語者識別基本技術...............5 2.1 語者辨認概論....................5 2.2 語音特徵參數擷取................7 2.2.1 梅爾倒頻譜參數............ 8 2.2.2 小波轉換特徵參數..........11 2.3 分群法.........................15 2.3.1 K-means 演算法............15 2.3.2 LBG-VQ 演算法.............15 2.4 語者模型建立...................17 2.4.1 高斯混合模型..............17 2.4.2 自迴歸向量模型............21 第三章 改進方法......................24 3.1 正交化高斯混合模型.........24 3.2 向量量化結合正交化高斯混合模型...........26 3.3 GMM 和 ARVM 分類器的合併.................29 3.3.1 GMM 和 ARVM 模型相似度分數之標準化...29 3.3.2 以全句為基礎的合併方式...............31 3.3.3 以音框為基礎的合併方式...............32 第四章 實驗結果與討論..............................33 4.1 語音資料庫簡介...............................33 4.2 TIMIT語料實驗................................34 【實驗結果4.1】小波轉換特徵參數維度及OGMM對辨識率的影響.34 【實驗結果4.2】GMM、OGMM、VQOGMM辨識率比較..............37 【實驗結果4.3】GMM、OGMM、VQOGMM訓練時間比較............38 【實驗結果4.4】GMM、OGMM、VQOGMM辨識時間比較............39 4.3 NTIMIT語料實驗.....................................40 【實驗結果4.5】使用小波轉換特徵參數及OGMM訓練方式實驗結果41 【實驗結果4.6】GMM與ARVM分類器合併實驗結果...............43 4.4 CTIMIT語料實驗......................................44 【實驗結果4.7】使用MFCC及OGMM訓練方式實驗結果............44 【實驗結果4.8】GMM與ARVM分類器合併實驗結果...............45 第五章 結論與展望.........................................46 5.1 結論................................................46 5.2 展望................................................47 參考文獻..................................................48

    【1】Douglas A. Reynolds, “Large Population Speaker Identification Using Clean and Telephone Speech”, IEEE SIGNAL PROCESSING LETTERS, VOL. 2, NO. 3, MARCH 1995.
    【2】J.-L. Le Floch, C. Montaci'e, and M.-J. Caraty, “Speaker Recognition Experiments on The NTIMIT Database”, In Proceedings of EUROSPEECH 95, volume 1, pp. 379-382, September 1995.
    【3】R. Sarikaya, B. Pelom, J.H.L. Henson, “Wavelet Packet Transform Features with Application to Speaker Identification”, NORSIG-98 IEEE Norsic Signal Processing Symposium, pp. 81-84, Vigso, Denmark, June 1998.
    【4】 鄭順德, “不特定語句中量語者辨識系統之研究”, 中山大學電機工程所碩士論文, 民國九十一年
    【5】 古詩峰, “基於小波轉換特徵參數以及使用麥克風和電話語料之大量語者識別系統”, 長庚大學電機工程所碩士論文, 民國九十二年
    【6】 J.-L. Le Floch, C. Montaci'e, and M.-J. Caraty, “GMM and ARVM Cooperation And Competition for Text-Independant Speaker Recognition on Telephone Speech”, In ICSLP.
    【7】Daniel J. Mashao, and N. Tinyiko Baloyi,“Improvements in The Speaker Identification Rate Using Feature-Sets on A Large Population Database”, Eurospeech 2001.
    【8】 鐘偉仁, “語者辨認與驗證之初步研究”, 台灣大學電信工程研究所碩士論文, 民國八十九年
    【9】Jyh-Shing Roger Jang, 線上中文教材:音訊處理與辨識
    Home page: http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing
    【10】許文豪, “圖形辨識概述與實作”, 清華大學資工所碩士論文, 民國八十九年
    【11】Douglas A. Reynolds and Richard C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”, IEEE Transactions on speech and audio processing, Vol. 3, No. 1, pp.72-83, Jan. 1995.
    【12】F. BIMBOT, L. MATHAN, A. DE LIMA & G. CHOLLET, “Standard and Target Driven AR-Vector Models for Speech Analysis and Speaker Recognition”, IEEE-ICASSP, San Francisco, 1992.
    【13】Ivan Magrin-Chagnolleau, Joachim WILKE, Frédéric BIMBOT, “A Further Investigation on AR-Vector Models for Text-Independent Speaker Identification”, Proc. ICASSP ’96.
    【14】J. He, L. Liu, “On The Use of Orthogonal GMM in Speaker Recognition”, Proc. of IEEE ICASSP’99, Vol. 2, pp.845-848, March 1999, Phoenix, USA.
    【15】吳金池, “語者辨識系統之研究”, 中央大學電機研究所碩士論文, 民國九十年
    【16】Montaci'e C., and Le Floch J.-L., “AR-Vector Models for Free-Text Recognition”, ICSLP 92, Banff, vol. 1, pp. 611-614, 1992.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE