簡易檢索 / 詳目顯示

研究生: 楊宗樺
Yang, Tsung-Hua
論文名稱: 結合不同辨識器來改進文本相關語者識別
Improving Text-dependent Speaker Identification by Classifier Combination
指導教授: 張智星
Jang, Jyh-Shing Roger
口試委員: 王新民
蔡偉和
張智星
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2011
畢業學年度: 99
語文別: 中文
論文頁數: 38
中文關鍵詞: 文本相關之語者識別電腦端點偵測改善辨識器結合
外文關鍵詞: Text-dependent speaker identification, Classifier combination
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文著重在文本相關之語者識別之研究,共包含兩個部分:第一部分為「改善電腦端點偵測錯誤」,第二部分為「結合辨識器」。
    「改善電腦端點偵測錯誤」,顧名思義,即從現有之電腦端點偵測技術,進行改善,本論文提出兩種改善電腦端點偵測錯誤的方法,包含濾除語句開頭及結尾雜訊、調整動態時間扭曲(Dynamic Time Warping, DTW)的距離計算參數。濾除語句開頭及結尾雜訊,針對語句開頭及結尾之雜訊,統計雜訊音檔資訊,整理出雜訊特徵參數,來進行改善電腦端點偵測技術。調整DTW的距離計算參數,經由初始實驗數據作錯誤分析後,發現雜訊造成辨識錯誤的例子,大部分都是發生在語句結尾後,利用調整DTW距離計算參數,來進行改善電腦端點偵測。
    「結合辨識器」,主要是同時使用不同辨識器,由辨識率高之DTW做第一次辨識;比對後之最短DTW距離資訊,送交距離門檻值檢驗,若門檻值拒絕,即交由下一個辨識器辨識:反之即接受DTW辨識之結果。此部分包含許多語音辨識常用到的辨識器,如DTW、高斯混合模型(Gaussian Mixture Model)、線性伸縮(Linear Scaling)等等;而使用的特徵值為39維的梅爾倒頻譜系數。在決定門檻值方面,本次論文方法為由參考語音選定門檻值,使用窮舉法找出系統最佳距離門檻值。
    實驗結果,於改善電腦端點偵測錯誤部分,錯誤降低率可達65.81%。應證本實驗方法的可行性;另外與劉玉情於2009年論文之改善端點偵測錯誤最佳成果相比較,所得到的語者識別辨識率高於其實驗結果0.96%,即可增進29句的正確辨識語音,並且發現改善端點偵測錯誤後的辨識率更接近理想值。結合辨識器部分,單一辨識器於文本相關之語者識別中辨識率最佳可達98.93%。而根據結合辨識器實驗結果得知,文本相關之語者識別系統可達到99.0%,錯誤降低率為6.54%,證實本實驗方法可以增進文本相關之語者識別之辨識率。


    This thesis discusses the research on text-dependent speaker identification. Two parts are included in this thesis: "improvement on endpoint detection" and "classifier combination".
    "Improvement on endpoint detection" refers to improvement upon the accuracy of the current method in endpoint detection. We propose two methods to improve the accuracy: automatic removal of the noisy segments at the beginning and the end of the sentence and adjustment on computing distance for dynamic time warping (DTW) algorithm. The first method collects the information about these noisy segments and finds the best parameters to improve the accuracy of endpoint detection. On the other hand, preliminary experimental results show that most of the noise-affected cases occur at the end of the utterance. We therefore use the second method to adjust the DTW algorithm to alleviate the sentence-end noise problem.
    We also propose a classifier combination method to further improve the accuracy of speaker identification. This method adopts multiple classifiers at the same time, where DTW, due to its high recognition performance, is used as the first stage classifier. The distance value computed from the DTW algorithm is then checked against a threshold value. If the result is a reject, i.e. the distance is higher than the threshold, we hand the utterance over to the next stage classifier; if the result is an acceptance, i.e. the distance is lower than the threshold, we can conclude that a close match is found and accept the recognition result without further classification. The optimal threshold that decides an acceptance or a reject is selected empirically from various reference utterances through exhaustive search.
    In this thesis, we use 39-dimentional Mel frequency cepstral coefficients (MFCCs) as our features. And we assess the validity of the classifier combination system by comparing the recognition rate between the proposed system and the original system using DTW. The experimental result has shown that classifier combination is better than the original system.

    第1章 緒論 1 1.1 研究主題 1 1.2 文本相關之語者識別簡介 2 1.3 本論文研究方向和主要成果 3 1.4 章節概要 4 第2章 文本相關之語者識別研究 5 2.1 文本相關之語者識別的相關研究 5 2.2 本論文簡介 6 2.2.1 資料庫 6 2.2.2 特徵參數擷取-MFCC 7 第3章 研究方法 9 3.1 改善電腦端點偵測錯誤 9 3.1.1 濾除語句開頭及結尾雜訊 10 3.1.2 調整DTW距離計算參數 13 3.2 結合辨識器 16 3.2.1 特徵參數擷取 16 3.2.2 本論文使用之辨識器介紹 17 3.2.3 結合最佳組合排名 23 3.2.4 如何選定門檻值 24 第4章 實驗結果與分析 25 4.1 初始語者識別結果與分析 25 4.2 改善電腦端點偵測錯誤的實驗結果 27 4.2.1 濾除語句開頭及結尾雜訊的實驗結果與分析 27 4.2.2 調整DTW距離計算參數的實驗結果與分析 29 4.3 結合辨識器的實驗結果 31 4.3.1 個別辨識器之實驗結果與分析 31 4.3.2 結合辨識器的實驗結果與分析 32 4.4 於「MIR 2009年語者識別資料庫」實驗結果 35 第5章 結論與展望 36 參考文獻 37

    【1】 J.P. Campbell, Jr., Speaker recognition: A tutorial, Proceedings of the IEEE, vol.85, p. 1437-1462, 1997
    【2】 陳江村, 張智星, 李俊毅, 吳銘鈞, “結合HMM和DTW的兩階段式門禁系統”, Proceedings of the Seventh Conference on Artificial Intelligence and Applications (第七屆人工智慧與應用研討會), Tai-Chung, Taiwan, Nov 2002
    【3】 吳銘鈞, “以音節為基礎之語者識別”, 清華大學碩士論文, 民國92年
    【4】 吳金池, “語者辨識系統之研究”, 中央大學碩士論文, 民國90年
    【5】 劉玉情, “文本相關之語者識別及其不佳輸入之濾除機制”, 清華大學碩士論文, 民國98年
    【6】 C. Wutiwiwatchai, V. Achariyakulporn, C. Tanprasert , Text-dependent speaker identification using LPC and DTW for Thai language, IEEE, 1999
    【7】 陳俊傑, “類神經模糊與軟式計算在語者辨識上的應用”, 清華大學碩士論文, 民國86年
    【8】 趙怡翔, “鑑別式訓練法於語者驗證之研究”, 交通大學博士論文, 民國98年
    【9】 許世俊, “用於高斯混合模型語者辨認之區別式訓練方法”, 清華大學碩士論文, 民國85年
    【10】 張文杰, 陳鼎允, 陳子和, 曾志仁, 廖元甫, 莊堯棠, “結合韻律與聲學訊息之強健性漢語語者驗證系統”, Chinese computational linguistics ( ROCLING), 2006
    【11】 楊壁如, “語者與歌者識別”, 清華大學碩士論文, 民國89年
    【12】 L.Rabiner, Fundamentals of speech recognition, Prentice Hall, 1993
    【13】 T.W. Parsons, Voice and Speech Processing, McGraw-Hill, 1986
    【14】 李俊毅, “語音評分”, 清華大學碩士論文, 民國91年
    【15】 L. Wang, S. Huang, S. Hu, J. Liang, B. Xu, Improving searching speed and accuracy of query by humming system based on three methods: Feature fusion, candidates set reduction and multiple similarity measurement rescoring, 2008
    【16】 S. Kuroiwa, S. Tsuge, M. Kita, F. Ren, Speaker Identification Method Using Earth Mover’s Distance for CCC Speaker Recognition Evaluation 2006, International Journal of Computational Linguistics & Chinese Language Processing, vol. 12, p. 239-254 , 2007
    【17】 S. Cohen, L. Guibasm, The earth mover's distance under transformation sets, IEEE, vol. 2, p. 1076-1083, 1999
    【18】 Y. Linde, A. Buzo, R. Gray, An Algorithm for Vector Quantizers Design, IEEE Transactions on Communications, vol. 28, p. 84–94, 1980
    【19】 S. Kuroiwa, S. Tsuge, M. Kita, F. Ren, Evaluation of EMD-Based Speaker Recognition Using ISCSLP2006 Chinese Speaker Recognition Evaluation Corpus, Chinese Spoken Language Processing, p. 539-548, 2006
    【20】 S. Kuroiwa, S. Tsuge, F. Ren, Fuzzy Cluster Analysis and its Evaluation Method, Int'l Journal of Biomedical Soft Computing and Human Sciences, vol. 13, 2008

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE