簡易檢索 / 詳目顯示

研究生: 李毓哲
論文名稱: 使用語音評分輔助台語語料的驗證
Using Speech Scoring for the Validation of Taiwanese Speech Corpus
指導教授: 張智星
張俊盛
口試委員: 張智星
張俊盛
呂仁園
王新民
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊工程學系
Computer Science
論文出版年: 2013
畢業學年度: 101
語文別: 中文
論文頁數: 53
中文關鍵詞: 台語語料整理隱藏式馬可夫模型語音評分語音辨識支持向量機
外文關鍵詞: Taiwanese corpus validation
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 傳統上語料的整理需要耗費大量的人力和時間進行聽測,本論文的主要研究為使用語音辨識及結合語音評分,對未整理的台語語料進行初步的篩選。藉由機器先過濾掉有問題的音檔,如錄音音量過小、太多雜訊、錄音音檔內容有誤...等情形,取代傳統人工聽測費時的做法。本論文可分為三個階段,分別是:「基礎聲學模型訓練」、「語音評分與錯誤原因標記」及「效能評估」。

    於基礎聲學模型訓練階段,以長庚大學實驗室提供的台語訓練語料,使用隱藏式馬可夫模型(Hidden Markov Model, HMM)進行聲學模型的訓練。聲學模型單位分別為:單音素聲學模型(Monophone acoustic model)、音節內右相關雙連音素聲學模型(Biphone acoustic model)及音節內左右相關三連音素聲學模型(Triphone acoustic model),其針對測試語料進行自由音節解碼辨識網路(Free syllable decoding)的音節辨識率(Syllable accuracy)最佳結果分別為:27.20%、43.28%、45.93%。

    於語音評分與錯誤原因標記階段,將於基礎聲學模型訓練階段已訓練好的左右相關三連音素聲學模型對待整理的語料進行語音評分,而將其評分結果依照門檻值分為三部分,分別為低分區、中間值區及高分區。且針對低分區部分語料進行人工標記,標記其錯誤原因,再對其擷取特徵,使用支持向量機(Support Vector Machine, SVM)訓練出分類器,最後以該分類器對低分區語料進行二次檢驗,將低分區語料分為可用語料及不良語料。

    於效能評估階段,將原先訓練語料分別加入「未整理語料」、「中間值區及高分區語料」、「高分區語料」進行聲學模型的訓練,比較篩選語料前、後效能,其音節辨識率結果分別為:40.22%、41.21%、44.35%。

    由結果看來,經過篩選後語料所訓練出的聲學模型與未經篩選語料所產生的聲學模型,其辨識率的差別最高可達4.13%,證實本論文所提的方法,藉由語音評分確實能有效的自動篩選掉有問題的語句。

    關鍵字:台語語料整理、隱藏式馬可夫模型、語音評分、語音辨識、支持向量機


    Traditionally, preparing corpus needs a lot of labors and time for listening and selection. This research focuses on preparing a Taiwanese speech corpus by using speech recognition and assessment to automatically find the potentially problematic utterances. There are three main stages in this work: acoustic model training, speech assessment and error labeling, and performance evaluation.

    In the acoustic model training stage, we use the Taiwanese training dataset, provided by Chang Gung University (CGU), to train hidden Markov models (HMMs) as the acoustic models. Monophone, biphone (right context dependent), and triphone HMMs are tested. The recognition net is based on free syllable decoding. The best syllable accuracies of these three types of HMMs are 27.20%, 43.28%, and 45.93% respectively.

    In the speech assessment and error labeling stage, we use the trained triphone HMMs to assess the unprocessed dataset. And then we split the unprocessed dataset as low-scored dataset, mid-scored dataset, and high-score dataset by different thresholds. For the low-scored dataset, we identify and label the possible cause of having such a lower score. We then extract features from these lower-scored utterances and train an SVM classifier to further examine if each of these low-scored utterances is to be removed.

    In the performance evaluation stage, we evaluate the effectiveness of finding problematic utterances by using a joint dataset of the CGU training dataset and one of the following: the entire unprocessed dataset, both mid-scored and high-scored dataset, and high-scored dataset only. We use these three types of joint dataset to train and to evaluate the performance. The syllable accuracies of these three types of HMMs are 40.22%, 41.21%, 44.35% respectively.

    From the previous result, the disparity of syllable accuracy between the HMMs trained by unprocessed dataset and processed dataset can be 4.13%. Obviously, it proves that the processed dataset is less problematic than unprocessed dataset. We can use speech assessment automatically to find the potential problematic utterances.

    Keywords: Taiwanese corpus validation, Hidden Markov model, Speech assessment, Support vector machine.

    摘要 II Abstract IV 謝誌 VI 目錄 VII 表目次 X 圖目次 XI 第一章 緒論 1 1.1 研究動機 1 1.2 語料整理系統 1 1.3 研究方向 2 1.4 章節概要 3 第二章 相關研究 4 2.1 ForPA標音系統 4 2.2 語言學知識背景 5 2.3 語音特徵擷取與聲學模型訓練 7 2.3.1 語音特徵擷取 7 2.3.2 聲學模型訓練 9 2.4 語音評分 10 2.4.1 評分計算方式 10 2.4.2 扣分機制 12 第三章 研究方法 15 3.1 基礎聲學模型訓練 15 3.1.1 Monophone聲學模型 15 3.1.2 Biphone聲學模型 16 3.1.3 Triphone聲學模型 17 3.2 語音辨識結合語音評分 17 3.3 低分區語料二次檢驗 19 第四章 研究結果與分析 20 4.1 訓練語料簡介 20 4.2 測試語料簡介 20 4.3 待整理語料簡介 21 4.4 聲學模型參數設定 22 4.5 辨識網路介紹 23 4.6 效能評估方法 24 4.7 實驗一:基礎聲學模型訓練 25 4.7.1 實驗目的 25 4.7.2 實驗流程與設定 25 4.7.3 實驗結果與分析 26 4.8 實驗二:對待整理語料進行語音評分 28 4.8.1 實驗目的 28 4.8.2 實驗流程與設定 28 4.8.3 實驗結果與分析 28 4.9 實驗三:未經篩選語料與經篩選語料之聲學模型訓練 30 4.9.1 實驗目的 30 4.9.2 實驗流程與設定 31 4.9.3 實驗結果與分析 32 4.10 實驗四:低分區語料二次檢驗 33 4.10.1 實驗目的 33 4.10.2 實驗流程與設定 33 4.10.3 實驗結果與分析 35 4.11 實驗五:以狀態層次為基礎的決策樹實驗 41 4.11.1 實驗目的 41 4.11.2 實驗流程與設定 42 4.11.3 實驗結果與分析 43 第五章 結論與未來研究方向 44 5.1 結論 44 5.2 未來研究方向 44 參考文獻 46 附錄 47 附錄一:台語決策問題 47

    【1】Ethnologue,Chinese Min Nan,http://www.ethnologue.com。
    【2】廖子宇、呂仁園、高明達、江永進、張智星,台語文字與語音語料庫之建置,ROCLING,2012年。
    【3】朱晴蕾、呂道誠、呂仁園,混合語言之語音的語言辨認,ISCSLP,2010年。
    【4】Davis, Comparison of Parametric Representation for Monosyllabic Word Recognition in Continuously Spoken Sentences, IEEE International Conference on Acoustics, 1980.
    【5】楊永泰,隱藏式馬可夫模型應用於中文語音辨識之研究,中原大學碩士論文,民國89年。
    【6】陳柏琳,中文語音資訊檢索-以音節為基礎之索引特徵、統計式檢索模型及進一步技術,台灣大學碩士論文,民國90年。
    【7】呂道誠,不特定語者、國台雙語大詞彙語音辨識之聲學模型研究,長庚大學碩士論文,民國90年。
    【8】李俊毅,語音評分,清華大學碩士論文,民國91年。
    【9】黃武顯,基於32位元整數運算處理器之華語語音評分的改良與研究,民國96年。
    【10】Steve Young, The HTK Book version 3.4, Microsoft Corporation, 2009.
    【11】Ren-yuan Lyu, Min-siong Liang, Yuang-chin Chiang, Toward Construction A Multilingual Speech Corpus for Taiwanese (Min-nan), Hakka, and Mandarin, International Journal of Computational Linguistics and Chinese Language Processing, 2004.
    【12】Chih-Jen Lin,http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE