簡易檢索 / 詳目顯示

研究生: 羅瑞麟
Jui-Lin Lo
論文名稱: 以語音辨識與評分輔助口說英文學習
Automatic Speech Analysis for Computer Assisted Spoken English Learning
指導教授: 張智星
Jth-Shing Roger Jang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2004
畢業學年度: 92
語文別: 中文
論文頁數: 59
中文關鍵詞: 英文語音評分語音評分HMM對數機率說話驗證強迫切割英文語音辨識
外文關鍵詞: English Speech Evaluation, Speech Evaluation, HMM Log Probability, Utterance Verification, Forced Alignment, English Speech Recognition
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  •   英文語音評分乃是結合了許多音訊處理以及語音辨識技術的一門學問,本論文主要論述的重點在於利用標準語音資料來比對評分。從定義評分系統的各個部份開始,依英文發音的特有性,針對各部份設計了對應的實驗,期許建立一套合理的英文語音評分系統。
      本論文包含三個部份:第一部份為「說話驗證」,第二部份為「語音訊號切割」,第三部份為「英文語音評分」。分別介紹英文語音評分系統的各個環節。
      「說話驗證」可視為英文語音評分的防火牆。許多情況下,我們不僅關心測試語料的內容,更關心語料的內容有多麼的可靠,當我們針對不同的評分語音評估出一可信度,並依此對評分語音內容的正確性做出判斷,就是所謂的說話驗證。
      「英文語音訊號切割」提供一個將語音訊號切割出每個音素時間區段的方法。以預先訓練好的兩種英文發音聲學模型當作比對標準,爾後經由語音辨認技術,依不同的母語提供合適的聲學模型來切割出正確的發音區段。
      「英文語音評分」為評分系統的核心,使用的評分方式是比較標準語音和評分語音的相似度。另外採用四個特徵參數:音量強度曲線、基頻軌跡曲線、發聲急緩變化及HMM對數機率差異。而在評分方面,我們針對不同的特徵參數設計合適的圖樣比對及評分機制,期許建立一個合理的評分系統。


    This thesis investigates the methods for English speech evaluation, which requires the techniques from audio signal processing and speech recognition. In order to develop an appropriate and consistent English speech evaluative system, we design three steps for our English speech evaluation. The first one is “Utterance Verification”, the second one is “Forced Alignment”, and the final one is “English Speech Evaluation”.
    “Utterance Verification” can be seen as the firewalls for English speech evaluation system. The purpose of utterance verification is to determine if the test utterance is close enough to the target sentence. If the confidence measure is too low, we may reject the utterance directly since further similarity computation may not be meaningful.
    “Forced Alignment” is a method based on Viterbi decoding, which can obtained time duration of each phoneme from a given utterance. In this part, we use a large-vocabulary speaker-independent recognition engine and Viterbi algorithm to obtain the duration of each phoneme.
    “English Speech Evaluation” is the core of our evaluation system, which can compute the similarity between the reference and test utterances. We use magnitude contour, pitch contour, rhythm, and HMM log-likelihood as the features to generate a similarity score. The parametric scoring function is optimized by down-hill Simplex method to minimize the difference between the computed scores and those by human experts.

    第1章 緒論 1 1.1 研究主題 1 1.2 英文語音評分系統簡介 2 1.3 本論文研究方向和主要成果 3 1.4 前人相關研究 4 1.5 章節概要 5 第2章 說話驗證 6 2.1 驗證系統簡介 6 2.2 語音訊號切割 7 2.3 驗證機制建立 9 2.3.1 音素排名 9 2.3.2 驗證機制 10 2.4 說話驗證實驗結果 13 第3章 英文語音訊號切割 17 3.1 聲學模型訓練 17 3.1.1 語料取得 17 3.1.2 聲學模型設計 18 3.1.3 特徵參數擷取 21 3.1.4 隱藏式馬可夫模型 23 3.2 語音辨識及語音訊號切割 25 3.2.1 語音訊號切割流程 25 3.2.2 端點偵測 27 3.2.3 維特比演算法 29 3.3 英文語音訊號切割實驗結果 33 第4章 英文語音評分 36 4.1 評分系統簡介 36 4.2 特徵參數擷取 38 4.2.1 音量強度曲線 38 4.2.2 基頻軌跡曲線 39 4.2.3 發聲急緩變化 41 4.2.4 HMM對數機率差異 42 4.3 特徵參數正規化 43 4.3.1 內插法 43 4.3.2線性縮放 43 4.3.3線性平移 44 4.4 圖樣比對方法設計 46 4.4.1 音量強度曲線比對方法 46 4.4.2 基頻軌跡曲線比對方法 47 4.4.3 發聲急緩變化比對方法 47 4.4.4 HMM對數機率差異比對方法 48 4.5 評分機制建立 52 4.5.1 評分機制 - 特徵 52 4.5.2 評分機制 - 音素 52 4.5.3 評分機制 - 單字 53 4.5.4 評分機制 - 句子 53 4.6 英文語音評分實驗結果 54 第5章 結論與展望 56 參考文獻 58

    【1】鐘林,“漢語語音辨別說話驗證”,北京清華大學碩士論文,民國91年

    【2】楊永泰,“隱藏式馬可夫模型應用於中文語音辨識之研究”,中原大學碩士論文,民國89年

    【3】陳柏琳,“中文語音資訊檢索-以音節為基礎之索引特徵、統計式檢索模型及進一步技術”,台灣大學博士論文,民國90年

    【4】呂道誠,“不特定語者、國台雙語大詞彙語音辨識之聲學模型研究”,長庚大學碩士論文,民國90年

    【5】G.S. Ying, L.H. Jamieson and C.D. Michell, A probabilistic approach to AMDF pitch detection, Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on Volume: 2 , 1996 , Page(s): 1201-1204 vol.2

    【6】Steve Young, The HTK Book version 3, Microsoft Corporation, 2000

    【7】Lawrence Rabiner, B.H Juang, Fundamentals of speech recognition, Prentice Hall, 1993

    【8】J.D., J.G., J.H. and L.H., Discrete-Time Processing of Speech Signals, Prentice Hall, 1993

    【9】Giuliano Monti, Mark Sandler, Mnophonic transcription with autocorrelation, Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-00), Verona, Italy, December 7-9, 2000

    【10】L. Neumeyer, H. Franco, V. Digalakis and M. Weintraub, Automatic scoring of pronunciation quality, 1999

    【11】H. Franco, L. Neumeyer, Y. Kim and O. Ronen, Automatic pronunciation scoring for language instruction, Proc. Int. Congress on Acoustics, Speech and Signal Processing(ICASSP), 1997

    【12】J.-S. Roger. Jang, C.-T. Sun, and E. Mizutani, Neuro-Fuzzy and Soft Computing, Prentice Hall, 1996

    【13】高名揚,“以聲音內容為主的音樂資料庫檢索系統的加速方法”,清華大學碩士論文,民國90年

    【14】J. T. Tou and R. C. Gonzalez, Pattern Recognition Principles, Addison-Wesley Publishing Company, 1974

    【15】李俊毅,“語音評分”,清華大學碩士論文,民國91年

    【16】Gies Bouwman and Lou Boves, Utterance Verification based on the Likelihood Distance to Alternative Paths, Department of Speech, University of Nijmegen, The Netherlands, 2002

    【17】Rafid A. Sukkar and Chin-Hui Lee, Vocabulary Independent Discriminative Utterance Verification for Nonkeyword Rejection in Subword based Speech Recognition, IEEE Transactions on Speech and Audio Processing, VOL. 4, No. 6, November 1996

    【18】Leonardo Neumeyer, Horacio Franco, Mitchel Weintraub, and Patti Price, Automatic Text-Independent Pronunciation Scoring of Foreign Language Student Speech, 1996

    【19】C. Cucchiarini, H. Strik and L. Boves, Automatic Evaluation of Dutch Pronunciation by Using Speech Recognition Technology, Department of Speech, University of Nijmegen, The Netherlands, 1997

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE