簡易檢索 / 詳目顯示

研究生: 陳奕宏
Yi-Hung Edward Chen
論文名稱: 32位元處理器之定點數MFCC演算法的改進與探討
Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors
指導教授: 張智星
Jyh-Shing Roger Jang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2006
畢業學年度: 94
語文別: 中文
論文頁數: 38
中文關鍵詞: 梅爾倒頻譜離散餘弦轉換快速傅立葉轉換對數表開方根表調整參數
外文關鍵詞: MFCC, DCT, FFT, Log table, Square Root Table, Scale Up/Down Parameter
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 由於科技的蓬勃發展下,使得人類使用手持裝置的比例有逐年往上昇高的趨勢,像是最近很風行的蘋果電腦推出之 IPOD mp3 隨聲聽,HTC 在Microsoft大力加持下,大賣的Smart Phone手機,以及擁有更高頻寬及影音享受的3G手機的問世,再再都顯示出手持嵌入式系統將會是近幾十年來最當紅的炸子機,除了硬體的日趨縮小外,軟體在其上的運用的需求也大量的增加許多,像是及時影像傳輸,GPS導航等等軟體應用也紛紛出籠,而語音辨識的功能也是這諸多軟體方面應用之一,試著想像對著你的手持mp3裝置,用說的來找尋你所要聽的歌曲或是對著你的手機說 “最近的電影院” ,然後你的手持裝置就會播放你所要聽的歌曲或是顯示出距離你最近之電影院的地圖並告知你該如走哪條路到那邊。很不幸的這些美妙的應用目前還不能實現,最大的因素還是在於手持嵌入式系統的運算能力過於薄弱無法再有效的時間內完成所需的語音辨識應用。
    最近手持裝置產品在市場的推陳出新及各家廠商競爭之下,慢慢的配備了較佳運算能力的中央處理器以及較大的儲存空間,以提供消費者更多的應用上的需求。雖然在配備上有所提升,但是所有的機器還是沒有搭載浮點運算器,導致我們必須要採取整數型態的資料來替代語音辨識中慣用的浮點資料型態。本論文將會嘗試著建立一個自動化的系統,讓從擷取聲音的特徵到建立整個整數型態的聲學模型及最後的ASR(語音辨識系統),均可以依據不同的語料,提供較正確合理的轉換參數,讓整個ASR系統能在嵌入式手持裝置上運作得宜。


    In this thesis, we investigate the possibility of porting the computation of floating-point MFCCs to fixed-point ones. In particular, we focus on the platform of 32-bit fixed-point processors. We have closely checked the scaling factors during each stage of the computation of MFCC by using a data-driven approach. These scaling factors are carefully chosen such that the highest precision is achieved with low probabilities of overflow. Moreover, we have proposed a binary-search-based table lookup such that the required table size is reduced. In summary, the proposed methodology can greatly reduce the memory requirement without degrading recognition rates.

    第一章 緒論 1 1.1 研究動機 1 1.2 相關研究簡介 1 1.3 改進方法簡介 2 1.4 系統簡介 2 1.5 系統應用 4 1.6 章節概要 5 第二章 基礎理論與技術 6 2.1 語音辨識概論 6 2.1.1 動態時間扭曲法 ( DTW, Dynamic Time Warping ) 6 2.2.2隱藏式馬可夫模型 (HMM, Hidden Markov Model) 6 2.2 語音特徵參數擷取 7 2.2.1 音框化 (Frame Blocking) 9 2.2.2 計算能量 (Energy) 9 2.2.3 預強調 (Pre-Emphasis) 9 2.2.4 漢明窗 (Hamming Window) 9 2.2.5 快速傅立葉轉換 (FFT, Fast Fourier Transform) 10 2.2.6 三角帶通濾波器 (Triangular band-pass filter) 11 2.2.7 離散餘弦轉換 (DCT, Discrete Cosine Transformatiion) 11 2.2.8 差量倒頻譜參數 (Delta Cepstrum Coefficients) 11 2.3 聲學模型訓練 12 2.4 語音訊號與聲學模型之比對 13 第三章 改進方法 14 3.1 計算能量 (Energy) 15 3.2 預強調 (Pre-Emphasis) 17 3.3 漢明窗 (Hamming Window) 17 3.4 快速傅立葉轉換 (FFT) 19 3.5 三角帶通濾波器 22 3.6 離散餘弦轉換 24 3.7 計算能量對數 25 3.8 開平方根表格建立 27 第四章 實驗數據與分析 28 4.1 精準度 28 4.1.1 Cos and Sin Table 之誤差比較: 28 4.1.2 Logarithm and Square Root Table 之誤差比較 29 4.1.3 MFCC各個步驟誤差的比較 29 4.1.4 辨識率比較 33 4.1.5 執行時間比較 34 4.2 錯誤分析 35 第五章 未來研究方向 36 參考文獻 37 圖表目錄 圖 1 1 語料與參數轉換關係圖 3 圖 1 2 不同語料之轉換參數設定抽取特徵及HTK 訓練語料圖 3 圖 1 3 根據不同語料辨識結果圖 4 圖 2 1 語音頻率與人類感知頻率關係圖 8 圖 2 2 MFCC 語音特徵擷取流程圖 8 圖 2 3 原始訊號與乘上HAMMING WINDOW過後的訊號比較 10 圖 2 4 狀態轉移示意圖 12 圖 2 5 VITERBI 計算流程圖 13 圖 3 1 TCC300語料於計算能量與調整參數值資料溢位的機率 16 圖 3 2 TIMIT語料於計算能量與調整參數值資料溢位的機率 16 圖 3 3 不同倍率放大之整數漢明窗值的分佈圖 18 圖 3 4 放大倍率21與214的圖形 18 圖 3 5 DCT ALGORITHM IN MFCC PROCEDURE 19 圖 3 6 WEIGHT CEPSTRUM ALGORITHM IN MFCC PROCEDURE 20 圖 3 7 SUB-ROUTINE OF FFT AND FFT FUNCTION PARTS OF ALGORITHM IN MFCC PROCEDURE 20 圖 3 8 SIN TABLE 結構圖 22 圖 3 9 TIMIT語料中 與不同倍率FILTER TABLE 產生溢位之機率圖 23 圖 3 10 TCC300語料中 與不同倍率FILTER TABLE 產生溢位之機率圖 24 圖 3 11 X軸與Y軸的相對應關係 26 圖 3 12 整數 TABLE X軸與Y軸的相對應關係 26 圖 3 13 整數 TABLE X軸與Y軸的相對應關係 27 圖 4 1 AVERAGE RELATIVE ERROR COMPARISON OF TCC300 CORPUS 32 圖 4 2 AVERAGE RELATIVE ERROR COMPARISON OF TIMIT CORPUS 33 圖 4 3 [2][3]與我們的方法所需時間比較 35 表格目錄 表格 3 1 唐詩語料資訊 14 表格 3 2 TCC300及TIMIT的語料資訊 14 表格 3 3 INPUT VALUE FOR CALCULATING SIN IN FFT SUB-ROUTINE 21 表格 3 4 INPUT VALUE FOR CALCULATING SIN IN FFT FUNCTION 21 表格 3 5 [2][3]與我們的建表方式比較 27 表格 4 1 COS TABLE的誤差 28 表格 4 2 SIN TABLE的誤差 29 表格 4 3 COS與SIN TABLE佔記憶體大小比較 29 表格 4 4 LOGARITHM TABLE的誤差 29 表格 4 5 SQUARE ROOT TABLE的誤差 29 表格 4 6 [2][3]的方法針對TCC300語料所產生的誤差 30 表格 4 7我們的方法針對TCC300語料所產生的誤差 30 表格 4 8 [2][3]的方法針對TIMIT語料所產生的誤差 31 表格 4 9我們的方法針對TIMIT語料所產生的誤差 31 表格 4 10 TANG POEM資訊 33 表格 4 11 TCC300辨識率比較 34 表格 4 12 TIMIT辨識率比較 34 表格 4 13 [2][3]及我們的方法所需計算時間的比較 34

    [1] Shiuan-Sung Lin, Jyh-Shing Roger Jang, “Optimization of Viterbi Beam Search in Speech Recognition and Multilingual Speech Recognition”, NTHU Master Thesis, July 2002
    [2] Po-Chien Hsueh, Jyh-Shing Roger Jang, “Embedded Speech Recognition”, NTHU Master Thesis, July 2004
    [3] Chin-Lung Hart Su, Jyh-Shing Roger Jang “Speech Recognition on 32-bit Fixed-point Processors: Implementation & Discussions”, NTHU Master Thesis, July 2005
    [4] Jia-Ching Wang, Jhing-Fa Wang, Yu-Sheng Weng, “Chipdesign of MFCC Extraction for Speech Recognition”, INTEGRATION, the VLSI journal 32 (2002) 111–131
    [5] Soontorn Oraintara, Ying-Jui Chen, Trunong Q. Nguyen, “Integer Fast Fourier Transformation”, IEEE Transactions on Signal Processing, Vol. 50, NO.3, March 2002
    [6] Laura Miyakawa and Lee Hetherington, “A Quantized Fixed-Point Front-End for Distributed Speech Recognition”, MIT Laboratory for Computer Science Research Abstracts, Mar. 2003
    [7] Juhani Saastamoninen, Evgeny Karpov, Ville Hautamaki, Pasi Franti, “Automatic Speaker Recognition for Series 60 Mobile Devices”, University of Joensuu, Dept, of Computer Science, 3rd August 2004
    [8] Bojana Gajic, Kuldip K. Paliwal “Robust Parameters for Speech Recognition Based on Subband Spectral Centroid Histograms”, Eurospeech 2001
    [9] Hidden Markov Model Toolkit V3.2 Speech Vision and Robotics Group of the Cambridge University Engineering Department, 2002.(http://htk.eng.cam.ac.uk/)
    [10] Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon, “Spoken Language Processing”, Prentice Hall PTR, 2001
    [11] Jyh-Shing Roger Jang, 線上中文教材:音訊處理與辨識
    Url:http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE