簡易檢索 / 詳目顯示

研究生: 黃俊仁
Huang, Chun-Jen
論文名稱: 嵌入式語音辨識之改良
On the Improvement of Embedded Speech Recognition
指導教授: 張智星
Jang, Jyh-Shing Roger
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2009
畢業學年度: 97
語文別: 中文
論文頁數: 39
中文關鍵詞: 嵌入式語音辨識
相關次數: 點閱:1下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 隨著科技飛快進步,近年來行動運算技術日漸普及,愈來愈多的行動裝置如智慧型手機、PDA、或是GPS衛星導航等產品,早已內建語音辨識或語音指令等相關功能,無非是希望能有更為便利的人機溝通介面。但語音辨識應用在嵌入式系統上時,常常會遇到因為嵌入式系統缺乏浮點運算單位、只用定點數或整數運算的緣故,導致精準度、辨識率不如一般家用PC。
    本論文將就這項議題進行討論、改良、與優化:我們希冀最後做出來的嵌入式整數版語音辨識系統,其精準度與辨識率可以更加逼近浮點數版語音辨識系統;其中本論文最著重的部份在於特徵擷取MFCC,透過運算改寫運算過程、查表、與找出最佳放大係數與升降流程,希望能讓定點數版MFCC的數值與浮點數版MFCC更為相近,以達到精準度與辨識率的提昇。


    摘要 i Abstract ii 致謝 iii 目錄 iv 圖表目錄 vii 表格目錄 viii 第一章 緒論 1 1.1研究動機 1 1.2研究方向 1 1.3章節概述 2 第二章 基礎理論與技術 3 2.1語音辨識流程概述 3 2.2 MFCC 4 2.2.1 音框化(Frame Blocking) 4 2.2.2 預強調(Pre-Emphasis) 5 2.2.3 漢明窗(Hamming Window) 5 2.2.4 快速傅立葉轉換(FFT, Fast Fourier Transform) 6 2.2.4.1 離散傅立葉轉換(DFT, Discrete Fourier Transform) 6 2.2.4.2 快速傅立葉轉換(FFT, Fast Fourier Transform) 6 2.2.4.3 HTK FFT 6 2.2.5 三角帶通濾波器(TBF, Triangular Band-Pass Filter) 8 2.2.6 離散餘弦轉換(DCT, Discrete Cosine Transform) 9 2.2.7 權重倒頻譜(Weighted Cepstrum) 9 2.2.8 對數能量(Log Energy) 9 2.2.9 差量倒頻譜參數 (Delta Cepstrum Coefficients) 10 第三章 改進方法 11 3.1 修改運算過程 11 3.1.1方法概述 11 3.1.2 實際應用-預強調 11 3.2 查表法 12 3.2.1 方法概述 12 3.2.2 實際應用-FFT 13 3.3 找出最佳放大係數(Scale Factor)與升降流程 13 3.3.1 方法概述 13 3.3.2 實際應用-MFCC 14 第四章 實驗結果與分析 15 4.1預強調修改運算精準度之比較 15 4.1.1實驗說明 15 4.1.2 實驗設定 15 4.1.3 實驗結果與分析 16 4.2 FFT查表法精準度之比較 18 4.2.1實驗說明 18 4.2.2 實驗設定 18 4.2.3 實驗結果與分析 19 4.3找出MFCC最佳放大係數之測試 20 4.3.1預強調與漢明窗 20 4.3.1.1 實驗說明 20 4.3.1.2 實驗設定 20 4.3.1.3 實驗結果 21 4.3.2 快速傅立葉轉換 22 4.3.1.1實驗說明 22 4.3.1.2實驗設定 23 4.3.1.3實驗結果與分析 23 4.3.2三角帶通濾波器 25 4.3.2.1實驗說明 25 4.3.2.2 實驗設定 26 4.3.2.3 實驗結果與分析 26 4.3.3離散餘弦轉換 28 4.3.3.1實驗說明 28 4.3.3.2 實驗設定 28 4.3.3.3 實驗結果與分析 29 4.3.4 權重倒頻譜 31 4.3.4.1 實驗說明 31 4.3.4.2 實驗設定 31 4.3.4.3 實驗結果與分析 32 4.4 整體辨識率測試 33 4.4.1實驗說明 33 4.4.2實驗設定 33 4.4.3 實驗結果與分析 34 4.5 錯誤分析 35 第五章 結論與未來工作 37 5.1結論 37 5.2未來工作 37 參考文獻 39 附錄A:Hidden Markov Model A 附錄B:Viterbi演算法 B 附錄C:從DFT推導至Radix-2 FFT C

    [1] A Calculated Look At Fixed-Point Arithmetic, Robert Gordon
    [2] A Low-Power, Fixed-Point, Front-End Feature Extraction For A Distributed Speech Recognition System, Brian Delaney , Nikil Jayant, Mat Hans, Tajana Simunic, Andrea Acquaviva
    [3] Fixed-Point Arithmetic, Enrico Bocchieri
    [4] Fixed-Point Implementations Of Speech Recognition Systems, Yuet-Ming Lam, Man-Wai Mak, Philip Heng-Wai Leong
    [5] Implementation Of Speech Recognition Algorithm For A 32-Bit CPU- Based Portable Device, Suhong Ryu, Younim Lee, Wonyong Sung
    [6] Implementing A High Accuracy Speaker-Independent Continuous Speech Recognizer On A Fixed-Point DSP, Yfan Gong, Yu-Hung Kao
    [7] Autoscaler For C: An Optimizing Floating-Point To Integer C Program Converter For Fixed-Point Digital Signal Processors, Ki-Il Kum, Jiyang Kang, Wonyong Sung
    [8] Embedded Speech Recognition, Po-Chien Hsueh, Jyh-Shing Roger Jang
    [9] Speech Recognition On 32-Bit Fixed-Point Processors:Implementation & Discussions, Chin-Lung Hart Su , Jyh-Shing Roger Jang
    [10] Improvement And Discussion Of Mfcc Algorithm On 32-Bit Fixed-Point Processors, Yi-Hung Chen, Jyh-Shing Roger Jang
    [11] Implementation And Improvement Of Integer-Type Fft For Speech Recognition, Yu-Chang Chou, Jyh-Shing Roger Jang
    [12] HTK: Hidden markov model Tool Kit, http://htk.eng.cam.ac.uk/
    [13] Audio Speech Recognition On-line Tutorial , Roger Jang
    http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE