簡易檢索 / 詳目顯示

研究生: 蘇峻慶
Chun-Ching Su
論文名稱: 錄音資料中語者切割與分群方法之研究
Speaker Segmentation and Clustering in Sound-Recording Data
指導教授: 王小川
Prof. Hsiao-Chuan Wang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 電機工程學系
Department of Electrical Engineering
論文出版年: 2005
畢業學年度: 93
語文別: 中文
論文頁數: 52
中文關鍵詞: 語音切割語音分群語者轉換點偵測
外文關鍵詞: Speaker Segmentation, Speaker Clustering, Speaker Change Detection
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 在本論文中,主要在探討錄音資料中之語者切割與分群,因為在很多場合中所錄製的語音信號,其內容都是包含一個人以上的。因此如何在一段語音信號中,把不同說話者所發出的語音信號分割出來,並將同一說話者所說的音段分在一起,是本論文的主要目的。
      在語者切割方面,本論文所使用之方法有三個步驟,第一步是利用貝氏資訊準約略找出語者轉換點大概的位置,第二步再利用交叉偵測法作精確化,第三步再確認是否為轉換點。在實驗上顯示廣義概似比偵測法偵測轉換點花費的時間少但偵測效能比較差,而貝氏資訊準則偵測法是偵測效能好但偵測轉換點花費的時間相當長,本方法花費的時間雖比廣義概似比偵測法稍長,但比貝氏資訊準則偵測法卻短很多,且偵測效能為三者之冠,可以說是同時擁有廣義概似比偵測法運算量少的優點及貝氏資訊準則偵測法高準確率的優點。在語者分群方面,群集之語者模型採用高斯混合模型,音段與每個群集模型作分群之最大概似法估測,找出最靠近之群集,然後再利用一門檻值判斷要合併或分新群。實驗結果顯示增加高斯混合數對分群的結果是有幫助的,而高斯混合數在等於16時,其結果已達最好,再增加混合數分群效能也不再上升。而另一實驗結果也顯示要分群的音段群中包含語者數愈多,其整體分群效能愈低。


    目錄 第一章 緒論.............................................1 1.1 研究動機........................................1 1.2 語者切割簡介....................................2 1.3 語者分群簡介....................................4 1.4 章節概要........................................5 第二章 語者切割.........................................6 2.1 語音特徵參數抽取................................6 2.1-1 預強調......................................7 2.1-2 音框化處理..................................7 2.1-3 加窗處理....................................8 2.1-4 參數抽取....................................8 2.1-5 差量倒頻譜參數.............................10 2.2 語者轉換點偵測.................................11 2.2-1 貝氏資訊準則...............................11 2.2-2 貝氏偵測法.................................12 2.2-3 貝氏偵測法之改良...........................15 2.2-4 廣義概似比.................................17 2.3 本論文使用之方法...............................20 第三章 語者分群........................................29 3.1 高斯混合模型...................................29 3.1-1 模型描述...................................29 3.1-2 模型訓練...................................31 3.2 最大概似法.....................................33 3.3 語者分群系統...................................35 第四章 實驗結果及討論..................................38 4.1 語者切割實驗...................................38 4.1-1 實驗語料...................................38 4.1-2 評估方式...................................38 4.1-3 貝氏資訊準則應用到以距離為基礎之順序偵測法與交 叉偵測法所偵測到之語者轉換點落點比較.......39 4.1-4 判斷式之影響...............................41 4.1-5 與貝氏偵測法、廣義概似比法之比較...........42 4.1-6 不同等徵維度之影響.........................43 4.1-7 不同取樣頻率之影響.........................44 4.2 語者分群實驗...................................45 4.2-1 實驗語料...................................45 4.2-2 評估方式...................................45 4.2-3 高斯混合數對分群之影響.....................47 4.2-4 各檔案分群實驗結果.........................47 第五章 結論............................................49 參考文獻.................................................51 圖目錄 圖2.1 特徵參數抽取之流程圖...............................6 圖2.2 抽取倒頻譜係數之流程圖............................10 圖2.3 抽取梅爾刻度式倒頻譜係數之流程圖..................10 圖2.4 長度為N並包含一語者轉換點的語音段.................12 圖2.5 偵測多重語者轉換點之流程圖........................14 圖2.6 廣義概似比偵測法之流程圖..........................18 圖2.7 廣義概似比偵測法找尋語者轉換點之圖例..............19 圖2.8 偵測單一語者轉換點之架構流程圖....................20 圖2.9 計算方式由不同點改為固定長度之示意圖..............21 圖2.10 貝氏資訊準則應用在以距離為基礎的順序偵測法示意圖.23 圖2.11 貝氏資訊準則應用在以距離為基礎的順序偵測法求出之 ΔBIC曲線.........................................23 圖2.12 尋找語者二的樣式.................................25 圖2.13 交叉偵測法尋找語者轉換點.........................25 圖2.14 作確認之區域圖例.................................26 圖2.15 錯誤偵測到語者轉點之範例.........................27 圖2.16 偵測多重語者轉換點之示意圖.......................28 圖3.1 高斯混合模型示意圖................................30 圖3.2 語者分群之系統架構圖..............................36 圖3.3 合併與分新群之錯誤機率曲線........................37 圖4.1 貝氏資訊準則應用在以距離為基礎的順序偵測法所偵測出的 語者轉換點落點分佈之直方圖........................39 圖4.2 貝氏資訊準則應用在以距離為基礎的順序偵測法與交叉偵測 法所偵測出的語者轉換點落點分佈之直方圖............40 圖4.3 高斯混合數對分群之影響............................47 表目錄 表4.1 有無判斷式對切割效能的影響........................41 表4.2 與貝氏偵測法、廣義概似比法所需時間、假警報數、遺失偵 測數與F-估測之比較................................42 表4.3 不同的特徵維度對偵測效能之影響....................43 表4.4 不同取樣頻率對偵測效能之影響......................44 表4.5 三個檔案的音段數及語者數一覽表....................45 表4.6 各檔案分群實驗結果................................48

    參考文獻

    [1] S. Chen and P. Gopalakrishnan, “Speaker, environment and channel change detection and clustering via the Bayesian information criterion “, in DARPA speech recognition workshop, 1998

    [2] 詹順凱,”在多語者環境下之語者分割與語言辨認研究”, 電機工程研究所,國立清華大學,中華民國九十一年六月。

    [3] Moh, Y., Nguyen, P., and Junqua, J.-C.,”Towards domain independent Speaker clustering”, Proc. ICASSP2003.

    [4] John R. Deller, Jr., John G. Proakis, John H.L. Hansen, “Discrete-Time Processing of Speech Signals”, 1987.

    [5] G. Schwarz,” Estimating the dimension of a model”, The Annals of Statistics, vol. 6, pp461-464, 1978.

    [6] M. Cettolo and M. Federico,”Model Selection criteria for acoustic Segmentation,” Proc. of ISCA ITRW ASR, Paris France,2000.

    [7] H.Gish, M.-H Siu, R. Rohlicek,”Segregation of speakers for speech Recognition and speaker identification “, IEEE Signal Processing Magazine, pp 18-32,Oct. 1991

    [8] J.F. Bonastre, P. Delacourt, C. Fredouille,” A Speaker Tracking System Based On Speaker Turn Detection For NIST Evaluation”, ICASSP2000.

    [9] Lie Lu, Hong-Jiang Zhang, and Hao Jiang, ”Content Analysis for Audio Classification and segmentation”,IEEE transactions on speech and audio processing, Vol.10 No.7 pp.504-516,2002.

    [10] S. S. Cheng and H. M. Wang,”A sequential metric-based audio Segmentation method via the Bayesian Information Criterion,” Proceedings of Eurospeech 2003.

    [11] A. Adami, S. Kajarekar and H. Hermansky,”A new speaker change detection method for two-speaker segmentation”,ICASSP2002.

    [12] H. Gish, N. Schmidt, R. Schwartz, “Text-independent speaker identification”, IEEE Signal Processing Magazine, pp18-21, Oct.1994

    [13] D. Reynolds and R. Rose, “Robust test-independent speaker identify -cation using Gaussian Mixture Speaker Models,”IEEE Transactions on Speecn and Audio Processing, Vol.3,No.1, 1995.

    [14] Y. Linde, A. Buzo, R.M. Gray,”An Algorithm for the Vector Quantiz -er Design”,IEEE Transaction on Communication, Vol.28, no.4, pp. 84-59, Jan. 1980

    [15] J. Ajmera, I. McCowan, and H. Bourlard,”Robust Speaker Change Detection”, IEEE Signal Processing Letters, pp. 649-651, Vol. 11, No. 8,August.2004

    [16] I. Lapidot “SOM as Likelihood Estimator for Speaker Clustering”, Eurospeech 2003.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE