簡易檢索 / 詳目顯示

研究生: 鄧愷
Deng, Kai
論文名稱: 用於單音人聲和複音音樂的抖音偵測
Vibrato Detection for Monophonic Vocals And Polyphonic Music
指導教授: 張智星
張俊盛
口試委員: 陳煥宗
徐嘉連
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊工程學系
Computer Science
論文出版年: 2013
畢業學年度: 101
語文別: 中文
論文頁數: 43
中文關鍵詞: 抖音偵測隱藏式馬可夫模型正弦擬合低階描述子曲線下面積
相關次數: 點閱:4下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 抖音是指音高上出現規律性的波動變化,是一種音樂效果,它包括音高變化的數量和音高變化的速度,在民歌和歌劇等音樂形式當中頻繁出現。本論文需要探尋可行的特徵參數擷取,實驗各種可行的分類方法,期許建立一套合理的抖音偵測方法。
    論文主體包括「單音人聲的抖音辨識」和「複音音樂的抖音辨識」,兩種情況下的辨識方法,各不相同,需要分別找尋合適的特徵擷取和分類方法,期望達到較高的辨識效果。
    首先在「單音人聲的抖音辨識」中,根據定義,對音高和音量提取特徵。獲取正弦擬合所得到的振幅、頻率及擬合誤差作為特徵參數。並通過特徵選取等相關實驗,從以上的特徵中選取合適的特徵。並比較靜態分類器和隱藏式馬可夫模型(HMM)的辨識率以及曲線下面積(area under curve, AUC)的高低,尋找合適的分類方法。
    而在對「複音音樂的抖音辨識」的實驗中,複音音樂下音高追踪的結果無法做到準確,需要找尋新的特徵擷取方法。這裡就用到低階描述子(low level descriptor, LLD)及差量回歸係數(delta regression coefficients)。並且從中獲取包括關於臨界(extremes)、慣量(moments)、離散餘弦變換、離散傅立葉變換等的特徵。通過實驗挑選合適的特徵與分類方法。


    Vibrato is a musical effect consisting of a regular, pulsating change of pitch. It includes the extent of vibrato and the rate of vibrato. Vibrato always appears in folk and opera. This thesis is to explore the feasible method for feature extraction, and experiment some kinds of classifier, then build an reliable solution of vibrato detection.
    The research thesis includes "vibrato detection for monophonic vocals" and "vibrato detection for polyphonic music". Hoped to get the better recognition rate, we try the different case of feature extraction and classifier in the two cases.
    At first in "vibrato detection for monophonic vocals", we do feature selection with pitch and volume. By sine fit, get the amplitude, frequency and error of the pulsating change. Do experiments such as feature selection and so on, then get the better feature. Get the recognition rates and area under curve (AUC) of static classifier, compare the result with hidden Markov model (HMM), try to get the appropriate classifier.
    Then in "vibrato detection for polyphonic music", pitch tracking cannot be accurate. It needs to found new method for feature extraction. Low level descriptor (LLD) and delta regression coefficients is used to extract some feature about extreme, moments, Discrete Cosine Transform, Discrete Fournier Transform and so on. Do some experiment to select appropriate features and find the appropriate classifier.

    第1章 緒論 1 1.1 研究主題 1 1.2 抖音辨識簡介 2 1.3本論文研究方向和主要成果 2 1.4 章節概要 2 第2章 相關工作 4 2.1 抖音簡介 4 2.2 複音音樂的特徵擷取 5 2.2.1 低階描述子 5 2.2.2差量迴歸係數 5 2.2.3 對LLD的特徵擷取 6 2.3 連續隱式馬爾可夫模型 7 2.4 帶通濾波器 8 2.5 曲線下面積 9 第3章 抖音偵測方法 12 3.1 抖音偵測系統 12 3.2 前處理 13 3.3單音人聲音樂特徵參數擷取 14 3.3.1 分析音高規律波動 14 3.3.2 分析音量的波動 15 3.3.3 從音高和音量的正弦擬合擷取特徵 16 3.4 複音音樂下LLD的特徵擷取方法 17 3.5 實驗方法 18 第4章 抖音辨識實驗 21 4.1 單音人聲抖音辨識實驗 21 4.1.1 實驗資料 21 4.1.2 線性識別分析 21 4.1.3 特徵選取 22 4.1.4 靜態分類器實驗 24 4.1.5 HMM分類實驗 26 4.1.6 比較HMM和SVM的辨識結果 28 4.1.7 錯誤分析 30 4.2 複音音樂的抖音辨識實驗 31 4.2.1 實驗資料 31 4.2.2 前處理 31 4.2.3 PCA+LDA實驗 32 4.2.4 特徵選取 35 4.2.5 靜態分類器實驗 36 4.2.6 HMM分類實驗 38 4.2.7 錯誤分析 38 第5章 結論與展望 41 參考文獻 42

    【1】 Felix Weninger, Noam Amir, Ofer Amir, Irit Ronen, Florian Eyben, and Bjorn Schuller, Robust feature extraction for automatic recognition of vibrato singing in recorded polyphonic music, ICASSP , 2012.
    【2】 S. J. Young, G. Evermann, M. J. F. Gales, D. Kershaw, G. Moore, J. J. Odell, D. G. Ollason, D. Povey, V. Valtchev, and P. C. Woodland, The HTK book version 3.4, Cambridge University Engineering Department, Cambridge, UK, 2006.
    【3】 Sundberg, Johan, Acoustic and psychoacoustic aspects of vocal vibrato, 2010.
    【4】 D. J. Hermes, Measurement of pitch by subharmonic summation, Journal of the Acoustical Society of America, vol. 83, no. 1, pp. 257–264, 1988.
    【5】 Fredrick Jelinek, Design of a Linguistic Statistical Decoder for the Recognition of Continuous Speech, IEEE Transactions on Information Theory, VOL. IT-21, NO. 3, May 1975.
    【6】 Jyh-Shing Roger Jang, Data Clustering and Pattern Recognition (資料群聚與樣式辨認) 9-3 Continuous HMM.
    【7】 Ren Gang, Justin Lundberg, Gregory Bocko, Dave Headlam, and Mark F. Bocko, What makes music musical? A framework for extracting performance expression and emotion in musical sound, DSP/SPE, 2011.
    【8】 Bradley, A.P. The Use of the Area Under the ROC Curve in the Evaluation of Machine Learning Algorithms. Pattern Recognition, 30. 1145-1159, 1997.
    【9】 Swets, John A.Signal detection theory and ROC analysis in psychology and diagnostics: collected papers Lawrence Erlbaum Associates, Mahwah, NJ, 1996.
    【10】 Chao-Ling Hsu, DeLiang Wang, and Jyh-Shing Roger Jang, A trend estimation algorithm for singing pitch detection in musical recordings, ICASSP, 2011.
    【11】 Belle A. Shenoi, Introduction to digital signal processing and filter design, John Wiley and Sons. p. 120. 2006.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)
    全文公開日期 本全文未授權公開 (國家圖書館:臺灣博碩士論文系統)
    QR CODE