簡易檢索 / 詳目顯示

研究生: 林依祈
Yi-Chi Lin
論文名稱: 改良非排序特徵選取過濾法於TFT-LCD Array製程檢測之應用
An Improved Non-ranker Filter Feature Selection Method for TFT-LCD Array Process Inspection
指導教授: 蘇朝墩
Chao-Ton Su
口試委員:
學位類別: 碩士
Master
系所名稱: 工學院 - 工業工程與工程管理學系
Department of Industrial Engineering and Engineering Management
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 88
中文關鍵詞: 資料探勘特徵選取分類技術薄膜電晶體液晶顯示器
外文關鍵詞: data mining, feature selection, classification, Thin-Film Transistor Liquid-Crystal Display (TFT-LCD)
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 特徵選取在處理資料維度縮減中是一項很有效的技術,在進行資料探勘過程中,可藉由執行特徵選取辨識出資料集中之相關屬性並剔除無相關或是重複的屬性,以提升分類績效並縮短訓練時間。特徵選取之演算法可分為三個技術,包裝法是利用本身的分類演算法去評估屬性的可用性,嵌入法選取特徵是建立在分類器結構上,而過濾法則僅評估資料本身的特性而不考慮分類器。為了能有效率地運用在高維資料中,相較於另外兩個技術,過濾法在計算上是較快速的,然而過濾法的分類績效卻無法達到另外兩個技術的水準。
    在本研究中建立一個結合器架構,企圖將不同演算法下之特徵選取子集合結合為單一最終子集合,並且提出一個新的結合器方法用以提升目前已存在之過濾法分類績效。利用UCI資料庫中的資料進行實驗,實驗結果說明新的結合器方法在k個最鄰近分類演算法能顯著地提升分類績效,尤其是在定性資料集中。在實務應用上,以台灣某TFT-LCD製造廠Array製程檢測資料為研究對象,所提出之特徵選取法能有效地減少測試項目,並且在分類績效上獲得改善。


    Feature selection is an effective technique in dealing with dimensionality reduction. Identifying relevant feature in the dataset and discarding everything else as irrelevant and redundant can improve the performance of classifier. Algorithm for feature selection fall into three broad techniques: wrappers use the learning algorithm itself to evaluate the usefulness of feature, embedded is built into the classifier construction, while filters assess the relevance of features by looking only at the intrinsic properties of the data. For application to large databases, filters technique have proven to be more practical than others because they are much faster. However, their performance is worse than others when the classifiers are combined.
    In this study we present a general framework for creating several feature subsets and then combine them into a single subset. A new combiner is proposed for selecting features to improve the performance of filter techniques that exist. Experiment results demonstracted that the new combiner approach gives the significicant improvement for k- nearest neighbor classifier, especially using on quantitative data. Finally, the proposed method was employed to analyze the TFT-LCD array process inspection. Implementation results showed that the test items have been significantly reduced and the performance has been improved.

    中文摘要 II 英文摘要 III 誌謝 IV 目錄 V 表目錄 VIII 圖目錄 X 第1章 緒論 1 1.1 研究背景與動機 1 1.2 研究目的 2 1.3 研究架構 3 第2章 相關研究 4 2.1 資料庫的知識發現與資料探勘 4 2.2 資料探勘中的分類技術 6 2.3 分類技術簡介 11 2.3.1 決策樹歸納法 11 2.3.2 貝氏分類法 13 2.3.3 基於案例的學習法 15 2.3.4 類神經網路 16 2.4 特徵選取 19 2.4.1搜尋策略 20 2.4.2 搜尋方向 21 2.4.3 衡量準則 23 2.5 特徵選取技術 25 2.5.1 過濾法 25 2.5.2 包裝法 26 2.5.3 嵌入法 27 2.6 非排序特徵選取過濾法之演算法 30 2.6.1 SetCover演算法 30 2.6.2 CFS演算法 32 2.6.3 FCBF演算法 34 第3章 研究方法 37 3.1 啟發式搜尋法 37 3.2 特徵選取過濾法評估準則及演算法 39 3.3 改良式結合法則 39 第4章 方法比較 44 4.1 使用之資料集 44 4.2 使用演算法及評估方法 45 4.3 屬性維度縮減結果 47 4.4 KNN分類績效探討 49 4.5 其他演算法分類績效探討 57 4.6 綜合比較分析 61 第5章 案例研究 65 5.1 案例描述 65 5.1.1 資料來源 66 5.1.2 資料說明 66 5.1.3 資料前處理 69 5.2 特徵選取執行及結果 71 5.2.1屬性維度縮減結果 71 5.2.2 kNN分類績效 73 5.2.3 Naïve Bayesian分類績效 75 5.2.4 C4.5分類績效 76 5.2.5 BPNN分類績效 78 5.2.6 各分類器比較 79 5.2.7 改善效益 83 第6章 結論 84 6.1 研究結論與貢獻 84 6.2 未來研究建議 85 參考文獻 86 表目錄 表2.1 混亂矩陣 10 表2.2 搜尋方法與策略之整理表 22 表2.3 特徵選取技術整理表 29 表4.1 資料集資料特性彙總表 44 表4.2 比較演算法摘要 45 表4.3 資料集屬性縮減結果彙整表 48 表4.4 kNN考慮單一特徵選取績效結果 50 表4.5 kNN考慮結合器下特徵選取績效結果 51 表4.6 針對各特徵選取方法於kNN準確率之ANOVA表 52 表4.7 針對定量資料集各特徵選取方法於kNN準確率之ANOVA表 53 表4.8 針對定性資料集各特徵選取方法於kNN準確率之ANOVA表 55 表4.9 定性資料於kNN準確率之Fisher LSD多重比較p值 55 表4.10 定性資料於kNN準確率之Fisher LSD多重平均數比較法結果 55 表4.11 kNN準確率與Kappa之迴歸關係 56 表4.12 kNN準確率與Kappa之迴歸ANOVA表 57 表4.13 各特徵選取下NB分類器平均績效 57 表4.14 各特徵選取下C4.5分類器平均績效 58 表4.15 各特徵選取下BPNN分類器平均績效 59 表4.16 各特徵選取方法對各分類器準確率結果ANOVA之p-value 59 表4.17 針對各特徵選取方法於對於分類器準確率之ANOVA表 62 表4.18 分類準確率之Fisher LSD多重比較p值 62 表4.19 分類準確率之Fisher LSD多重平均數比較法結果 63 表4.20 分類準確率與Kappa之迴歸關係 64 表4.21 分類準確率與Kappa之迴歸ANOVA表 64 表5.1 TEG檢測項目 67 表5.2 線缺點檢驗項目 68 表5.3 TFT-LCD產品分類標準 69 表5.4 完整模式檢測屬性 70 表5.5 案例於分類標籤中的比例 70 表5.6 單個特徵選取方法篩選結果 72 表5.7 kNN在各特徵選取子集合下的各項績效值 74 表5.8 Naïve Bayesian在各特徵選取子集合下的各項績效值 75 表5.9 C4.5在各特徵選取子集合下的各項績效值 77 表5.10 BPNN在各特徵選取子集合下的各項績效值 78 圖目錄 圖2.1多層前饋類神經網路 17 圖2.2 衡量準則方法 23 圖2.3 過濾法模式 26 圖2.4 包裝法模式 27 圖2.5 嵌入法模式 28 圖2.6 SetCover演算法 31 圖2.7 CFS執行流程 34 圖2.8 FCBF演算法 36 圖3.1 貪婪式斜坡攀登演算法 38 圖3.2 第一次精選搜尋演算法 38 圖3.3 屬性重要性概要圖 40 圖3.4 新結合器執行流程 42 圖3.5 考慮結合器下特徵選取執行流程圖 43 圖4.1 研究流程 47 圖4.2 kNN平均準確率主效果圖 52 圖4.3 kNN準確率標準差之主效果圖 53 圖4.4 定量資料kNN平均準確率主效果圖 54 圖4.5 定性資料kNN平均準確率主效果圖 56 圖4.6 平均準確率主效果圖 63 圖5.1 kNN各績效值之比較 74 圖5.2 Naïve Bayesian各績效值之比較 76 圖5.3 C4.5各績效值之比較 77 圖5.4 BPNN各績效值之比較 79 圖5.5 各分類器測試總準確率比較 80 圖5.6 各分類器信度比較 81 圖5.7 各分類器類別標籤A之F1值比較 81 圖5.8 各分類器類別標籤B之F1值比較 81 圖5.9 各分類器類別標籤C之F1值比較 82 圖5.10 案例決策樹結果 82

    [1]Liu, H., and H. Motoda (1998) “Feature Selection for Knowledge Discovery and Data Mining,”, Boston, Dprdrecht London: Kluwer Academic Publishers.
    [2]Fayyad, U., G. Piatetsky-Shapiro, and P. Smyth (1996) “From Data Mining to Knowledge Discovery: An Overview,” Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, pp.195-515.
    [3]Yu, L. and H. Liu (2003) “Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution,” Proc. of the 20th International Conference on Machine Learning (ICML-2003), Washington, DC USA, pp. 856-863.
    [4]Saeys, Y., I. Inza, and P. Larrañaga (2007) “A Review of Feature Selection Techniques in Bioinformatics,” Bioinformatics, Vol.23, No.19, pp.2507-2517.
    [5]Aha, D.W (1997) “Editorial,” Artificial Intelligence Review, 11(1-5), pp.1-6.
    [6]Jonsdottir, T., E. T. Hvannberg, H. Sigurdsson,.and S. Sigurdsson (2008) “The Feasibility of Constructing A Predictive Outcome Model for Breast Cancer Using The Tools of Data Mining,” Expert Systems with Applications, No. 34, pp.108-118.
    [7]Pudil, P., J. Novovičová, and J. Kittler (1994) “Floating search methods in feature selection,” Pattern Recognition Letters, 15(11), pp.1119–1125.
    [8]Rietveld, T., and R. Hout (1993) “Statistical Techniques for the Study of Language and Language Behavior,” Berlin, Germany: Mouton de Gruyter.
    [9]Rokach, L., B. Chizi , and O.Maimon (2007) “A Methodology for Improving The Performance of Non-ranker Feature Selection Filters,” International Journal of Recognition and Artificial Intelligence, Vol. 21, No. 5, pp.809-830.
    [10]Fayyad, U. M. and K. B. Irani (1993) “Multi-interval Discretisation of Continuous-valued Attributes for Classification Learning,” In Proceedings of the 13th International Joint Conference on Artificial Intelligence, Morgan Kaufmann.
    [11]Moore, A. W. and M. S. Lee (1994) “Efficient Algorithms for Minimising Cross Validation Error,” Proceedings of the 11th International Conference on Machine Learning, Morgan Kaufmann.
    [12]Press, W. H., B. P. Flannery, S. A. Teukolski, and W. T. Vetterling (1998) “Numerical Recipes in C,” Cambridge University Press.
    [13]Mladenić, D.(2006) “Feature Selection for Dimensionality Reduction,” Craig Saunders et al. (Hrsg.): SLSFS 2005, LNCS 3940, pp.84-102.
    [14]Hall, M. A. and G. Holmes (2000) “Benchmarking Attribute Selection Techniques for Data Mining,” Working Paper 00/10, Department of Computer Science, University of Waikato, New Zealand.
    [15]Hall, M. A.and L. A. Smith (1997) “Feature Subset Selection: A Correlation Based Filter Approach,” International Conference on Neural Information Processing and Intelligent Information System, Springer, p.855-858.
    [16]Chou, T. S., K. K. Yen, and J. Luo (2007) “Network Intrusion Detection Design Using Feature Selection of Soft Computing Paradigms,” International Journal of Computational Intelligence, Vol. 4, No. 3, pp.196-208.
    [17]Yu, L. and L. Liu (2004) “Redundancy Based Feature Selection for Microarray Data,” Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, Seattle, WA, USA.
    [18]Kohavi, R. and G. H. John (1997) “Wrappers for Feature Subset Selection,” Artificial Intelligence, Vol. 97, No. 1-2, pp.273-324.
    [19]Dash, M.and H. Liu (2003) “Consistency-based Search in Feature Selection,” Artificial Intelligence, No.151, pp.155-176.
    [20]Russell, S. and P. Norving (1995) “Artificial Intelligence: A Modern Approach, ” Prentice-Hall.
    [21]Kira, K. and L. A. Rendell (1992) “A practical approach to feature selection,” In Proceedings of the ninth international workshop on Machine learning, Morgan Kaufmann Publishers Inc., pp. 249-256.
    [22]張云濤、龔玲,2007,資料探勘原理與技術,初版,臺北市:五南圖書。
    [23]鄭宇庭、易丹輝、謝邦昌,2006,統計資料分析-以statistica為例,二版,台北市:中華資料採礦學會(CDMS)。
    [24]曾龍,2003,資料探礦-概念與技術,初版,台北縣:維科圖書有限公司。
    [25]曾憲雄、蔡秀滿、蘇東興、曾秋蓉、王慶堯,2005,資料探勘,台北市:旗標出版股份有限公司。
    [26]Instanced-Based Learning,http://www.icl.pku.edu.cn/yujs/papers/word/IBL-ZAN.ppt (2002.10)
    [27]Data Mining: Classification,http://www1.nttu.edu.tw/green/www/g02/g02-2/pp/DataMining/DataMining_06.ppt

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)
    全文公開日期 本全文未授權公開 (國家圖書館:臺灣博碩士論文系統)
    QR CODE