簡易檢索 / 詳目顯示

研究生: 黃佳新
論文名稱: 關鍵字擷取與文件分類之因子分析
Factor Analysis for Keyword Extraction and Document Classification
指導教授: 侯建良
口試委員:
學位類別: 碩士
Master
系所名稱: 工學院 - 工業工程與工程管理學系
Department of Industrial Engineering and Engineering Management
論文出版年: 2004
畢業學年度: 92
語文別: 中文
論文頁數: 121
中文關鍵詞: 文件分類關鍵字擷取知識管理資訊擷取
外文關鍵詞: Document Classification, Keyword Extraction, Knowledge Management, Information Retrieval
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 由於資訊技術之普遍運用,各企業與機構之電子化文件不斷快速累積,如何利用自動化技術快速、有效地協助人工進行文件分類,以應付大量暴增之分類需求,實為現今資訊服務與知識管理之重要課題。目前文件自動分類大多採取文件關鍵字作為分類依據,過去針對關鍵字擷取相關研究大多探討關鍵字擷取方法之改善,然甚少針對關鍵字特性進行分析研究。有鑑於此,本研究針對關鍵字於文件中之發生頻率、位置等特性進行探索,期能將分析結果應用於自動化關鍵字擷取,並使擷取之文件關鍵字更具代表性與合理性;另一方面,若單純利用關鍵字資訊進行文件自動分類,可能因文件內容缺漏而導致分類結果錯誤。因此,本研究以文件內容結構與內容提供者為作為文件分類依據,發展自動化文件分類分類演算法,期使文件分類結果更具合理性。除方法論與模式之發展外,本研究並實際開發一雛形系統且利用此系統進行案例驗證,以確認方法論與技術之可行性。本研究除了以漢學研究論文為基礎,分析關鍵詞彙發生頻率、位置與詞彙詞性等因子,歸納關鍵字之特性外,另以文件結構資訊(如內容字節與符號)作為分類指標,並運用新聞文件集進行文件分類雛形系統之案例驗證,以確認此研究之實用價值。整體而言,本研究所提出之關鍵字擷取特徵與文件自動分類因子分析,將有利企業達成自動化知識管理之目標。


    ABSTRACT

    Due to popularity of the information technology, the electronic documents within enterprises and organizations accumulate quickly and drastically. To automatically classify documents is the typical issue for enterprise knowledge management and services. Currently, most of the automatic document classification methodologies utilize the document keywords for determination of document category. Furthermore, most previous research about keyword extraction focuses mainly on improvement of the extraction methodology and the characteristics of document keywords are rarely taken into consideration. Therefore, in this research, the key characteristics of document keywords (e.g., the frequency and location) are analyzed and the results can be applied as the criteria for automatic keyword extraction. On the other hand, in order to enhance the accuracy of automatic document classification, an automatic document classification approach is also proposed on the basis of the document structure and document provider. In addition to the keyword analysis and document classification models, a web-based prototype system is developed for automatic document classification. The effectiveness of the developed system is evaluated via a e-News management case. This research attempts to explore applicable keyword characteristics and document classification mechanism so that the goal of automatic enterprise knowledge management can be realized.

    Keywords: Document Classification, Keyword Extraction, Knowledge Management, Information Retrieval.

    目錄 摘要 I ABSTRACT II 目錄 III 圖目錄 V 表目錄 VIII 第一章、研究背景 1 1.1研究動機與目的 1 1.2研究方法與步驟 3 1.3研究定位 5 第二章、文獻回顧 8 2.1文件關鍵字 8 2.1.1關鍵字特性 8 2.1.2關鍵字擷取方法 9 2.1.3關鍵字應用於文件分類 13 2.1.4關鍵字應用於文件搜尋 13 2.2文件標題 15 2.3文件結構 17 第三章、關鍵字擷取因子分析 21 3.1頻率因子 21 3.2 詞性因子 36 第四章、新聞分類特徵分析 40 4.1參數符號說明 40 4.2提供者指標 42 4.3字節指標 46 4.4符號指標 49 第五章、系統架構與規劃 52 5.1系統功能架構 52 5.2系統操作架構 53 5.3資料模式定義 54 5.4系統流程 56 5.4.1系統操作流程 56 5.4.2系統資料流程 58 5.5系統開發工具 60 第六章、系統實作與案例分析 62 6.1系統功能操作 62 6.1.1一般使用者功能 62 6.1.2新聞提供者功能 68 6.1.3系統管理者功能 88 6.2系統分析與評估 94 第七章、結論與未來展望 98 參考文獻 101 附錄一、關鍵詞解析 108 圖目錄 圖1.1、研究架構 6 圖1.2、研究定位 7 圖3.1、內容分析之十項研究步驟 21 圖3.2、關鍵字個數與所佔百分比VS.名次排序範圍 29 圖3.3、1∼10篇論文之段落與關鍵字濃度關係 32 圖3.4、11∼20篇論文之段落與關鍵字濃度關係 32 圖3.5、21∼30篇論文之段落與關鍵字濃度關係 33 圖4.1、新聞分類機制 40 圖4.2、利用提供者資訊推論所提供新聞類別之過程 42 圖4.3、提供者與所提供之新聞 43 圖5.1、文件文件類別推論架構 52 圖5.2、系統運作架構 54 圖5.3、資料模式關聯 55 圖5.4、文件分享功能使用流程 56 圖5.5、文件查詢功能使用流程 57 圖5.6、系統參數設定功能使用流程 58 圖5.7、系統資料流程 59 圖5.8、文件存入伺服器流程 59 圖6.1、一般使用者功能介面 62 圖6.2、日期查詢畫面 63 圖6.3、日期查詢結果 64 圖6.4、類別查詢結果 65 圖6.5、關鍵詞查詢結果 65 圖6.6、複合查詢畫面 66 圖6.7、複合查詢結果(CASE 1) 67 圖6.8、複合查詢結果(CASE 2) 67 圖6.9、全文檢索 68 圖6.10、新聞提供者登入畫面 69 圖6.11、新聞提供者可使用之功能架構 69 圖6.12、文件上傳畫面 70 圖6.13、顯示文件詳細資訊 71 圖6.14、全文檢索 72 圖6.15、全文檢索查詢結果 72 圖6.16、新聞下載 73 圖6.17、以表格方式顯示文件 74 圖6.18、線上閱覽新聞 74 圖6.19、下載新聞 75 圖6.20、條件值查詢 76 圖6.21、顯示新聞標題與摘要 76 圖6.22、查詢文件 77 圖6.23、選擇新類別 78 圖6.24、顯示文件名稱與變更之類別 78 圖6.25、文件關鍵字新增 79 圖6.26、文件關鍵字刪除 80 圖6.27、顯示已刪除之文件關鍵字 80 圖6.28、確認刪除文件 81 圖6.29、文件類別查詢 82 圖6.30、文件類別新增 83 圖6.31、顯示新增之文件類別資料 83 圖6.32、選定文件類別 84 圖6.33、輸入新類別名稱 84 圖6.34、顯示修改之類別資訊 85 圖6.35、刪除文件類別 85 圖6.36、輸入帳號密碼 86 圖6.37、顯示個人資料 87 圖6.38、修改個人資料 87 圖6.39、顯示修改個人資料之結果 88 圖6.40、新增會員資料 89 圖6.41、輸入查詢會員帳號 89 圖6.42、顯示所有會員 90 圖6.43、顯示會員詳細資料 90 圖6.44、選擇修改或刪除會員資料 91 圖6.45、修改會員資料 91 圖6.46、確認刪除會員資料 92 圖6.47、文件版本管理 93 圖6.48、系統門檻值維護 93 圖6.49、綜合性新聞分類架構 97 圖6.50、各分類指標之學習曲線 101

    參考文獻
    1. 王稔志,2000,「適應性的新聞分類系統」,碩士論文(指導教授:張俊盛),清華大學資訊工程學系。
    2. 王靜翊,2000,「以XML技術所設計之合作式文件架構」,碩士論文(指導教授:周忠信),東海大學資訊工程學系。
    3. 毛文芳,2001,「晚明『狂禪』探論」,漢學研究,第20 卷第2 期,頁171-200。
    4. 朴宣泠,2002,「體制內抵抗:滿洲國統治之下的秘密反日活動」,漢學研究,第20 卷第1 期,頁369-397。
    5. 吳信德,2002,「以相關性辭典建構為基礎---實現複合關鍵字之概念查詢擴張」,碩士論文(指導教授:姚修慎),元智大學資訊工程學系。
    6. 吳智和,2002,「明人山水休閒生活」,漢學研究,第20 卷第1 期,頁 101-129。
    7. 李金松,2002,「金批《水滸傳》的批評方法研究」,漢學研究,第20 卷第2 期,頁217-248。
    8. 李明輝,2002,「劉蕺山對朱子理氣論的批判」,漢學研究,第20 卷第1 期,頁1-32。
    9. 李祥賓,2001,「資料探勘技術運用於文件自動分群之研究」,碩士論文(指導教授:王朝煌),中央警察大學資訊管理學系。
    10. 李紹群,1999,「以關鍵字相關性為基礎之超本文資訊檢索系統」,碩士論文(指導教授:賀嘉生),中原大學資訊工程學系。
    11. 何冠彪,2002,「乾綱獨御、乾綱獨斷─康熙、雍正二帝君權思想的一個側面」,漢學研究,第20 卷第2 期,頁275-300。
    12. 杜海倫,1998,「以標題進行新聞自動分類」,碩士論文(指導教授:張俊盛),清華大學資訊工程學系。
    13. 林素英,2001,「先秦儒家的喪葬觀」,漢學研究,第19 卷第2 期,頁83-112。
    14. 林嵩富,2002,「主題分類關鍵詞之動態更新模式研究」,碩士論文(指導教授:陳振東),大葉大學資訊管理學系。
    15. 林頌華,1998,「新聞標題自動分類」,碩士論文(指導教授:張智星),清華大學資訊工程學系。
    16. 林啟彥,2002,「嚴復與章士釗—有關盧梭《民約論》的一次思想論爭」,漢學研究,第20 卷第1 期,頁339-367。
    17. 施政瑋,2002,「以階層式詞義網路為基礎的中文文件分析及其效能評估」,碩士論文(指導教授:呂芳懌),東海大學資訊工程學系。
    18. 洪萬生,2002,「十八世紀東算與中算的一段對話:洪正夏vs. 何國柱」,漢學研究,第20 卷第2 期,頁57-80。
    19. 洪森杰,1998,「類神經網路於文件結構分析之探討─以XML為例」,碩士論文(指導教授:王元凱)國防管理學院國防資訊學系。
    20. 紀志昌,2002,「東晉居士謝敷考」,漢學研究,第20 卷第1 期,頁55-83。
    21. 孫銘聰、侯建良,2002,「以推論法則為基之知識文件權限管理程序模式」,產業電子化運籌管理學術暨實務研討會,Paper ID:39。
    22. 孫振凱,2001,「利用網頁建構知識分布圖」,碩士論文(指導教授:陳年興),中山大學資訊管理學系。
    23. 孫豪聲,2002,「字彙自動整合方法及其應用之研究」,碩士論文(指導教授:蘇耀新),中國文化大學資訊管理學系。
    24. 孫衛國,2002,「朝鮮《皇明遺民傳》的作者及其成書」,漢學研究,第20 卷第1 期,頁163-188。
    25. 徐碧玉,2000,「利用熵作為網際網路文件搜尋之排名方法」,碩士論文(指導教授:賈坤芳),中興大學資訊科學系。
    26. 徐雁平,2002,「近代中日學術交流考論—以胡適與青木正兒為中心」,漢學研究,第20 卷第2 期,頁81-107。
    27. 郜積意,2002,「漢代隱逸與經學」,漢學研究,第20 卷第1 期,頁27-54。
    28. 章秉純,2001,「以機器學習與文字探勘技術解整合文件分類問題」,碩士論文(指導教授:許清琦)臺灣大學資訊工程學系。
    29. 許暉煌,1999,「應用資料探勘技巧於多媒體文件分類法則之研究」,碩士論文(指導教授:鄭錫齊),銘傳大學資訊管理學系。
    30. 許琇娟,2000,「以漸進式標籤區域分析為基礎之網頁分類器」,碩士論文(指導教授:林丕靜)淡江大學資訊工程學系。
    31. 許雅芬,2001,「新聞文件自動分類之研究」,碩士論文(指導教授:柯淑津),東吳大學資訊科學系。
    32. 陳孟君,1998,「 WWW上智慧型圖文檢索代理器建構之研究」,碩士論文(指導教授:陳鴻文),大葉大學資訊管理學系。
    33. 陳俊啟,2002,「重估梁啟超小說觀及其在小說史上的意義」,漢學研究,第20 卷第1 期,頁309-338。
    34. 陳萬成,2002,「滬藏〈觀音證驗賦〉殘卷考辨」,漢學研究,第20 卷第1 期,頁85-99。
    35. 陳煜儒,2001,「利用資料探勘建構一個有彈性的網路搜尋系統」,碩士論文(指導教授:楊東麟),逢甲大學資訊工程學系。
    36. 陳鼓應,2002,「《管子》〈形勢〉〈宙合〉〈樞言〉〈水地〉諸篇的黃老思想」,漢學研究,第20 卷第1 期,頁1-26。
    37. 陳贇,2002,「王船山理氣之辨的哲學闡釋」,漢學研究,第20 卷第2 期,頁249-274。
    38. 張素卿,2000,「從線上目錄主題檢索詞彙來探討主題編目工作-以私立東吳大學圖書館為例」,碩士論文(指導教授:陳和琴),淡江大學資訊與圖書館學系。
    39. 張麗珠,2002,「紀昀反宋學的思想意義—以《四庫提要》與《閱微草堂筆記》為觀察線索」,漢學研究,第20 卷第1 期,頁253-276。
    40. 曾元顯,1997,「關鍵詞自動擷取技術與相關回饋」,中國圖書館學會會報,第59期,頁59-64.
    41. 曾元顯,2002,「文件主題自動分類成效因素探討」,中國圖書館學會會報, 第68期,頁62-83.
    42. 曾耀順,2000,「在超連結環境下針對資訊分類相關權威網頁之探勘」,碩士論文(指導教授:何裕琨),成功大學電機工程學系。
    43. 湯開建,2002,「明清之際澳門與中國內地天主教傳播之關係」,漢學研究,第20 卷第2 期,頁29-56。
    44. 黃一農,2002,「 劉興治兄弟與明季東江海上防線的崩潰」,漢學研究,第20 卷第1 期,頁. 131-161。
    45. 黃政偉,1998,「具語句特徵選取能力的類神經網路文件分類器」,碩士論文(指導教授:李漢銘),台灣科技大學電子工程學系。
    46. 黃浩文,2000,「使用JSP技術設計電子商務應用系統」,機械工業出版社。
    47. 黃寬重,2002,「賈涉事功述評─以南宋中期淮東防務為中心」,漢學研究,第20 卷第2 期,頁165-188。
    48. 黃燕萍,1998,「中文社會新聞文件資訊擷取」,碩士論文(指導教授:許中川),雲林科技大學資訊管理學系。
    49. 葉慶章,1998,「應用遺傳演算法於文件萃取之查詢」,碩士論文(指導教授:劉寶鈞),中央大學資訊工程學系。
    50. 馮樹仁,2001,「以潛在語意分析法發展摘要寫作評量系統」,碩士論文(指導教授:陳世旺),臺灣師範大學資訊教育學系。
    51. 彭國翔,2001,「王龍溪的《中鑒錄》及其思想史意義:有關明代儒學思想基調的轉換」,漢學研究,第19 卷第2 期,頁59-81。
    52. 楊維中,2001,「論禪宗心性思想的發展」,漢學研究,第19 卷第2 期,頁141-169。
    53. 楊翠華,2002,「胡適對臺灣科學發展的推動:『學術獨立』夢想的延續」,漢學研究,第20 卷第2 期,頁327-352。
    54. 詹智凱,2000,「以詞的關聯性為基礎的文件自動分類」,碩士論文(指導教授:徐俊傑)台灣科技大學資訊管理學系。
    55. 歐麗娟,2002,「林黛玉立體論—『變╱正』、『我╱群』的性格轉化」,漢學研究,第20 卷第1 期,頁221-252。
    56. 鄭振偉,2001,「道家與原始思維」,漢學研究,第19 卷第2 期,頁113-140。
    57. 蔡坤修,2002,「以動態式詞分群為基礎之文件分群研究」,碩士論文(指導教授:徐俊傑),台灣科技大學資訊管理學系。
    58. 蔡純純,2002,「中文新聞文件空間資訊擷取之研究—以火災、搶劫、車禍事件為例」,碩士論文(指導教授:朱子豪),臺灣大學地理環境資源學系。
    59. 鄧克銘,2001,「羅欽順『理氣為一物』說之理論效果」,漢學研究,第19 卷第2 期,頁33-57。
    60. 鄧伊雯,2002,「以關鍵詞分割為基礎的文件分群與概念呈現」,碩士論文(指導教授:徐俊傑),台灣科技大學資訊管理學系。
    61. 謝儒誠,2001,「資料探勘技術運用於文件自動分群之研究」,碩士論文(指導教授:王朝煌)中央警察大學資訊管理學系。
    62. 顏健富,2002,「發現孩童與失去孩童─論魯迅對孩童屬性的建構」,漢學研究,第20 卷第2 期,頁301-325。
    63. 羅志田,2002,「從清季的古學復興到民國的新潮」,漢學研究,第20 卷第1 期,頁277-307。
    64. 蘇瑞隆,2002,「論劉宋諸王對鮑照樂府創作的影響—以七言體與絕句體為主的探討」,漢學研究,第20 卷第2 期,頁141-163。
    65. Ando, K., Yamasaki, T., Shishibori, M. and Aoe, J., 2001, “Automatic text summarization based on keyword derivation,” IEEE International Conference on Systems, Man, and Cybernetics, Vol. 1, pp. 464-469.
    66. Anthony, L., 2001, “Characteristic features of research article titles in computer science,” IEEE Transactions on Professional Communication, Vol. 44, pp. 187-194.
    67. Atlam, E. S., Fuketa, M., Kashiji, S., Nakata, H. and Aoe, J., 2002, “A new method for construction filed association terms using co-occurrence words and declinable words information,” IEEE International Conference on Systems, Man and Cybernetics, Vol. 4, pp. 1217-1224.
    68. Blake, C. and Pratt, W., 2001, “Better rules, fewer features: a semantic approach to selecting features from text,” Proceedings. IEEE International Conference on Data Mining, pp. 59-66.
    69. Chang, C.-H. and Hsu, C.-C., 1997, “Customizable multi-engine search tool with clustering,” Computer Networks and ISDN Systems, Vol. 29, pp. 1217-1224.
    70. Chang, H.-H., Ko, Y.-H. and Hsu, J.-P., 2000, “An event-driven and ontology-based approach for the delivery and information extraction of e-mails,” Proceedings. International Symposium on Multimedia Software Engineering, pp. 103-109.
    71. Ebenhoch, M. P., 2001, “Legal knowledge representation using the resource description framework (RDF),” Proceedings. 12th International Workshop on Database and Expert Systems Applications, pp. 369-373.
    72. Gokcay, D. and Gokcay, E., 1995, “Generating titles for paragraphs using statistically extracted keywords and phrases,” IEEE International Conference on Intelligent Systems for the 21st Century, Vol. 4, pp. 3174-3179.
    73. Grootjen, E., 2000, “A semantical twist to syntactical navigation,” Proceedings. 11th International Workshop on Database and Expert Systems Applications, pp. 523-527.
    74. Hua, Yang, Onda, N., Kashimura, M. and Ozawa, S., 1999, “Extraction of bibliography information based on image of book cover,” Proceedings. International Conference on Image Analysis and Processing, pp. 921-926.
    75. Jo, T. C., 1999, “Text categorization with the concept of fuzzy set of informative keywords,” Proceedings. IEEE International Conference on Fuzzy Systems, Vol. 2, pp. 609-614.
    76. Kise, K., Mizuno, H., Yamaguchi, M. and Matsumoto, K., 1999, “On the use of density distribution of keywords for automated generation of hypertext links from arbitrary parts of documents,” Proceedings of the Fifth International Conference on Document Analysis and Recognition, pp. 301-304.
    77. Lee, H-M., Chen, C-M., and Tan C-C., 2001, “An intelligent web-page classifier with fair feature-subset selection,” IFSA World Congress and 20th NAFIPS International Conference, Vol. 1, pp. 395-400.
    78. Lin, C-H. and Chen, H-C., 1996, “An automatic indexing and neural network approach to concept retrieval and classification of multilingual (Chinese-English) documents,” IEEE Transactions on Systems, Man and Cybernetics, Vol. 26, pp.75-88.
    79. Miyazaki, M, 1984, “Automatic segmentation method for compound word using semantic dependent relationships between words,” Journal of Information Processing Society of Japan (IPSJ), Vol. 25, pp. 970-979.
    80. Najman, L., Gibot, O. and Berche, S., 2001, “Indexing technical drawings using title block structure recognition,” Proceedings. The Sixth International Conference on Document Analysis and Recognition, pp. 587-591.
    81. Ricardo, B.-Y. and Berthier, R.-N., 1999, “Modern information retrieval,” New York, Addison-Wesley.
    82. Runkler, T.-A. and Bezdek, J.-C., 2001, “Classification of internet newsgroup articles using RACE,” IFSA World Congress and 20th NAFIPS International Conference, Vol. 3, pp. 1437-1442.
    83. Sadakane, K. and Imai, H., 1999, “Text retrieval by using k-word proximity search,” Proceedings. 1999 International Symposium on Database Applications in Non-Traditional Environments, pp. 183-188.
    84. Smith, D., Harvey, R., Chan, Y. and Bangham, J. A., 1999, “Classifying Web pages by content,” IEE European Workshop on Distributed Imaging, pp. 8/1-8/7.
    85. Summers, K., 1995, “Near-wordless document structure classification,” Proceedings of the Third International Conference on Document Analysis and Recognition, Vol. 1, pp. 462-465.
    86. Taylor, S. L., Lipshutz, M. and Nilson, R. W., 1995, “Classification and functional decomposition of business documents,” Proceedings of the Third International Conference on Document Analysis and Recognition, Vol. 2, pp. 563-566.
    87. Tseng, Y-H., 2001, “Fast co-occurrence thesaurus construction for Chinese news,” IEEE International Conference on Systems, Man, and Cybernetics, Vol. 2, pp. 853-858.
    88. Watanabe, T., Luo, Q., Yoshida, T. and Inagaki, Y., 1991, “A stepwise recognition method of library cataloging cards on the basis of various kinds of knowledge,” Proceedings, The Tenth Annual International Phoenix Conference on Computers and Communications, pp. 821-827.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE