研究生: |
洪鵬翔 Peng-Hsiang Hung |
---|---|
論文名稱: |
中文新聞自動群聚 Automatic Clustering of News Titles |
指導教授: |
張智星
Jyh-Shing Roger Jang 張俊盛 Jyun-Sheng Chang |
口試委員: | |
學位類別: |
碩士 Master |
系所名稱: |
電機資訊學院 - 資訊工程學系 Computer Science |
論文出版年: | 2000 |
畢業學年度: | 88 |
語文別: | 中文 |
論文頁數: | 47 |
中文關鍵詞: | 群聚 、新聞處理 、分群法 |
外文關鍵詞: | cluster, news processing, clustering method |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
這是一個資訊爆炸的時代,隨著網路的蓬勃發展,越來越多的資訊在網際網路上流通,該如何在如此龐大的資訊洪流之中找到我們所需要的資料,將會是一個益發重要的課題。
隨著網際網路的發達,網站的發展也日趨蓬勃,許多新聞網站紛紛成立,例如:中時電子報、聯合新聞網、明日報。為了讓使用者在如此多的新聞網站中更為方便閱讀有興趣的新聞,因此一些新聞整合性質的網站也紛紛成立,例如:太一信通網羅新聞,所提供的服務是收錄多家新聞網站的新聞報導並加以整合,但是部份的新聞服務還是需要人工輔助,因此若我們可以讓電腦在這方面發揮更大的助力,就能夠有效地減少處理新聞文件所花的時間,也更能節省花在這方面的人力資源。太一信通網羅新聞所提供新聞服務是一項「新聞分群」(news clustering)服務,而新聞分群就是針對各個不同的新聞類別,找出其中描述同一事件的新聞報導,將其合為一個新聞群聚,以便於提供「新聞群組」服務。
我們將利用計算字串相似度的方式求得新聞標題之間的相似度,根據這些相似度再以「階層式聚合演算法」來完成分群的動作。在訓練過程中系統會調整分群所需的參數,希望能夠藉此提高電腦自動分群的準確度。此外我們也嘗試不經由反覆訓練的過程,而直接以統計的方法來求得分群所需的參數,並加以比較這兩種方式所得到的分群結果。
我們的目的是希望能夠找出一個適用於本系統的方法,使其能夠提高電腦辨識新聞群聚的準確度,並協助完成分群的動作,則整個系統將可有效地節省人力,也使得系統處理時間更為快速。
[1] N. Jardine, C. J. van Rijsbergen, “The Use of Hierarchical Clustering in Information Retrieval”, Information Storage and Retrieval, 7, pages 217-240, 1971.
[2] D. T. Phillips, A. Ravindran, J. J. Solberg, Operations Research: Principles and Practice, pages 79-84, John Wiley & sons, Inc., New York, 1976.
[3] A. Griffith, H. C. Luckhurst, P. Willet, “Using Inter-Document Similarity Information in Document Retrieval Systems”, Journal of the American Society for Information Science, 37, pages 3-11, 1986.
[4] P. Willet, “Recent trends in hierarchical document clustering: a critical review “, Information Processing ad Management, 24, pages 557-597, 1988.