簡易檢索 / 詳目顯示

研究生: 洪鵬翔
Peng-Hsiang Hung
論文名稱: 中文新聞自動群聚
Automatic Clustering of News Titles
指導教授: 張智星
Jyh-Shing Roger Jang
張俊盛
Jyun-Sheng Chang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊工程學系
Computer Science
論文出版年: 2000
畢業學年度: 88
語文別: 中文
論文頁數: 47
中文關鍵詞: 群聚新聞處理分群法
外文關鍵詞: cluster, news processing, clustering method
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 這是一個資訊爆炸的時代,隨著網路的蓬勃發展,越來越多的資訊在網際網路上流通,該如何在如此龐大的資訊洪流之中找到我們所需要的資料,將會是一個益發重要的課題。
    隨著網際網路的發達,網站的發展也日趨蓬勃,許多新聞網站紛紛成立,例如:中時電子報、聯合新聞網、明日報。為了讓使用者在如此多的新聞網站中更為方便閱讀有興趣的新聞,因此一些新聞整合性質的網站也紛紛成立,例如:太一信通網羅新聞,所提供的服務是收錄多家新聞網站的新聞報導並加以整合,但是部份的新聞服務還是需要人工輔助,因此若我們可以讓電腦在這方面發揮更大的助力,就能夠有效地減少處理新聞文件所花的時間,也更能節省花在這方面的人力資源。太一信通網羅新聞所提供新聞服務是一項「新聞分群」(news clustering)服務,而新聞分群就是針對各個不同的新聞類別,找出其中描述同一事件的新聞報導,將其合為一個新聞群聚,以便於提供「新聞群組」服務。

    我們將利用計算字串相似度的方式求得新聞標題之間的相似度,根據這些相似度再以「階層式聚合演算法」來完成分群的動作。在訓練過程中系統會調整分群所需的參數,希望能夠藉此提高電腦自動分群的準確度。此外我們也嘗試不經由反覆訓練的過程,而直接以統計的方法來求得分群所需的參數,並加以比較這兩種方式所得到的分群結果。

    我們的目的是希望能夠找出一個適用於本系統的方法,使其能夠提高電腦辨識新聞群聚的準確度,並協助完成分群的動作,則整個系統將可有效地節省人力,也使得系統處理時間更為快速。


    摘要 致謝 目錄 圖表目錄 第1章 緒論 1.1 研究動機 1.2 研究目的 1.3 研究方法簡述 1.4 章節簡介 第2章 緒論 2.1 相關研究 2.2 新聞資料庫概述 第3章 研究方法 3.1 字串相似度 3.1.1 最長相同子字串 3.1.2 最長相同連續子字串 3.1.3 歐幾里德距離 3.1.4 權重平均法 3.2 分群法 3.2.1 階層式聚合演算法 3.3 不需導式的最佳化方法 3.3.1 下坡式simplex搜尋法 3.4 統計法 第4章 實驗方法 4.1 實驗流程簡介 4.2 訓練資料之擷取 4.3 計算新聞標題相似度 4.4 新聞分群 4.5 新聞群聚相似度 4.6 調整參數 4.7 統計法之實作 第5章 實驗結果 實驗一 實驗二 實驗三 實驗四 實驗五 實驗六 實驗七 實驗八 第6章 討論與未來研究方向 6.1 討論 6.2 未來研究方向 參考文獻

    [1] N. Jardine, C. J. van Rijsbergen, “The Use of Hierarchical Clustering in Information Retrieval”, Information Storage and Retrieval, 7, pages 217-240, 1971.
    [2] D. T. Phillips, A. Ravindran, J. J. Solberg, Operations Research: Principles and Practice, pages 79-84, John Wiley & sons, Inc., New York, 1976.
    [3] A. Griffith, H. C. Luckhurst, P. Willet, “Using Inter-Document Similarity Information in Document Retrieval Systems”, Journal of the American Society for Information Science, 37, pages 3-11, 1986.
    [4] P. Willet, “Recent trends in hierarchical document clustering: a critical review “, Information Processing ad Management, 24, pages 557-597, 1988.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)
    全文公開日期 本全文未授權公開 (國家圖書館:臺灣博碩士論文系統)
    QR CODE