當前位置:才華都>知識文庫>知識問答>

特徵碼前綴

知識問答 閲讀(2.67W)

隨着網絡技術和信息技術的飛速發展,網絡已經成為人們獲取信息的一個重要途徑。現有的搜索引擎面臨的最大一個問題就是返回的結果集中包含大量重複的信息。如何更有效地幫助用户獲取所需要的信息,能夠快速、準確地為用户提供信息,是網絡信息服務面臨的新課題。優化搜索結果可以採用多種手段,如通過提取網頁的特徵進行基於內容的`信息檢索,利用用户反饋的信息進一步精確檢索結果,將結果集中的重複信息儘可能地消除等。

由於網絡信息分佈的特點,網站上的信息存在相互轉載及鏡像站點等情況。出現相同網頁主要有以下幾種情形:網頁的URL完全相同;網頁的URL形式不同,但網站域名所對應的IP是相同的;URL雖然不同,但網頁內容完全相同;URL不同,為不同的網頁形式,但網頁上主要內容是相同的。本文主要討論對於網頁內容重複性的消除。