[網(wǎng)頁去重]網(wǎng)絡爬蟲過程中5種網(wǎng)頁去重方法簡要
導讀:seo建站技術seo建站技術想做好網(wǎng)站收錄,一定要了解去重算法和指紋算法,只有這樣才能更好地做好原創(chuàng)網(wǎng)頁,幫助網(wǎng)站促進收錄,提升排名。對一個新的網(wǎng)頁,爬蟲程序通過網(wǎng)頁去重算法,最終決定是否網(wǎng)站的搭建網(wǎng)站搭建教程。
想做好網(wǎng)站收錄,一定要了解去重算法和指紋算法,只有這樣才能更好地做好原創(chuàng)網(wǎng)頁,幫助網(wǎng)站促進收錄,提升排名。對一個新的網(wǎng)頁,爬蟲程序通過網(wǎng)頁去重算法,最終決定是否對其索引。
一、近似重復網(wǎng)頁類型,根據(jù)文章內(nèi)容和網(wǎng)頁布局格式的組合分為4種形式:
1、兩篇文檔在內(nèi)容和布局格式上毫無區(qū)別,則這種重復稱為完全重復頁面。
2、兩篇文檔內(nèi)容相同,但布局格式不同,則這種重復稱為內(nèi)容重復頁面。
3、兩篇文檔織夢模板有部分重要的內(nèi)容相同,并且布局格式相同,則這種重復稱為布局重復頁面。
4、兩篇文檔有部分重要內(nèi)容相同,但布局格式不同,則這種重復稱為部分重復頁面。
二、重復網(wǎng)頁對搜索引擎的不利影響: 正常情況下,非常相似的網(wǎng)頁內(nèi)容不能或只能給用戶提供少量的新信息,但在對爬蟲進行抓取、索引和用戶搜索會消耗大量的服務器資源。
三、重復網(wǎng)頁對搜索引擎的好處: 如果某個網(wǎng)頁重復性很高,往往是其內(nèi)容比較比較受歡迎的一種體現(xiàn),也預示著該網(wǎng)頁相對比較重要。應予以優(yōu)先收錄。當用戶搜索時,在輸出結果排序時,也應給與較高的權重。
四、重復文檔的處理方式:
1、刪除
2、將重復文檔分組
五、 SimHash文檔指紋計算方法 :
1、從文檔中提取具有權值的特征集合來表示文檔。如:假設特征都是由詞組成的,詞的權值由詞頻TF來確定。
2、對每一個詞,通過哈希算法生成N位(通常情況是64位或更多)的二進制數(shù)值,如上圖,以生成8位的二進制值為例。每個詞都對應各自不同的二進制值。
3、在N維(上圖為8維)的向量V中,分別對每維向量進行計算。如果詞相應的比特位的二進制數(shù)值為1,則對其特征權值進行加法運算;如果比特位數(shù)值為0,則進行減法運算,通過這種方式對向量進行更新。
4、當所有的詞都按照上述處理完畢后,如果向量V中第i維是正數(shù),則將N位的指紋中第i位設置為1,否則為0。 一般的,我們想抓取一個網(wǎng)站所有的URL,首先通過起始URL,之后通過網(wǎng)絡爬蟲提取出該網(wǎng)頁中所有的URL鏈接,之后再對提取出來的每個URL進行爬取,提取出各個網(wǎng)頁中的新一輪URL,以此類推。整體的感覺就是自上而下進行抓取網(wǎng)頁中的鏈接,理論上來看,可以抓取整站所有的鏈接。
聲明: 本文由我的SEOUC技術文章主頁發(fā)布于:2023-07-23 ,文章[網(wǎng)頁去重]網(wǎng)絡爬蟲過程中5種網(wǎng)頁去重方法簡要主要講述網(wǎng)頁,爬蟲,網(wǎng)頁網(wǎng)站建設源碼以及服務器配置搭建相關技術文章。轉(zhuǎn)載請保留鏈接: http://www.bifwcx.com/article/web_35234.html