網絡爬蟲
網絡爬蟲又名“網絡蜘蛛”,是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到按照某種策略把互聯網上所有的網頁都抓取完為止的技術。
網絡爬蟲分幾類
1、通用Web爬蟲
通用網絡爬蟲所爬取的目標數據是巨大的,并且爬行的范圍也是非常大的,正是由于其爬取的數據是海量數據,故而對于這類爬蟲來說,其爬取的性能要求是非常高的。這種網絡爬蟲主要應用于大型搜索引擎中,有非常高的應用價值。或者應用于大型數據提供商。
2、聚焦網絡爬蟲
聚焦網絡爬蟲是按照預先定義好的主題有選擇地進行網頁爬取的一種爬蟲,聚焦網絡爬蟲不像通用網絡爬蟲一樣將目標資源定位在全互聯網中,而是將爬取的目標網頁定位在與主題相關的頁面中,此時,可以大大節省爬蟲爬取時所需的帶寬資源和服務器資源。聚焦網絡爬蟲主要應用在對特定信息的爬取中,主要為某一類特定的人群提供服務。
3、增量Web爬蟲
增量式網絡爬蟲,在爬取網頁的時候,只爬取內容發生變化的網頁或者新產生的網頁,對于未發生內容變化的網頁,則不會爬取。增量式網絡爬蟲在一定程度上能夠保證所爬取的頁面,盡可能是新頁面。
4、深層網絡爬蟲
在互聯網中,網頁按存在方式分類,可以分為表層頁面和深層頁面。所謂的表層頁面,指的是不需要提交表單,使用靜態的鏈接就能夠到達的靜態頁面;而深層頁面則隱藏在表單后面,不能通過靜態鏈接直接獲取,是需要提交一定的關鍵詞之后才能夠獲取得到的頁面。在互聯網中,深層頁面的數量往往比表層頁面的數量要多很多,故而,我們需要想辦法爬取深層頁面。
-
網絡爬蟲
+關注
關注
1文章
52瀏覽量
8718 -
爬蟲
+關注
關注
0文章
82瀏覽量
7006
發布評論請先 登錄
相關推薦
評論