首先,讓我們回顧一下入門Python爬蟲的四個步驟吧:
而解析數(shù)據(jù),其用途就是在爬蟲過程中將服務(wù)器返回的HTML源代碼轉(zhuǎn)換為我們能讀懂的格式。那么,接下來就正式進入到解析數(shù)據(jù)篇的內(nèi)容啦。
Part 1:了解HTML
HTML(Hyper Text Markup Language)為超文本標(biāo)記語言。簡單來講,就是一種用于構(gòu)建網(wǎng)頁的編程語言。其主要組成部分為網(wǎng)頁頭(《head》元素)與網(wǎng)頁體(《body》元素)。一般情況下,網(wǎng)頁頭部分會定義HTML文檔的編碼以及網(wǎng)頁的標(biāo)題。而網(wǎng)頁體部分則決定著一個網(wǎng)頁中的正文內(nèi)容。
在一個HTML文檔內(nèi),我們可以看到許多被《》括住的內(nèi)容,它們被稱作一個標(biāo)簽。標(biāo)簽通常是成對出現(xiàn)的。比如網(wǎng)頁頭部分的代碼中含有《head》以及《/head》,網(wǎng)頁體部分的代碼中含有《body》以及《/body》。
在了解過HTML的基本信息之后,下一步我們就可以去解析這些數(shù)據(jù)了。
在解析與提取數(shù)據(jù)的過程中,我們會用到一個強大的工具,即BeautifulSoup庫。由于BeautifulSoup不屬于Python標(biāo)準(zhǔn)庫,因此需要單獨進行下載。Mac用戶需打開終端,輸入代碼pip install BeautifulSoup4。Windows用戶需運行CMD,輸入代碼pip install BeautifulSoup4。下載完成后,在編輯器內(nèi)輸入以下代碼即可實現(xiàn)BeautifulSoup庫的調(diào)用。
Part 3:運用BeautifulSoup解析數(shù)據(jù)
具體用法:變量名稱 = BeautifulSoup(需要解析的數(shù)據(jù),‘html.parser’)
備注:1. BeautifulSoup()內(nèi)的第一個參數(shù),即需要解析的數(shù)據(jù),類型必須為字符串,否則運行時系統(tǒng)會報錯。2. ‘html.parser’為Python內(nèi)置庫中的一個解析器。它的運行速度較快,使用方法也比較簡單。但是它并不是唯一的解析器,大家可以使用其它的解析器進行操作,但是具體用法可能會略有不同。
總結(jié):
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7139瀏覽量
89573 -
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
8718 -
python
+關(guān)注
關(guān)注
56文章
4807瀏覽量
85037
發(fā)布評論請先 登錄
相關(guān)推薦
評論