更新時間:2021-07-06 來源:黑馬程序員 瀏覽量:
想要了解一個網(wǎng)頁的結(jié)構(gòu),可以直接在瀏覽器的右鍵菜單中點擊“查看源代碼”實現(xiàn)。例如,使用Google Chrome瀏覽器打開百度首頁,在“新聞”選項上面右擊選擇“檢查”,瀏覽器底部打開一個窗口,并顯示選中元素周圍的HTML層次結(jié)構(gòu),如圖1所示。
圖1 百度首頁的HTML層次結(jié)構(gòu)(部分)
圖1中選中的帶有底色的行就是剛剛選擇的“新聞”標(biāo)簽。從圖1中可以清楚地看到,選中的標(biāo)簽< a>位于id屬性值為’u1’的標(biāo)簽< div>中,并且與其它標(biāo)簽< a>屬于并列關(guān)系,只是每個標(biāo)簽內(nèi)部的屬性值不同而已。例如,要提取點擊“新聞”后跳轉(zhuǎn)的網(wǎng)頁,可以獲取href屬性的值。
HTTP請求格式:請求行、請求頭詳細(xì)介紹【爬蟲工程師必會】