首頁(yè)技術(shù)文章正文

什么是網(wǎng)絡(luò)爬蟲(chóng)?網(wǎng)絡(luò)爬蟲(chóng)有什么用途?

更新時(shí)間:2021-05-06 來(lái)源:黑馬程序員 瀏覽量:

1577370495235_學(xué)IT就到黑馬程序員.gif

網(wǎng)絡(luò)爬蟲(chóng),又稱為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動(dòng)請(qǐng)求萬(wàn)維網(wǎng)網(wǎng)站并提取網(wǎng)絡(luò)數(shù)據(jù)的程序或腳本。

如果說(shuō)網(wǎng)絡(luò)像一張網(wǎng),那么爬蟲(chóng)就是網(wǎng)上的一只小蟲(chóng)子,在網(wǎng)上爬行的過(guò)程中遇到了數(shù)據(jù),就把它抓取下來(lái)。

這里的數(shù)據(jù)是指互聯(lián)網(wǎng)上公開(kāi)的并且可以訪問(wèn)到的網(wǎng)頁(yè)信息,而不是網(wǎng)站的后臺(tái)信息(沒(méi)有權(quán)限訪問(wèn)),更不是用戶注冊(cè)的信息(非公開(kāi)的)。

爬蟲(chóng)具體能做些什么呢?接下來(lái),我們通過(guò)一張圖來(lái)總結(jié)網(wǎng)絡(luò)爬蟲(chóng)的常用功能,如圖1所示。

網(wǎng)絡(luò)爬蟲(chóng),網(wǎng)絡(luò)爬蟲(chóng)有哪些用途

圖1 爬蟲(chóng)的常用功能

圖1列舉了一些網(wǎng)絡(luò)爬蟲(chóng)常用的功能。由該圖可知,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)可以代替手工完成很多事情。例如,使用網(wǎng)絡(luò)爬蟲(chóng)搜集金融領(lǐng)域的數(shù)據(jù)資源,將金融經(jīng)濟(jì)的發(fā)展與相關(guān)數(shù)據(jù)進(jìn)行集中處理,能夠?yàn)榻鹑陬I(lǐng)域的各個(gè)方面如經(jīng)濟(jì)發(fā)展趨勢(shì)、金融投資、風(fēng)險(xiǎn)分析等提供“數(shù)據(jù)平臺(tái)”。

或者,瀏覽網(wǎng)頁(yè)上的信息時(shí),會(huì)看到上面有很多廣告信息,十分?jǐn)_人。這時(shí),可以利用網(wǎng)絡(luò)爬蟲(chóng)將網(wǎng)頁(yè)上的信息全部爬取下來(lái),自動(dòng)過(guò)濾掉這些廣告,便于對(duì)信息的閱讀。

再者,我們想從某個(gè)網(wǎng)站中購(gòu)買商品,需要知道諸如暢銷品牌、價(jià)格走勢(shì)等信息。對(duì)于非網(wǎng)站管理員而言,手動(dòng)統(tǒng)計(jì)是個(gè)很大的工程。這時(shí),可以利用網(wǎng)絡(luò)爬蟲(chóng)輕松地采集到這些數(shù)據(jù),以便做出進(jìn)一步的分析。

再比如,你想推銷一些理財(cái)產(chǎn)品,需要找到一些目標(biāo)客戶和他們的聯(lián)系方式。這時(shí),可以利用網(wǎng)絡(luò)爬蟲(chóng)設(shè)置對(duì)應(yīng)的規(guī)則,自動(dòng)從互聯(lián)網(wǎng)中采集到目標(biāo)用戶的聯(lián)系方式等,以進(jìn)行營(yíng)銷使用。

總而言之,從互聯(lián)網(wǎng)中采集信息是一項(xiàng)重要的工作,如果單純地靠人力進(jìn)行信息采集,不僅低效繁瑣,而且花費(fèi)成本高。爬蟲(chóng)的出現(xiàn)在一定的程度上代替了手工訪問(wèn)網(wǎng)頁(yè),能夠?qū)崿F(xiàn)自動(dòng)化采集互聯(lián)網(wǎng)的數(shù)據(jù),以更高地效率去利用互聯(lián)網(wǎng)中的有效信息。





猜你喜歡:

Python爬蟲(chóng)支持的網(wǎng)頁(yè)解析技術(shù)有哪些?

網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)的5種方式【Python爬蟲(chóng)】

三種分布式爬蟲(chóng)策略的優(yōu)缺點(diǎn)    

黑馬程序員Python+大數(shù)據(jù)培訓(xùn)

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!