更新時間:2021-01-27 來源:黑馬程序員 瀏覽量:
目前的互聯(lián)網(wǎng)已經(jīng)邁入大數(shù)據(jù)時代,通過對海量的數(shù)據(jù)進行分析,能夠產(chǎn)生極大的商業(yè)價值。如果我們需要大量數(shù)據(jù),有哪些獲取數(shù)據(jù)的方式呢?常用的方式主要有以下幾種。
企業(yè)產(chǎn)生的數(shù)據(jù)企業(yè)在生產(chǎn)運營中會產(chǎn)生與自身業(yè)務(wù)相關(guān)的大量數(shù)據(jù),例如:百度搜索指數(shù)、騰訊公司業(yè)績數(shù)據(jù)、阿里巴巴集團財務(wù)及運營數(shù)據(jù)、新浪微博微指數(shù)等。
大型互聯(lián)網(wǎng)公司擁有海量用戶,有天然的數(shù)據(jù)積累優(yōu)勢,還有一些有數(shù)據(jù)意識的中小型企業(yè),也開始積累自己的數(shù)據(jù)。
數(shù)據(jù)平臺購買的數(shù)據(jù)數(shù)據(jù)平臺是以數(shù)據(jù)交易為主營業(yè)務(wù)的平臺,例如:數(shù)據(jù)堂、國云數(shù)據(jù)市場、貴陽大數(shù)據(jù)交易所等數(shù)據(jù)平臺。
在各個數(shù)據(jù)交易平臺上購買各行各業(yè)各種類型的數(shù)據(jù),根據(jù)數(shù)據(jù)信息、獲取難易程度的不同,價格也會有所不同。
政府/機構(gòu)公開的數(shù)據(jù)政府和機構(gòu)也會發(fā)布一些公開數(shù)據(jù),成為業(yè)內(nèi)權(quán)威信息的來源。例如:中華人民共和國國家統(tǒng)計局?jǐn)?shù)據(jù)、中國人民銀行調(diào)查統(tǒng)計、世界銀行公開數(shù)據(jù)、聯(lián)合國數(shù)據(jù)、納斯達克、新浪財經(jīng)美股實時行情等。
這些數(shù)據(jù)通常都是各地政府統(tǒng)計上報,或者是由行業(yè)內(nèi)專業(yè)的網(wǎng)站、機構(gòu)等提供。
數(shù)據(jù)管理咨詢公司的數(shù)據(jù)數(shù)據(jù)管理咨詢公司為了提供專業(yè)的咨詢服務(wù),會收集和提供與特定業(yè)務(wù)相關(guān)的數(shù)據(jù)做為支撐。這些管理咨詢公司數(shù)量眾多,例如,麥肯錫、埃森哲、尼爾森、艾瑞咨詢等。
通常這樣的公司都有很龐大的數(shù)據(jù)團隊,一般通過市場調(diào)研、問卷調(diào)查、固定的樣本檢測、與各行各業(yè)的其他公司合作、專家對話來獲取數(shù)據(jù),并根據(jù)客戶需求制定商業(yè)解決方案。
如果數(shù)據(jù)市場上沒有需要的數(shù)據(jù),或者價格太高不愿意購買,那么可以利用爬蟲技術(shù),抓取網(wǎng)站上的數(shù)據(jù)。
無論是搜索引擎,還是個人或單位獲取目標(biāo)數(shù)據(jù),都需要從公開網(wǎng)站上爬取大量數(shù)據(jù),在此需求下,爬蟲技術(shù)應(yīng)運而生,并迅速發(fā)展成為一門成熟的技術(shù)。
猜你喜歡:
Python如何截取字符串中的一段字符?【python培訓(xùn)】