2023學(xué)年完整公開(kāi)課版數(shù)據(jù)采集2_第1頁(yè)
2023學(xué)年完整公開(kāi)課版數(shù)據(jù)采集2_第2頁(yè)
2023學(xué)年完整公開(kāi)課版數(shù)據(jù)采集2_第3頁(yè)
2023學(xué)年完整公開(kāi)課版數(shù)據(jù)采集2_第4頁(yè)
2023學(xué)年完整公開(kāi)課版數(shù)據(jù)采集2_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

金華職業(yè)技術(shù)學(xué)院商務(wù)數(shù)據(jù)分析與應(yīng)用綜合實(shí)訓(xùn)直析主講教師:黃琪雯任務(wù)一數(shù)據(jù)采集

1.1數(shù)據(jù)采集技術(shù)要點(diǎn)1.2數(shù)據(jù)采集工具01020102(1)企業(yè)內(nèi)部數(shù)據(jù)庫(kù)如今的商業(yè)公司都有自己的業(yè)務(wù)數(shù)據(jù)庫(kù),存放公司日常經(jīng)營(yíng)中產(chǎn)生的相關(guān)業(yè)務(wù)數(shù)據(jù),這個(gè)龐大的業(yè)務(wù)數(shù)據(jù)庫(kù)就是企業(yè)最直接的數(shù)據(jù)資源,需要充分地挖掘其中的價(jià)值,高效地利用起來(lái)。(2)公開(kāi)出版物與公開(kāi)數(shù)據(jù)集有許多官方機(jī)構(gòu)發(fā)布的公開(kāi)出版物如《中國(guó)統(tǒng)計(jì)年鑒》《世界經(jīng)濟(jì)年鑒》具有較強(qiáng)的權(quán)威性和完整性。在如今的信息化時(shí)代還有其他的外部公開(kāi)數(shù)據(jù)集,如GoogleDataset,阿里研究院數(shù)據(jù)集,企鵝智庫(kù),百度指數(shù)等等。1.1數(shù)據(jù)采集技術(shù)要點(diǎn)一、數(shù)據(jù)采集來(lái)源0304(3)互聯(lián)網(wǎng)網(wǎng)站隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)世界已經(jīng)發(fā)布并積累了海量的數(shù)據(jù),例如行業(yè)組織網(wǎng)站、政府機(jī)構(gòu)網(wǎng)站、傳播媒體網(wǎng)站、大型綜合門(mén)戶網(wǎng)站等上面都可能有我們需要的數(shù)據(jù),包含了財(cái)經(jīng)、房產(chǎn)、輿情、新媒體等方方面面,借助搜索引擎就可以幫助我們快速找到所需要的數(shù)據(jù)。(4)市場(chǎng)調(diào)研有時(shí)在進(jìn)行數(shù)據(jù)分析時(shí),需要了解用戶的想法與需求,可以嘗試使用市場(chǎng)調(diào)查的方法收集用戶的想法和需求數(shù)據(jù),有目的、有系統(tǒng)地收集、記錄、整理有關(guān)市場(chǎng)營(yíng)銷(xiāo)的信息和資料,分析市場(chǎng)情況,了解市場(chǎng)現(xiàn)狀及其發(fā)展趨勢(shì),為市場(chǎng)預(yù)測(cè)和決策提供客觀、準(zhǔn)確的數(shù)據(jù)資料。1.1數(shù)據(jù)采集技術(shù)要點(diǎn)1.1數(shù)據(jù)采集技術(shù)要點(diǎn)

二、數(shù)據(jù)采集的方式(1)傳感器采集傳感器監(jiān)測(cè)早在工業(yè)時(shí)代的開(kāi)始就廣泛應(yīng)用于數(shù)據(jù)采集的過(guò)程中,如今主要應(yīng)用于發(fā)展得如火如荼的物聯(lián)網(wǎng)(IoT)領(lǐng)域。通過(guò)溫濕度傳感器、氣體傳感器、視頻傳感器等外部硬件設(shè)備與系統(tǒng)進(jìn)行通信,被采集數(shù)據(jù)是已被轉(zhuǎn)換為電訊號(hào)的各種物理量,如溫度、水位、風(fēng)速、壓力等,可以是模擬量,也可以是數(shù)字量。(2)搜索引擎網(wǎng)絡(luò)世界已經(jīng)積累了龐大的數(shù)據(jù)量,隨著人們?cè)诨ヂ?lián)網(wǎng)世界生產(chǎn)實(shí)踐的經(jīng)驗(yàn)不斷豐富,搜索引擎應(yīng)運(yùn)而生。從谷歌到百度、必應(yīng),方便快捷的搜索引擎成為了人們獲取信息的主要途徑,搜索引擎也隨著技術(shù)的發(fā)展能夠滿足人們?nèi)粘J褂玫幕拘枨?。善用各種搜索引擎,可以在繁雜的網(wǎng)絡(luò)世界中搜集到許多有價(jià)值的數(shù)據(jù)。(1)網(wǎng)絡(luò)爬蟲(chóng)隨著網(wǎng)絡(luò)資源的不斷增長(zhǎng),用戶的個(gè)性化、定制化、專業(yè)化的數(shù)據(jù)需求不斷增多,對(duì)于獲取數(shù)據(jù)的體量、精確程度、速度與實(shí)效性都有了更高的要求,搜索引擎已經(jīng)難以完全滿足用戶對(duì)于數(shù)據(jù)采集的需求,網(wǎng)絡(luò)爬蟲(chóng)技術(shù)得到了蓬勃的發(fā)展。網(wǎng)絡(luò)爬蟲(chóng)又稱作網(wǎng)絡(luò)機(jī)器人,它是一種自動(dòng)化程序,向網(wǎng)站或網(wǎng)絡(luò)發(fā)起請(qǐng)求,得到響應(yīng)后獲取資源內(nèi)容,并且進(jìn)行解析,進(jìn)而提取出目標(biāo)數(shù)據(jù)進(jìn)行保存。(2)API接口API,英文全稱ApplicationProgrammingInterface,即“應(yīng)用程序編程接口”。API是一些預(yù)先定義的函數(shù),最初目的是提供應(yīng)用程序與開(kāi)發(fā)人員在內(nèi)部進(jìn)行數(shù)據(jù)交互的功能,如今互聯(lián)網(wǎng)中有許多開(kāi)放的API,以URL的形式呈現(xiàn),可以直接訪問(wèn)獲得某些網(wǎng)站和平臺(tái)的數(shù)據(jù)。1.1數(shù)據(jù)采集技術(shù)要點(diǎn)

1.2數(shù)據(jù)采集工具

一、云爬蟲(chóng)平臺(tái)云爬蟲(chóng)就是無(wú)需下載安裝軟件,直接在網(wǎng)頁(yè)上創(chuàng)建爬蟲(chóng)并在網(wǎng)站服務(wù)器運(yùn)行,享用網(wǎng)站提供的帶寬和24小時(shí)服務(wù)。目前國(guó)內(nèi)有以下幾個(gè)主流的云爬蟲(chóng)平臺(tái):1.神箭手云爬蟲(chóng)神箭手云爬蟲(chóng)是一個(gè)大數(shù)據(jù)應(yīng)用開(kāi)發(fā)平臺(tái),為開(kāi)發(fā)者提供成套的數(shù)據(jù)采集、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)開(kāi)發(fā)工具,為企業(yè)提供專業(yè)化的數(shù)據(jù)抓取、數(shù)據(jù)實(shí)時(shí)監(jiān)控和數(shù)據(jù)分析服務(wù)。功能強(qiáng)大,涉及云爬蟲(chóng)、API、機(jī)器學(xué)習(xí)、數(shù)據(jù)清洗、數(shù)據(jù)出售、數(shù)據(jù)訂制和私有化部署等。2.八爪魚(yú)云爬蟲(chóng)八爪魚(yú)數(shù)據(jù)采集系統(tǒng)以完全自主研發(fā)的分布式云計(jì)算平臺(tái)為核心,可以在很短的時(shí)間內(nèi),輕松從各種不同的網(wǎng)站或者網(wǎng)頁(yè)獲取大量的規(guī)范化數(shù)據(jù),幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶實(shí)現(xiàn)數(shù)據(jù)自動(dòng)化采集,編輯,規(guī)范化,擺脫對(duì)人工搜索及收集數(shù)據(jù)的依賴,從而降低獲取信息的成本,提高效率。采集任務(wù)自動(dòng)分配到云端多臺(tái)服務(wù)器同時(shí)執(zhí)行,提高采集效率,可以很短的時(shí)間內(nèi)獲取成千上萬(wàn)條信息。1.2數(shù)據(jù)采集工具

GooSeeker的優(yōu)點(diǎn)在于其通用性,對(duì)于簡(jiǎn)單網(wǎng)站,其定義好規(guī)則,獲取xslt文件后,爬蟲(chóng)代碼幾乎不需要修改,可結(jié)合scrapy使用,提高爬取速度。用鼠標(biāo)點(diǎn)選就能采集數(shù)據(jù),不需要技術(shù)基礎(chǔ)。爬蟲(chóng)群并發(fā)抓取海量網(wǎng)頁(yè),適合大數(shù)據(jù)場(chǎng)景。無(wú)論動(dòng)態(tài)或靜態(tài)網(wǎng)頁(yè),ajax和html都可以采集,文本和圖片一站采集,無(wú)需單獨(dú)使用圖片采集工具。3.集搜客GooSeeker01MarketsEXISITNGNEWEXISITNG(1)火車(chē)頭采集器火車(chē)頭是國(guó)內(nèi)發(fā)展較早的網(wǎng)頁(yè)數(shù)據(jù)采集器,是目前使用人數(shù)最多的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘本地采集器。它的優(yōu)勢(shì)是采集不限網(wǎng)頁(yè),不限內(nèi)容,同時(shí)還是分布式采集,效率較高。缺點(diǎn)是對(duì)普通用戶不是很友好,有一定的知識(shí)門(mén)檻(了解如網(wǎng)頁(yè)相關(guān)知識(shí)、HTTP協(xié)議等方面知識(shí)),而且熟悉工具操作有一定的學(xué)習(xí)成本。(2)后裔采集器后羿采集器是由前谷歌搜索技術(shù)團(tuán)隊(duì)基于人工智能技術(shù)研發(fā)的新一代網(wǎng)頁(yè)采集軟件,使用了機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等方式進(jìn)行智能化采集,采用本地自動(dòng)化采集的方式,支持對(duì)數(shù)據(jù)進(jìn)行清洗、過(guò)濾等,同時(shí)支持Windows、Mac和Linux全操作系統(tǒng),支持智能采集以及流程圖采集兩種模式,90%多的網(wǎng)頁(yè)數(shù)據(jù)都可采集到,功能十分完備。1.2數(shù)據(jù)采集工具02二、本地采集器1.2數(shù)據(jù)采集工具

使用基于第三方平臺(tái)的工具,雖然具有便捷易用的特點(diǎn),然而作為單一的工具平臺(tái),當(dāng)系統(tǒng)的功能需要靈活擴(kuò)展、性能需要提高時(shí),第三方平臺(tái)的效率仍然不如編程開(kāi)發(fā),因此,作為數(shù)據(jù)分析相關(guān)專業(yè)的學(xué)生,掌握一定的網(wǎng)絡(luò)爬蟲(chóng)編程開(kāi)發(fā)能力,是必不可少的,需要掌握Python等編程語(yǔ)言及其環(huán)境配置,軟件使用等等。網(wǎng)絡(luò)爬蟲(chóng)的基本工作流程與人為使用瀏覽器的工作原理相似,包括了對(duì)請(qǐng)求Request和響應(yīng)Response的處理。打開(kāi)一個(gè)網(wǎng)頁(yè)時(shí),都將目標(biāo)URL、請(qǐng)求頭信息、Cookies緩存信息等包裝成為Request請(qǐng)求,發(fā)送到對(duì)應(yīng)的IP地址,網(wǎng)頁(yè)服務(wù)端接收并處理后,網(wǎng)絡(luò)爬蟲(chóng)根據(jù)收到的Response響應(yīng),自動(dòng)對(duì)響應(yīng)狀態(tài)以及數(shù)據(jù)進(jìn)行解析,不同之處在于瀏覽器將解析的結(jié)果臨時(shí)顯示在頁(yè)面上,而爬蟲(chóng)則通常將結(jié)果進(jìn)行數(shù)據(jù)庫(kù)存儲(chǔ)等持久化保存。網(wǎng)絡(luò)爬蟲(chóng)通常有著定制化的工作流程,從而保證能夠持續(xù)穩(wěn)定地獲取數(shù)據(jù),一個(gè)大型的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)需要多個(gè)模塊協(xié)同工作。三、網(wǎng)絡(luò)爬蟲(chóng)編程1.2數(shù)據(jù)采集工具

1.配置模塊。此功能模塊主要用于保存用戶對(duì)于爬蟲(chóng)系統(tǒng)進(jìn)行的配置,例如隨機(jī)抓取的時(shí)間間隔,任務(wù)同時(shí)開(kāi)啟的最大線程數(shù)量等。2.URL隊(duì)列模塊。此功能模塊主要對(duì)需要下載和已經(jīng)下載過(guò)的URL進(jìn)行識(shí)別,排除已經(jīng)抓取過(guò)的頁(yè)面,維護(hù)一個(gè)URL隊(duì)列對(duì)任務(wù)順序進(jìn)行調(diào)度。3.網(wǎng)頁(yè)下載模塊。此功能模塊的主要任務(wù)就是抓取網(wǎng)頁(yè),根據(jù)URL查詢DNS服務(wù)器,再訪問(wèn)對(duì)應(yīng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論