版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第8章大數(shù)據(jù)釆集習(xí)題8.1選擇題數(shù)據(jù)采集的數(shù)據(jù)對(duì)象類(lèi)型包括(D)。A.結(jié)構(gòu)化數(shù)據(jù) B.半結(jié)構(gòu)化數(shù)據(jù) C.非結(jié)構(gòu)化數(shù)據(jù)D,以上都是3、4、5、8、數(shù)據(jù)采集的主要性能要求不包括以下的(B)。A.全面性 B.安全性 C.多維性大數(shù)據(jù)釆集相對(duì)于傳統(tǒng)數(shù)據(jù)釆集的優(yōu)勢(shì)不包括(C)。A.數(shù)據(jù)源廣泛B.安全性 C.速度有限大數(shù)據(jù)采集和傳統(tǒng)數(shù)據(jù)采集的區(qū)別可以從下面的(B)看出。①數(shù)據(jù)源 ②數(shù)據(jù)量 ③數(shù)據(jù)類(lèi)型④數(shù)據(jù)產(chǎn)生速度A.①②③B.①②③Q)⑤D.高效性D.數(shù)據(jù)類(lèi)型豐富⑤數(shù)據(jù)存儲(chǔ)D.②③④⑤下面不屬于Scrapy的組件的是(A)A.傳感器 B.引擎C.下載器D.Spider下面選項(xiàng)屬于典型的網(wǎng)絡(luò)數(shù)據(jù)釆集工具的是(A)。A.Scrapy B.Fluentd目前傳感器的主要組件不包括(D)A.敏感元件B.轉(zhuǎn)換元件下面不屬于典型日志系統(tǒng)的是(D)A.Fluentd B.LogstashNutch的主要特點(diǎn)不包括(C)。A.伸縮性強(qiáng)B,可靠性高C.LogstashD.FlumeC.信號(hào)調(diào)理轉(zhuǎn)換電路D.二極管C.ScribeD.NutchC.安全性強(qiáng)D.速度快10、定向數(shù)據(jù)釆集特別重視(A)。A.頁(yè)面與主題的相關(guān)度B,鏈接的安全性C.系統(tǒng)的運(yùn)行時(shí)間D,數(shù)據(jù)量的大小8.2填空題1、數(shù)據(jù)采集的對(duì)象類(lèi)型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、(非結(jié)構(gòu)化數(shù)據(jù))。2、數(shù)據(jù)釆集三個(gè)基本的性能要求:全面性、多維性)、高效性。3、傳感器一般由敏感元件、(轉(zhuǎn)換原件 )、信號(hào)調(diào)理轉(zhuǎn)換電路組成,有時(shí)還需外加輔助電源來(lái)提供轉(zhuǎn)換能量。4、 分布式釆集系統(tǒng)的主要特點(diǎn)包括(伸縮性強(qiáng))、可靠性高、速度快。5、 分布式數(shù)據(jù)釆集系統(tǒng)常常采用(主從式)和對(duì)等式這兩種架構(gòu)。8.3簡(jiǎn)答題1、 請(qǐng)簡(jiǎn)述網(wǎng)絡(luò)爬蟲(chóng)的基本原理。答:網(wǎng)絡(luò)爬蟲(chóng)又稱(chēng)為網(wǎng)纟各蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則自動(dòng)地抓取Web數(shù)據(jù)的程序或者腳本。網(wǎng)絡(luò)爬蟲(chóng)會(huì)從一個(gè)或若干初始頁(yè)面的統(tǒng)一資源定位器開(kāi)始,獲得初始頁(yè)面上的數(shù)據(jù),并且在抓取頁(yè)面數(shù)據(jù)的過(guò)程中,不斷從當(dāng)前頁(yè)面中抽取新的URL并放入U(xiǎn)RL隊(duì)列,直到滿(mǎn)足設(shè)置的停止條件為止。2、 請(qǐng)簡(jiǎn)述系統(tǒng)日志的概念及作用。答:系統(tǒng)日志用于在時(shí)間上連續(xù)地記錄由系統(tǒng)指定的對(duì)象的動(dòng)作及動(dòng)作結(jié)果。系統(tǒng)日志可以記錄系統(tǒng)進(jìn)程和設(shè)備驅(qū)動(dòng)程序的活動(dòng),包括系統(tǒng)服務(wù)的開(kāi)啟、關(guān)閉、暫停等狀態(tài),以及設(shè)備驅(qū)動(dòng)程序啟動(dòng)、自檢、故障等情況。操作系統(tǒng)、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)系統(tǒng)等平臺(tái)每天都會(huì)產(chǎn)生大量的系統(tǒng)日志,收集、存儲(chǔ)、處理和管理這些系統(tǒng)日志需要特定的日志系統(tǒng)。3、 請(qǐng)描述分布式數(shù)據(jù)釆集系統(tǒng)的兩種典型架構(gòu)。答:對(duì)于主從式架構(gòu)而言,由一臺(tái)專(zhuān)門(mén)的主服務(wù)器來(lái)維護(hù)待抓取的URL隊(duì)列,該服務(wù)器負(fù)責(zé)將URL分發(fā)到不同的工作服務(wù)器,而工作服務(wù)器則負(fù)責(zé)頁(yè)面下載的工作。主服務(wù)器除了維護(hù)待抓取的URL隊(duì)列以及分發(fā)URL,還要負(fù)責(zé)調(diào)節(jié)各個(gè)工作服務(wù)器的負(fù)載情況。基于主從式架構(gòu)的分布式數(shù)據(jù)采集系統(tǒng)的優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,容易管理和配置;其缺點(diǎn)是主服務(wù)器容易成為系統(tǒng)性能的瓶頸,特別是當(dāng)工作服務(wù)器數(shù)量過(guò)于龐大時(shí)。?基于對(duì)等式架構(gòu)的分布式數(shù)據(jù)釆集系統(tǒng)沒(méi)有主服務(wù)器,所有的抓取服務(wù)器在分工上沒(méi)有區(qū)別,分別負(fù)責(zé)不同部分的網(wǎng)絡(luò)數(shù)據(jù)的抓取。每一臺(tái)抓取服務(wù)器都可以從待抓取的URL隊(duì)列中利用Hash等方式獲取需要負(fù)責(zé)抓取的部分URL,然后并行抓取。8.4解答題1、在大數(shù)據(jù)時(shí)代,數(shù)據(jù)釆集的工具多種多樣。網(wǎng)絡(luò)爬蟲(chóng)是一種按照一定的規(guī)則自動(dòng)地抓取Web數(shù)據(jù)的程序或者腳本。請(qǐng)描述網(wǎng)絡(luò)爬蟲(chóng)的工作流程。答:選取一部分種子URL。將這些URL放入待抓取URL隊(duì)列。從待抓取URL隊(duì)列取出待抓取URL,通過(guò)域名解析,得到主機(jī)的IP地址,將URL對(duì)應(yīng)的頁(yè)面下載下來(lái),并存儲(chǔ)到巳下載的頁(yè)面庫(kù)中。將這些URL放入已抓取URL隊(duì)列。分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊(duì)列,進(jìn)入下一輪循環(huán)。2、 Fluentd是Apache2.0協(xié)議許可的開(kāi)源日志數(shù)據(jù)收集器,支持用戶(hù)實(shí)時(shí)地從數(shù)千臺(tái)機(jī)器收集數(shù)據(jù),主要特色包括哪些?答:使用JSON格式統(tǒng)一日志記錄。Fluentd將數(shù)據(jù)結(jié)構(gòu)化為JSON格式,不僅可以更容易地統(tǒng)一處理日志數(shù)據(jù)的收集、過(guò)濾、緩沖和輸出,還可以保留靈活的模式??刹灏渭軜?gòu)。Fluentd擁有靈活的插件系統(tǒng),用戶(hù)可以通過(guò)插件更好地使用日志??刹灏渭軜?gòu),F(xiàn)luentd的眾多插件使其可以兼容數(shù)十種數(shù)據(jù)源和數(shù)據(jù)輸出,插件也很容易編寫(xiě)和部署。節(jié)省資源開(kāi)銷(xiāo)。Fluentd是釆用C語(yǔ)言和Ruby語(yǔ)言編寫(xiě)的,需要較少系統(tǒng)資源,實(shí)例可以運(yùn)行在數(shù)十MB的內(nèi)存上,每個(gè)引擎每秒可以處理數(shù)以萬(wàn)計(jì)的事件?;趦?nèi)存和文件的緩存。Fluentd支持基于內(nèi)存和文件的緩存,可防止數(shù)據(jù)丟失。數(shù)據(jù)源與后端系統(tǒng)分離。Fluentd通過(guò)在數(shù)據(jù)源與后端系統(tǒng)之間提供統(tǒng)一的日志層來(lái)將二者分離。日志層允許開(kāi)發(fā)人員和數(shù)據(jù)分析師使用多種類(lèi)型的日志,可以更好地利用日志數(shù)據(jù)。3、 基于Hadoop平臺(tái)的Nutch能夠?qū)崿F(xiàn)分布式數(shù)據(jù)的采集。請(qǐng)具體描述Nulch的運(yùn)行流程。答:Nutch的工作主要可以分為兩個(gè)環(huán)節(jié):首先釆集相關(guān)的頁(yè)面,然后將釆集的頁(yè)面數(shù)據(jù)存放在本地,并建立索引。建立初始種子鏈接的URL集合,將URL集合存放在文本,然后上傳至HDFSo執(zhí)行Inject的操作,將種子URL集合注入U(xiǎn)RL隊(duì)列。執(zhí)行Generate的操作,通過(guò)URL隊(duì)列生成采集所需的鏈接列表。?執(zhí)行Fetch的操作,根據(jù)鏈接列表的種子鏈接釆集相關(guān)的頁(yè)面內(nèi)容。執(zhí)行Parse的操作,解析釆集到的頁(yè)面數(shù)據(jù),然后生成parsedata和parsetex兩個(gè)文件目錄,分別存放頁(yè)面文本內(nèi)容和頁(yè)面中的超鏈接等信息。執(zhí)行Update的操作,將抽取的新鏈接更新到始種子鏈接隊(duì)列。循環(huán)執(zhí)行步驟3到步驟6,當(dāng)滿(mǎn)足設(shè)定的條件時(shí),結(jié)束數(shù)據(jù)釆集工作。4、 請(qǐng)分析何謂通用數(shù)據(jù)釆集,何謂定向數(shù)據(jù)釆集;請(qǐng)描述定向數(shù)據(jù)釆集算法的典型步驟。答:通用數(shù)據(jù)采集的對(duì)象是從特定的種子鏈接開(kāi)始的,采用廣度搜索的方式,其目標(biāo)是采集互聯(lián)網(wǎng)上的全部頁(yè)面。與通用數(shù)據(jù)釆集相對(duì)的是以聚焦網(wǎng)絡(luò)爬蟲(chóng)為核心的定向數(shù)據(jù)釆集。定向數(shù)據(jù)采集服務(wù)于特定的專(zhuān)業(yè)群體,采集的數(shù)據(jù)只局限于某個(gè)主題或者與其相關(guān)的領(lǐng)域。定向數(shù)據(jù)釆集算法的步驟包括:將初始的種子URL全部放入鏈接隊(duì)列,根據(jù)初始的種子URL進(jìn)行頁(yè)面數(shù)據(jù)的采集,提取錨文本的內(nèi)容、頁(yè)面的標(biāo)題及正文。?對(duì)正文進(jìn)行分詞的操作,計(jì)算關(guān)鍵字的權(quán)重和文本的相關(guān)度。利用文本聚類(lèi)算法將相關(guān)度高文本聚集在一起。根據(jù)聚類(lèi)好的文本,利用樸素貝葉斯算法計(jì)算待抓取的頁(yè)面屬于該主題的概率。?通過(guò)歸類(lèi)完成的與主題相關(guān)的頁(yè)面生成頁(yè)面主題評(píng)價(jià)器,假設(shè)所采集頁(yè)面的數(shù)量小于預(yù)先設(shè)定的最大頁(yè)面數(shù)量,則循環(huán)執(zhí)行以下步驟。從鏈接集合中選出得分最高的鏈接,采集該鏈接對(duì)應(yīng)頁(yè)面的數(shù)據(jù),抽取對(duì)應(yīng)頁(yè)面中的鏈接并插入鏈接隊(duì)列。計(jì)算頁(yè)面的主題相關(guān)度,若大于閾值,則保存所對(duì)應(yīng)的頁(yè)面,否則進(jìn)行父叉和變異操作。?及時(shí)調(diào)整當(dāng)前頁(yè)面得分,重新計(jì)算從當(dāng)前頁(yè)面抽取的鏈接對(duì)應(yīng)頁(yè)面的得分。根據(jù)最新的頁(yè)面得分重排鏈接隊(duì)列中的所有鏈接,把與主題相關(guān)的頁(yè)面放入訓(xùn)練集合中,獲取最新的頁(yè)面主題評(píng)價(jià)器。比較計(jì)算出的相關(guān)度與闕值,大于闕值的鏈接則重新返回步驟1;小于闕值的鏈接則直接舍棄。按照上述的步驟,對(duì)頁(yè)面進(jìn)行定向數(shù)據(jù)采集,直到采集的頁(yè)面數(shù)量大于或等于預(yù)先設(shè)定的最大頁(yè)面數(shù)量為止。大數(shù)據(jù)安全分析05_數(shù)據(jù)采集技術(shù)大數(shù)據(jù)分析中的數(shù)據(jù)采集方式包括Logstash、Flume、Fluentd.Logtail等,本文對(duì)這幾種數(shù)據(jù)采集技術(shù)進(jìn)行簡(jiǎn)要介紹。LogstashLogstash是一個(gè)具備實(shí)時(shí)處理能力的開(kāi)源的數(shù)據(jù)收集引擎??梢詣?dòng)態(tài)地從不同的來(lái)源收集數(shù)據(jù),將數(shù)據(jù)處理(過(guò)濾、變形)過(guò)之后統(tǒng)一輸出到某個(gè)特定地址,為將來(lái)更多樣化的數(shù)據(jù)分析做準(zhǔn)備。Logstash的作用包括:收集各類(lèi)系統(tǒng)日志:如Apache日志、Iog4j(Java程序日志)、Windows系統(tǒng)事件日志。通過(guò)Filebeat能夠?qū)崿F(xiàn)安全、快速的的日志傳輸。能夠與很多釆用UDP及TCP協(xié)議的工具對(duì)接,如JMX、NetFlow等等。Elasticsearch的數(shù)據(jù)采集的利器,可以配合Elasticsearch和Kibana使用;對(duì)input、filter及output部分可以使用多種插件靈活配合部署用以實(shí)現(xiàn)不同功能。在Web接口服務(wù)中,可以收集HTTP請(qǐng)求。能夠與各類(lèi)SQL或非SQL數(shù)據(jù)庫(kù)對(duì)接,只要這個(gè)數(shù)據(jù)庫(kù)支持JDBC接口。FlumeFlume是由Cloudera公司開(kāi)源的,分布式可靠,高可用的系統(tǒng),它能夠?qū)⒉煌瑪?shù)據(jù)源的海量日志數(shù)據(jù)進(jìn)行高效收集、聚合、移動(dòng)、最后存儲(chǔ)到一個(gè)中心化數(shù)據(jù)存儲(chǔ)系統(tǒng)中。由原來(lái)的Flume0G到現(xiàn)在的FlumeNG,進(jìn)行了架構(gòu)重構(gòu),并且現(xiàn)在NG版本完全不兼容原來(lái)的0G版本,經(jīng)過(guò)架構(gòu)重構(gòu)后,F(xiàn)lumeNG更像是一個(gè)輕量級(jí)的小工具,適應(yīng)各種方式的日志收集,并支持failover和負(fù)載均衡。FlumeNG的特點(diǎn):NG只有一種角色的節(jié)點(diǎn):代理節(jié)點(diǎn)(Agent)沒(méi)有collector,master節(jié)點(diǎn),這是核心組件最核心的變化去除了physicalnodesjocalnodes的概念和相關(guān)內(nèi)容agent節(jié)點(diǎn)的組成也發(fā)生了變化,脫離了zookeeperFluentdFluentd是一個(gè)日志收集系統(tǒng),通過(guò)豐富的插件,可以收集來(lái)自于各種系統(tǒng)或應(yīng)用的日志,然后根據(jù)用戶(hù)定義將日志做分類(lèi)處理。通過(guò)Fluentd,你可以非常輕易的實(shí)現(xiàn)像追蹤日志文件并將其過(guò)濾后轉(zhuǎn)存到MongoDB這樣的操作oFluentd可以徹底的將你從繁瑣的日志處理中解放出來(lái)。本質(zhì)上,Fluentd可以分為客戶(hù)端和服務(wù)端兩種模塊??蛻?hù)端為安裝在被采集系統(tǒng)中的程序,用于讀取log文件等信息,并發(fā)送到Fluentd的服務(wù)端。服務(wù)端則是一個(gè)收集器。在Fluentd服務(wù)端,我們可以進(jìn)行相應(yīng)的配置,使其可以對(duì)收集到的數(shù)據(jù)進(jìn)行過(guò)濾和處理,并最終路由到下一跳。下一跳可以是用于存儲(chǔ)的數(shù)據(jù)庫(kù),如MongoDB,AmazonS3,也可以是其他的數(shù)據(jù)處理平臺(tái),比如HadoopoFluentd有四個(gè)關(guān)鍵功能,使其適合構(gòu)建清潔,可靠的日志管道:使用JSON進(jìn)行統(tǒng)一日志記錄:Fluentd嘗試盡可能地將數(shù)據(jù)結(jié)構(gòu)化為JSON:這允許Fluentd統(tǒng)一處理日志數(shù)據(jù)的所有方面:收集,過(guò)濾,緩沖和跨多個(gè)源和目標(biāo)(統(tǒng)一日志層)輸出日志。使用JSON可以更輕松地進(jìn)行下游數(shù)據(jù)處理,因?yàn)樗哂凶銐虻慕Y(jié)構(gòu),可以在保留靈活模式的同時(shí)進(jìn)行訪(fǎng)問(wèn)??刹灏渭軜?gòu):Fluentd擁有靈活的插件系統(tǒng),允許社區(qū)擴(kuò)展其功能。我們的500多個(gè)社區(qū)貢獻(xiàn)插件連接了數(shù)十個(gè)數(shù)據(jù)源和數(shù)據(jù)輸岀。通過(guò)利用插件,您可以立即開(kāi)始更好地使用日志。所需的資源較少:Fluentd是用C語(yǔ)言和Ruby組合編寫(xiě)的,只需要很少的系統(tǒng)資源。vanilla實(shí)例運(yùn)行30-40MB內(nèi)存,可處理13,000個(gè)事件/秒/核心。內(nèi)置可靠性:Fluentd支持基于內(nèi)存和文件的緩沖,以防止節(jié)點(diǎn)間數(shù)據(jù)丟失。Fluentd還支持強(qiáng)大的故障轉(zhuǎn)移功能,可以設(shè)置為高可用性。LogtailLogtail是日志服務(wù)提供的一種便于日志接入的日志釆集客戶(hù)端。通過(guò)在您的機(jī)器上安裝Logtail來(lái)監(jiān)聽(tīng)指定的日志文件并自動(dòng)把新寫(xiě)入到文件的日志上傳到您所指定的日志庫(kù)。Logtail的功能優(yōu)勢(shì)主要包括以下幾個(gè)方面:基于日志文件、無(wú)侵入式的收集日志。用戶(hù)無(wú)需修改應(yīng)用程序代碼,且日志收集不會(huì)影響用戶(hù)應(yīng)用程序的運(yùn)行邏輯。除支持文本日志采集外,還支持binlog、http、容器stdout等采集方式。對(duì)于容器支持友好,支持
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度交通安全員聘用與事故處理合同2篇
- 二零二五年度spa館品牌授權(quán)合作協(xié)議2篇
- 2025版能源領(lǐng)域:反商業(yè)賄賂廉潔能源合作協(xié)議書(shū)3篇
- 2025年甲基丙烯酸甲酯項(xiàng)目合作計(jì)劃書(shū)
- 2024年度專(zhuān)業(yè)護(hù)理月嫂服務(wù)合同范本大全3篇
- 2025年油氣水輸送管材專(zhuān)用料項(xiàng)目合作計(jì)劃書(shū)
- 2025年硫精砂合作協(xié)議書(shū)
- 2024年度招投標(biāo)部門(mén)全面職責(zé)及權(quán)限明確合作協(xié)議3篇
- 2024年餐飲業(yè)股份合作簡(jiǎn)單協(xié)議書(shū)樣本
- 2025版凱悅酒店消防設(shè)施維修保養(yǎng)及檢測(cè)合同6篇
- 期末(試題)-2024-2025學(xué)年人教PEP版英語(yǔ)六年級(jí)上冊(cè)
- 2024年公安基礎(chǔ)知識(shí)考試題庫(kù)及答案
- 三創(chuàng)賽獲獎(jiǎng)-非遺文化創(chuàng)新創(chuàng)業(yè)計(jì)劃書(shū)
- 教你成為歌唱達(dá)人智慧樹(shù)知到期末考試答案2024年
- 2024分娩鎮(zhèn)痛ppt課件完整版
- 少年宮籃球活動(dòng)教案
- 國(guó)有建設(shè)企業(yè)《大宗材料及設(shè)備采購(gòu)招標(biāo)管理辦法》
- 民間秘術(shù)絕招大全
- N摻雜TiO2納米管的合成及光催化性能研究
- 二沉池設(shè)計(jì)說(shuō)明書(shū)
- (完整版)展廳展館博物館美術(shù)館設(shè)計(jì)標(biāo)招標(biāo)評(píng)分細(xì)則及打分表
評(píng)論
0/150
提交評(píng)論