數(shù)據(jù)采集與預(yù)處理培訓(xùn)課件_第1頁
數(shù)據(jù)采集與預(yù)處理培訓(xùn)課件_第2頁
數(shù)據(jù)采集與預(yù)處理培訓(xùn)課件_第3頁
數(shù)據(jù)采集與預(yù)處理培訓(xùn)課件_第4頁
數(shù)據(jù)采集與預(yù)處理培訓(xùn)課件_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)劉鵬主編張燕張重生張志立副主編BIGDATA全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)劉鵬教授,清華大學(xué)博士?,F(xiàn)任南京大數(shù)據(jù)研究院院長、中國信息協(xié)會大數(shù)據(jù)分會副會長、中國大數(shù)據(jù)技術(shù)與應(yīng)用聯(lián)盟副理事長。主持完成科研項(xiàng)目25項(xiàng),發(fā)表論文80余篇,出版專業(yè)書籍15本。獲部級科技進(jìn)步二等獎(jiǎng)4項(xiàng)、三等獎(jiǎng)4項(xiàng)。主編的《云計(jì)算》被全國高校普遍采用,被引用量排名中國計(jì)算機(jī)圖書第一名。創(chuàng)辦了知名的中國云計(jì)算()和中國大數(shù)據(jù)()網(wǎng)站。曾率隊(duì)奪得2002PennySort國際計(jì)算機(jī)排序比賽冠軍,兩次奪得全國高??萍急荣愖罡擢?jiǎng),并三次奪得清華大學(xué)科技比賽最高獎(jiǎng)。榮獲“全軍十大學(xué)習(xí)成才標(biāo)兵”(排名第一)、南京“十大杰出青年”、江蘇省中青年科學(xué)技術(shù)帶頭人、清華大學(xué)“學(xué)術(shù)新秀”等稱號。劉鵬教授,清華大學(xué)博士。現(xiàn)任南京大數(shù)據(jù)研究院第二章數(shù)據(jù)采集與預(yù)處理2.1

2.2數(shù)據(jù)預(yù)處理原理2.3數(shù)據(jù)倉庫與ETL工具習(xí)題全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)采集架構(gòu)of423第二章數(shù)據(jù)采集與預(yù)處理2.12.2數(shù)據(jù)預(yù)處理原理2.32.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理如今,社會中各個(gè)機(jī)構(gòu)、部門、公司、團(tuán)體等正在實(shí)時(shí)不斷地產(chǎn)生大量的信息,這些信息需要以簡單的方式進(jìn)行處理,同時(shí)又要十分準(zhǔn)確且能迅速滿足各種類型的數(shù)據(jù)(信息)需求者。這給我們帶來了許多挑戰(zhàn),第一個(gè)挑戰(zhàn)就是在大量的數(shù)據(jù)中收集需要的數(shù)據(jù),下面介紹常用的大數(shù)據(jù)采集工具。of4242.1.1概述2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理如今,社會中各個(gè)2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理FlumeChukwaScribleKafka大數(shù)據(jù)采集工具of4252.1.2常用大數(shù)據(jù)采集工具數(shù)據(jù)采集最傳統(tǒng)的方式是企業(yè)自己的生產(chǎn)系統(tǒng)產(chǎn)生的數(shù)據(jù),除上述生產(chǎn)系統(tǒng)中的數(shù)據(jù)外,企業(yè)的信息系統(tǒng)還充斥著大量的用戶行為數(shù)據(jù)、日志式的活動(dòng)數(shù)據(jù)、事件信息等,越來越多的企業(yè)通過架設(shè)日志采集系統(tǒng)來保存這些數(shù)據(jù),希望通過這些數(shù)據(jù)獲取其商業(yè)或社會價(jià)值。2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理FlumeChu2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of426在Flume中,外部輸入稱為Source(源),系統(tǒng)輸出稱為Sink(接收端)。Channel(通道)把Source和Sink鏈接在一起。ApacheChukwa項(xiàng)目與Flume有些相類似,Chukwa繼承了Hadoop的伸縮性和魯棒性。也內(nèi)置一個(gè)功能強(qiáng)大的工具箱,用于顯示系統(tǒng)監(jiān)控和分析結(jié)果?;ヂ?lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)爬蟲也是許多企業(yè)獲取數(shù)據(jù)的一種方式。Nutch就是網(wǎng)絡(luò)爬蟲中的嬌嬌者,Nutch是Apache旗下的開源項(xiàng)目,存在已經(jīng)超過10年,擁有大量的忠實(shí)用戶。Flume體系架構(gòu)2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of426在Fl2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4272.1.3ApacheKafka數(shù)據(jù)采集ApacheKafka被設(shè)計(jì)成能夠高效地處理大量實(shí)時(shí)數(shù)據(jù),其特點(diǎn)是快速的、可擴(kuò)展的、分布式的,分區(qū)的和可復(fù)制的。Kafka是用Scala語言編寫的,雖然置身于Java陣營,但其并不遵循JMS規(guī)范。Topics(話題):消息的分類名。Producers(消息發(fā)布者):能夠發(fā)布消息到Topics的進(jìn)程。Consumers(消息接收者):可以從Topics接收消息的進(jìn)程。Broker(代理):組成Kafka集群的單個(gè)節(jié)點(diǎn)?;綤afka集群的工作流程2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4272.12.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4281、TopicsTopics是消息的分類名(或Feed的名稱)。Kafka集群或Broker為每一個(gè)Topic都會維護(hù)一個(gè)分區(qū)日志。每一個(gè)分區(qū)日志是有序的消息序列,消息是連續(xù)追加到分區(qū)日志上,并且這些消息是不可更改的。2、日志區(qū)分一個(gè)Topic可以有多個(gè)分區(qū),這些分區(qū)可以作為并行處理的單元,從而使Kafka有能力高效地處理大量數(shù)據(jù)。Topics與日志分析2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4281、2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4293、ProducersProducers是向它們選擇的主題發(fā)布數(shù)據(jù)。生產(chǎn)者可以選擇分配某個(gè)主題到哪個(gè)分區(qū)上。這可以通過使用循環(huán)的方式或通過任何其他的語義分函數(shù)來實(shí)現(xiàn)。4、ConsumersKafka提供一種單獨(dú)的消費(fèi)者抽象,此抽象具有兩種模式的特征消費(fèi)組:Queuing和Publish-Subscribe。5、ApacheKafka的安裝及使用因?yàn)镵afka是處理網(wǎng)絡(luò)上請求,所以,應(yīng)該為其創(chuàng)建一個(gè)專用的用戶,這將便于對Kafka相關(guān)服務(wù)的管理,減少對服務(wù)器上其他服務(wù)的影響。2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4293、2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4210使用useradd命令來創(chuàng)建一個(gè)Kafka用戶:

$sudouseraddkafka–m使用passwd命令來設(shè)置其密碼:$sudopasswdkafaka接下來把kafaka用戶添加到sudo管理組,以便kafaka用戶具有安裝ApacheKafka依賴庫的權(quán)限。這里使用adduser命令來進(jìn)行添加:$sudoadduserkafkasudo這時(shí)就可以使用kafka賬戶了。切換用戶可以使用su命令:$su-kafka在ApacheKafka安裝所依賴的軟件包前,最好更新一下apt管理程序的軟件列表:$sudoapt-getupdateApacheKafka需要Java運(yùn)行環(huán)境,這里使用apt-get命令安裝default-jre包,然后安裝Java運(yùn)行環(huán)境:$sudoapt-getinstalldefault-jre通過下面的命令測試一下Java運(yùn)行環(huán)境是否安裝成功,并查看Java的版本信息:$java-version2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4210使用2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4211機(jī)器有如下顯示:2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4211機(jī)器2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42122.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42122.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42132.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42132.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42142.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42142.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42156、使用Java來編寫Kafka的實(shí)例首先,編寫KafkaPperties文件:zk.connect=localhost:2181broker.list=localhost:9092serializer.class=kafka.serializer.StringEncoderrequest.required.acks=1下面的代碼是使用Java編寫了一個(gè)Kafka消息發(fā)布者:importducer.Producer;importducer.KeyedMessage;importducer.ProducerConfig;publicclassMyKafkaProducer{privateProducer<String,String>producer;privatefinalStringtopic;publicMyKafkaProducer(Stringtopic)throwsException{InputStreamin=Properties.class.getResourceAsStream("KafkaPperties");Propertiesprops=newProperties();props.load(in);ProducerConfigconfig=newProducerConfig(props);producer=newProducer<String,String>(config);}publicvoidsendMessage(Stringmsg){KeyedMessage<String,String>data=newKeyedMessage<String,String>(topic,msg);producer.send(data);producer.close();}publicstaticvoidmain(String[]args)throwsException{MyKafkaProducerproducer=newMyKafkaProducer("HelloTopic");Stringmsg="HelloKafka!";producer.sendMessage(msg);}}2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42156、2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4216下面創(chuàng)建Comsumer,首先編寫KafkaProperties文件:zk.connect=localhost:2181group.id=testgroupzookeeper.session.timeout.ms=500zookeeper.sync.time.ms=250erval.ms=1000上述參數(shù)配置,十分容易理解,具體的詳細(xì)說明,可以參考Kafka的官方文檔。下面的代碼是使用Java編寫了一個(gè)Kafka的Comsumer。importjava.io.InputStream;importjava.util.HashMap;importjava.util.List;importjava.util.Map;importjava.util.Properties;importkafka.consumer.ConsumerConfig;importkafka.consumer.ConsumerIterator;importkafka.consumer.KafkaStream;importkafka.javaapi.consumer.ConsumerConnector;importkafka.consumer.Consumer;

publicclassMyKafkaConsumer{privatefinalConsumerConnectorconsumer;privatefinalStringtopic;publicMyKafkaConsumer(Stringtopic)throwsException{InputStreamin=Properties.class.getResourceAsStream("KafkaPperties");Propertiesprops=newProperties();props.load(in);ConsumerConfigconfig=newConsumerConfig(props);consumer=Consumer.createJavaConsumerConnector(config);this.topic=topic;}publicvoidconsumeMessage(){Map<String,String>topicMap=newHashMap<String,String>();topicMap.put(topic,newInteger(1));Map<String,List<KafkaStream<byte[],byte[]>>>consumerStreamsMap=consumer.createMessageStreams(topicMap);List<KafkaStream<byte[],byte[]>>streamList=consumerStreamsMap.get(topic);for(finalKafkaStream<byte[],byte[]>stream:streamList){ConsumerIterator<byte[],byte[]>consumerIte=stream.iterator();while(consumerIte.hasNext())System.out.println("message::"+newString(consumerIte.next().message()));}if(consumer!=null)consumer.shutdown();}publicstaticvoidmain(String[]args)throwsException{StringgroupId="testgroup";Stringtopic="HelloTopic";MyKafkaConsumerconsumer=newMyKafkaConsumer(topic);consumer.consumeMessage();}}2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4216下面第二章數(shù)據(jù)采集與預(yù)處理2.1

2.2數(shù)據(jù)預(yù)處理原理2.3數(shù)據(jù)倉庫與ETL工具習(xí)題全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)采集架構(gòu)of4217第二章數(shù)據(jù)采集與預(yù)處理2.12.2數(shù)據(jù)預(yù)處理原理2.32.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理通過數(shù)據(jù)預(yù)處理工作,可以使殘缺的數(shù)據(jù)完整,并將錯(cuò)誤的數(shù)據(jù)糾正、多余的數(shù)據(jù)去除,進(jìn)而將所需的數(shù)據(jù)挑選出來,并且進(jìn)行數(shù)據(jù)集成。數(shù)據(jù)預(yù)處理的常見方法有數(shù)據(jù)清洗、數(shù)據(jù)集成與數(shù)據(jù)變換。of42182.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理通過數(shù)據(jù)預(yù)處理工2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理填

充缺

失值數(shù)據(jù)屬性分為數(shù)值屬性和非數(shù)值屬性進(jìn)行處理,通過利用已存數(shù)據(jù)的多數(shù)信息來推測缺失值數(shù)據(jù)屬性分為數(shù)值屬性和非數(shù)值屬性進(jìn)行處理,通過利用已存數(shù)據(jù)的多數(shù)信息來推測缺失值大量采用同一屬性值,可能會誤導(dǎo)挖掘程序得出有偏差甚至錯(cuò)誤的結(jié)論數(shù)據(jù)偏離的問題小,但該方法十分費(fèi)時(shí),不具備實(shí)際的可操作性通常當(dāng)在缺少類標(biāo)號時(shí),通過這樣的方法來填補(bǔ)缺失值利用均值替換缺失值忽略元組人工填寫缺失值使用一個(gè)全局常量填充缺失值用屬性的均值填充缺失值用同類樣本的屬性均值填充缺失值使用最可能的值填充缺失值of42192.2.1數(shù)據(jù)清洗2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理填充缺失值數(shù)2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4220分箱方法通過考察某一數(shù)據(jù)周圍數(shù)據(jù)的值,即“近鄰”來光滑有序數(shù)據(jù)的值。分箱01回歸02光滑數(shù)據(jù)可以通過一個(gè)函數(shù)擬合數(shù)據(jù)來實(shí)現(xiàn)。線性回歸的目標(biāo)就是查找擬合兩個(gè)屬性的“最佳”線,使得其中一個(gè)屬性可以用于預(yù)測出另一個(gè)屬性。聚類03離群點(diǎn)可通過聚類進(jìn)行檢測,將類似的值組織成群或簇,離群點(diǎn)即為落在簇集合之外的值。許多數(shù)據(jù)光滑的方法也是涉及離散化的數(shù)據(jù)歸約方法。噪聲是被測量的變量的隨機(jī)誤差或方差。給定一個(gè)數(shù)值屬性,如何才能使數(shù)據(jù)“光滑”,去掉噪聲?下面給出數(shù)據(jù)光滑技術(shù)的具體內(nèi)容。2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4220分箱2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4221數(shù)據(jù)清洗可以視為一個(gè)過程,包括檢測偏差與糾正偏差兩個(gè)步驟:2糾正偏差1檢查偏差可以使用已有的關(guān)于數(shù)據(jù)性質(zhì)的知識發(fā)現(xiàn)噪聲、離群點(diǎn)和需要考察的不尋常的值。這種知識或“關(guān)于數(shù)據(jù)的數(shù)據(jù)”稱為元數(shù)據(jù)。即一旦發(fā)現(xiàn)偏差,通常需要定義并使用一系列的變換來糾正它們。但這些工具只支持有限的變換,因此,常??赡苄枰獮閿?shù)據(jù)清洗過程的這一步編寫定制的程序。2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4221數(shù)據(jù)2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理(1)模式集成和對象匹配問題(2)冗余問題(3)元組重復(fù)(4)數(shù)據(jù)值沖突的檢測與處理問題數(shù)據(jù)挖掘經(jīng)常需要數(shù)據(jù)集成合并來自多個(gè)數(shù)據(jù)存儲的數(shù)據(jù)。數(shù)據(jù)還可能需要變換成適于挖掘的形式。數(shù)據(jù)分析任務(wù)多半涉及數(shù)據(jù)集成。問題of42222.2.2數(shù)據(jù)集成2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理(1)模式集成和2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理1、光滑。去除數(shù)據(jù)中的噪聲2、聚集。對數(shù)據(jù)進(jìn)行匯總或聚集。3、

數(shù)據(jù)泛化。使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù)4、規(guī)范化。將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間5、屬性構(gòu)造??梢詷?gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程of42232.2.3數(shù)據(jù)變換數(shù)據(jù)變換的目的是將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式。數(shù)據(jù)變換主要涉及以下內(nèi)容:2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理1、光滑。去除第二章數(shù)據(jù)采集與預(yù)處理2.1

2.2數(shù)據(jù)預(yù)處理原理2.3數(shù)據(jù)倉庫與ETL工具習(xí)題全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)采集架構(gòu)of4224第二章數(shù)據(jù)采集與預(yù)處理2.12.2數(shù)據(jù)預(yù)處理原理2.32.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務(wù)數(shù)據(jù)源,這些數(shù)據(jù)源可能處于不同硬件平臺上,使用不同的操作系統(tǒng),數(shù)據(jù)模型也相差很遠(yuǎn)。如何獲取并向數(shù)據(jù)倉庫加載這些數(shù)據(jù)量大、種類多的數(shù)據(jù),已成為建立數(shù)據(jù)倉庫所面臨的一個(gè)關(guān)鍵問題。of42252.3.1數(shù)據(jù)倉庫與ETL工具數(shù)據(jù)倉庫,是在企業(yè)管理和決策中面向主題的、集成的、隨時(shí)間變化的、非易失性數(shù)據(jù)的集合。2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理of422.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理如何獲取并向數(shù)據(jù)倉庫加載數(shù)據(jù)量大、種類多的數(shù)據(jù),一般要使用專業(yè)的數(shù)據(jù)抽取、轉(zhuǎn)換和裝載工具,這些工具合并起來被稱為ETL(Extract-Transform-Load)。InformaticaPowerCenter常用ETL工具IBMDatastageWarehouseBuilder(OWB)OracleDataIntegrator(ODI)MicrosoftSQLServerIntegrationServices開源Kettleof42262.3.2常用ETL工具2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理如何獲取2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理of4227PowerCenterIBMDatastageKettleInformatica的PowerCenter是一個(gè)可擴(kuò)展、高性能企業(yè)數(shù)據(jù)集成平臺,應(yīng)用于各種數(shù)據(jù)集成流程,通過該平臺可實(shí)現(xiàn)自動(dòng)化、重復(fù)使用及靈活性IBMInfoSphereDataStage是一款功能強(qiáng)大的ETL工具,是IBM數(shù)據(jù)集成平臺IBMInformationServer的一部分,是專門的數(shù)據(jù)提取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)布的工具。Kettle是Pentaho中的ETL工具,Pentaho是一套開源BI解決方案。Kettle是一款國外優(yōu)秀的開源ETL工具,由純Java編寫,可以在Windows、Linux、UNIX上運(yùn)行,無須安裝,數(shù)據(jù)抽取高效穩(wěn)定。2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理of422.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理of422801(1)Chef可使用戶創(chuàng)建任務(wù)(Job)。它是提供圖形用戶界面的工作設(shè)計(jì)工具。02(2)Kitchen可使用戶批量使用由Chef設(shè)計(jì)的任務(wù),一般在自動(dòng)調(diào)度時(shí)借助此命令調(diào)用調(diào)試成功的任務(wù)。它是一個(gè)后臺運(yùn)行的程序,以命令行方式,沒有圖形用戶界面。03(3)Spoon

可使用戶通過圖形界面來設(shè)計(jì)ETL轉(zhuǎn)換過程,一般在編寫和調(diào)試ETL時(shí)用到。04(4)Span可使用戶批量運(yùn)行由Spoon設(shè)計(jì)的ETL轉(zhuǎn)換,Span是一個(gè)后臺執(zhí)行的程序,以命令行方式,沒有圖形界面,一般在自動(dòng)調(diào)度時(shí)借助此命令調(diào)用調(diào)試成功的轉(zhuǎn)換。Kettle目前包括如下4個(gè)產(chǎn)品:2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理of422.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:Kettle數(shù)據(jù)遷移可以在Kettle的官網(wǎng)/下載進(jìn)入主界面在“輸入”文件夾下選擇“表輸入”,并把它拖動(dòng)到右側(cè)編輯區(qū)of42292.3.3案例:Kettle數(shù)據(jù)遷移2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:K2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:Kettle數(shù)據(jù)遷移編輯數(shù)據(jù)來源

配置數(shù)據(jù)庫的參數(shù)

選擇輸入表

設(shè)置“字段選擇”of42302.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:K2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:Kettle數(shù)據(jù)遷移將每一個(gè)輸入字段改成和輸出字段相同的名字自動(dòng)列出之前表輸入中的所有字段of42312.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:K2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:Kettle數(shù)據(jù)遷移of4232在“輸出”文件夾中拖出一個(gè)“表輸出”到右側(cè)編輯區(qū),并畫連接配置數(shù)據(jù)庫將輸出表對象設(shè)置為Oracle數(shù)據(jù)庫

映射輸入/輸出關(guān)系單擊“確定”按鈕關(guān)閉窗口2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:K2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:Kettle數(shù)據(jù)遷移of4233執(zhí)行轉(zhuǎn)換去本地Oracle數(shù)據(jù)庫中查看實(shí)時(shí)顯示轉(zhuǎn)換過程2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理案例:K1.采用哪些方式可以獲取大數(shù)據(jù)?2.常用大數(shù)據(jù)采集工具有哪些?3.簡述什么是ApacheKafka數(shù)據(jù)采集。4.Topic可以有多個(gè)分區(qū),這些分區(qū)有什么作用?5.Kafka抽象具有哪種模式的特征消費(fèi)組?6.查閱相關(guān)資料,實(shí)例演示ApacheKafka的安裝及使用。7.使用Java來編寫Kafka的實(shí)例。8.簡述數(shù)據(jù)預(yù)處理的原理。9.?dāng)?shù)據(jù)清洗有哪些方法?10.?dāng)?shù)據(jù)集成需要重點(diǎn)考慮的問題有哪些?11.?dāng)?shù)據(jù)變換主要涉及哪些內(nèi)容?12.分別簡述常用ETL工具。習(xí)題:1.采用哪些方式可以獲取大數(shù)據(jù)?習(xí)題:百度排名首位的大數(shù)據(jù)資料和交流中心百度排名首位的大數(shù)據(jù)資料和交流中心百度排名首位的云計(jì)算資料和交流中心百度排名首位的云計(jì)算資料和交流中心數(shù)據(jù)采集與預(yù)處理培訓(xùn)課件數(shù)據(jù)采集與預(yù)處理培訓(xùn)課件BDRack大數(shù)據(jù)實(shí)驗(yàn)一體機(jī)虛擬出百套集群,并行開展大數(shù)據(jù)實(shí)驗(yàn)預(yù)裝各種流行云計(jì)算和大數(shù)據(jù)平臺提供配套實(shí)驗(yàn)教程、課件、PPT和培訓(xùn)BDRack大數(shù)據(jù)實(shí)驗(yàn)一體機(jī)虛擬出百套集群,并行開展大數(shù)據(jù)實(shí)學(xué)習(xí)大數(shù)據(jù)必須關(guān)注的公眾號知名微信公眾號推薦劉鵬看未來云計(jì)算頭條云創(chuàng)大數(shù)據(jù)中國大數(shù)據(jù)微信號:chinacloudnj微信號:cstorbigdata資源豐富、分析深入、更新及時(shí)的云計(jì)算知識共享平臺。微信號:lpoutlook微信號:cStor_cn國內(nèi)大數(shù)據(jù)龍頭企業(yè)。提供領(lǐng)先的云存儲、云數(shù)據(jù)庫、云視頻、云傳輸產(chǎn)品和解決方案。眼光決定成敗,與劉鵬教授看未來。劉鵬,清華博士,《云計(jì)算》作者。分享大數(shù)據(jù)技術(shù),剖析大數(shù)據(jù)案例,討論大數(shù)據(jù)話題。學(xué)習(xí)大數(shù)據(jù)必須關(guān)注的公眾號知名微信公眾號推薦劉鵬看未來云計(jì)算運(yùn)用大數(shù)據(jù),精彩你生活免費(fèi)大數(shù)據(jù)App推薦運(yùn)用大數(shù)據(jù),精彩你生活免費(fèi)大數(shù)據(jù)App推薦感謝聆聽感謝聆聽演講完畢,謝謝觀看!演講完畢,謝謝觀看!全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)劉鵬主編張燕張重生張志立副主編BIGDATA全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)劉鵬教授,清華大學(xué)博士。現(xiàn)任南京大數(shù)據(jù)研究院院長、中國信息協(xié)會大數(shù)據(jù)分會副會長、中國大數(shù)據(jù)技術(shù)與應(yīng)用聯(lián)盟副理事長。主持完成科研項(xiàng)目25項(xiàng),發(fā)表論文80余篇,出版專業(yè)書籍15本。獲部級科技進(jìn)步二等獎(jiǎng)4項(xiàng)、三等獎(jiǎng)4項(xiàng)。主編的《云計(jì)算》被全國高校普遍采用,被引用量排名中國計(jì)算機(jī)圖書第一名。創(chuàng)辦了知名的中國云計(jì)算()和中國大數(shù)據(jù)()網(wǎng)站。曾率隊(duì)奪得2002PennySort國際計(jì)算機(jī)排序比賽冠軍,兩次奪得全國高??萍急荣愖罡擢?jiǎng),并三次奪得清華大學(xué)科技比賽最高獎(jiǎng)。榮獲“全軍十大學(xué)習(xí)成才標(biāo)兵”(排名第一)、南京“十大杰出青年”、江蘇省中青年科學(xué)技術(shù)帶頭人、清華大學(xué)“學(xué)術(shù)新秀”等稱號。劉鵬教授,清華大學(xué)博士?,F(xiàn)任南京大數(shù)據(jù)研究院第二章數(shù)據(jù)采集與預(yù)處理2.1

2.2數(shù)據(jù)預(yù)處理原理2.3數(shù)據(jù)倉庫與ETL工具習(xí)題全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)采集架構(gòu)of4246第二章數(shù)據(jù)采集與預(yù)處理2.12.2數(shù)據(jù)預(yù)處理原理2.32.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理如今,社會中各個(gè)機(jī)構(gòu)、部門、公司、團(tuán)體等正在實(shí)時(shí)不斷地產(chǎn)生大量的信息,這些信息需要以簡單的方式進(jìn)行處理,同時(shí)又要十分準(zhǔn)確且能迅速滿足各種類型的數(shù)據(jù)(信息)需求者。這給我們帶來了許多挑戰(zhàn),第一個(gè)挑戰(zhàn)就是在大量的數(shù)據(jù)中收集需要的數(shù)據(jù),下面介紹常用的大數(shù)據(jù)采集工具。of42472.1.1概述2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理如今,社會中各個(gè)2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理FlumeChukwaScribleKafka大數(shù)據(jù)采集工具of42482.1.2常用大數(shù)據(jù)采集工具數(shù)據(jù)采集最傳統(tǒng)的方式是企業(yè)自己的生產(chǎn)系統(tǒng)產(chǎn)生的數(shù)據(jù),除上述生產(chǎn)系統(tǒng)中的數(shù)據(jù)外,企業(yè)的信息系統(tǒng)還充斥著大量的用戶行為數(shù)據(jù)、日志式的活動(dòng)數(shù)據(jù)、事件信息等,越來越多的企業(yè)通過架設(shè)日志采集系統(tǒng)來保存這些數(shù)據(jù),希望通過這些數(shù)據(jù)獲取其商業(yè)或社會價(jià)值。2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理FlumeChu2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4249在Flume中,外部輸入稱為Source(源),系統(tǒng)輸出稱為Sink(接收端)。Channel(通道)把Source和Sink鏈接在一起。ApacheChukwa項(xiàng)目與Flume有些相類似,Chukwa繼承了Hadoop的伸縮性和魯棒性。也內(nèi)置一個(gè)功能強(qiáng)大的工具箱,用于顯示系統(tǒng)監(jiān)控和分析結(jié)果?;ヂ?lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)爬蟲也是許多企業(yè)獲取數(shù)據(jù)的一種方式。Nutch就是網(wǎng)絡(luò)爬蟲中的嬌嬌者,Nutch是Apache旗下的開源項(xiàng)目,存在已經(jīng)超過10年,擁有大量的忠實(shí)用戶。Flume體系架構(gòu)2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of426在Fl2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42502.1.3ApacheKafka數(shù)據(jù)采集ApacheKafka被設(shè)計(jì)成能夠高效地處理大量實(shí)時(shí)數(shù)據(jù),其特點(diǎn)是快速的、可擴(kuò)展的、分布式的,分區(qū)的和可復(fù)制的。Kafka是用Scala語言編寫的,雖然置身于Java陣營,但其并不遵循JMS規(guī)范。Topics(話題):消息的分類名。Producers(消息發(fā)布者):能夠發(fā)布消息到Topics的進(jìn)程。Consumers(消息接收者):可以從Topics接收消息的進(jìn)程。Broker(代理):組成Kafka集群的單個(gè)節(jié)點(diǎn)?;綤afka集群的工作流程2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4272.12.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42511、TopicsTopics是消息的分類名(或Feed的名稱)。Kafka集群或Broker為每一個(gè)Topic都會維護(hù)一個(gè)分區(qū)日志。每一個(gè)分區(qū)日志是有序的消息序列,消息是連續(xù)追加到分區(qū)日志上,并且這些消息是不可更改的。2、日志區(qū)分一個(gè)Topic可以有多個(gè)分區(qū),這些分區(qū)可以作為并行處理的單元,從而使Kafka有能力高效地處理大量數(shù)據(jù)。Topics與日志分析2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4281、2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42523、ProducersProducers是向它們選擇的主題發(fā)布數(shù)據(jù)。生產(chǎn)者可以選擇分配某個(gè)主題到哪個(gè)分區(qū)上。這可以通過使用循環(huán)的方式或通過任何其他的語義分函數(shù)來實(shí)現(xiàn)。4、ConsumersKafka提供一種單獨(dú)的消費(fèi)者抽象,此抽象具有兩種模式的特征消費(fèi)組:Queuing和Publish-Subscribe。5、ApacheKafka的安裝及使用因?yàn)镵afka是處理網(wǎng)絡(luò)上請求,所以,應(yīng)該為其創(chuàng)建一個(gè)專用的用戶,這將便于對Kafka相關(guān)服務(wù)的管理,減少對服務(wù)器上其他服務(wù)的影響。2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4293、2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4253使用useradd命令來創(chuàng)建一個(gè)Kafka用戶:

$sudouseraddkafka–m使用passwd命令來設(shè)置其密碼:$sudopasswdkafaka接下來把kafaka用戶添加到sudo管理組,以便kafaka用戶具有安裝ApacheKafka依賴庫的權(quán)限。這里使用adduser命令來進(jìn)行添加:$sudoadduserkafkasudo這時(shí)就可以使用kafka賬戶了。切換用戶可以使用su命令:$su-kafka在ApacheKafka安裝所依賴的軟件包前,最好更新一下apt管理程序的軟件列表:$sudoapt-getupdateApacheKafka需要Java運(yùn)行環(huán)境,這里使用apt-get命令安裝default-jre包,然后安裝Java運(yùn)行環(huán)境:$sudoapt-getinstalldefault-jre通過下面的命令測試一下Java運(yùn)行環(huán)境是否安裝成功,并查看Java的版本信息:$java-version2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4210使用2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4254機(jī)器有如下顯示:2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4211機(jī)器2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42552.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42122.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42562.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42132.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42572.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42142.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42586、使用Java來編寫Kafka的實(shí)例首先,編寫KafkaPperties文件:zk.connect=localhost:2181broker.list=localhost:9092serializer.class=kafka.serializer.StringEncoderrequest.required.acks=1下面的代碼是使用Java編寫了一個(gè)Kafka消息發(fā)布者:importducer.Producer;importducer.KeyedMessage;importducer.ProducerConfig;publicclassMyKafkaProducer{privateProducer<String,String>producer;privatefinalStringtopic;publicMyKafkaProducer(Stringtopic)throwsException{InputStreamin=Properties.class.getResourceAsStream("KafkaPperties");Propertiesprops=newProperties();props.load(in);ProducerConfigconfig=newProducerConfig(props);producer=newProducer<String,String>(config);}publicvoidsendMessage(Stringmsg){KeyedMessage<String,String>data=newKeyedMessage<String,String>(topic,msg);producer.send(data);producer.close();}publicstaticvoidmain(String[]args)throwsException{MyKafkaProducerproducer=newMyKafkaProducer("HelloTopic");Stringmsg="HelloKafka!";producer.sendMessage(msg);}}2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of42156、2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4259下面創(chuàng)建Comsumer,首先編寫KafkaProperties文件:zk.connect=localhost:2181group.id=testgroupzookeeper.session.timeout.ms=500zookeeper.sync.time.ms=250erval.ms=1000上述參數(shù)配置,十分容易理解,具體的詳細(xì)說明,可以參考Kafka的官方文檔。下面的代碼是使用Java編寫了一個(gè)Kafka的Comsumer。importjava.io.InputStream;importjava.util.HashMap;importjava.util.List;importjava.util.Map;importjava.util.Properties;importkafka.consumer.ConsumerConfig;importkafka.consumer.ConsumerIterator;importkafka.consumer.KafkaStream;importkafka.javaapi.consumer.ConsumerConnector;importkafka.consumer.Consumer;

publicclassMyKafkaConsumer{privatefinalConsumerConnectorconsumer;privatefinalStringtopic;publicMyKafkaConsumer(Stringtopic)throwsException{InputStreamin=Properties.class.getResourceAsStream("KafkaPperties");Propertiesprops=newProperties();props.load(in);ConsumerConfigconfig=newConsumerConfig(props);consumer=Consumer.createJavaConsumerConnector(config);this.topic=topic;}publicvoidconsumeMessage(){Map<String,String>topicMap=newHashMap<String,String>();topicMap.put(topic,newInteger(1));Map<String,List<KafkaStream<byte[],byte[]>>>consumerStreamsMap=consumer.createMessageStreams(topicMap);List<KafkaStream<byte[],byte[]>>streamList=consumerStreamsMap.get(topic);for(finalKafkaStream<byte[],byte[]>stream:streamList){ConsumerIterator<byte[],byte[]>consumerIte=stream.iterator();while(consumerIte.hasNext())System.out.println("message::"+newString(consumerIte.next().message()));}if(consumer!=null)consumer.shutdown();}publicstaticvoidmain(String[]args)throwsException{StringgroupId="testgroup";Stringtopic="HelloTopic";MyKafkaConsumerconsumer=newMyKafkaConsumer(topic);consumer.consumeMessage();}}2.1大數(shù)據(jù)采集架構(gòu)第二章數(shù)據(jù)采集與預(yù)處理of4216下面第二章數(shù)據(jù)采集與預(yù)處理2.1

2.2數(shù)據(jù)預(yù)處理原理2.3數(shù)據(jù)倉庫與ETL工具習(xí)題全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)采集架構(gòu)of4260第二章數(shù)據(jù)采集與預(yù)處理2.12.2數(shù)據(jù)預(yù)處理原理2.32.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理通過數(shù)據(jù)預(yù)處理工作,可以使殘缺的數(shù)據(jù)完整,并將錯(cuò)誤的數(shù)據(jù)糾正、多余的數(shù)據(jù)去除,進(jìn)而將所需的數(shù)據(jù)挑選出來,并且進(jìn)行數(shù)據(jù)集成。數(shù)據(jù)預(yù)處理的常見方法有數(shù)據(jù)清洗、數(shù)據(jù)集成與數(shù)據(jù)變換。of42612.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理通過數(shù)據(jù)預(yù)處理工2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理填

充缺

失值數(shù)據(jù)屬性分為數(shù)值屬性和非數(shù)值屬性進(jìn)行處理,通過利用已存數(shù)據(jù)的多數(shù)信息來推測缺失值數(shù)據(jù)屬性分為數(shù)值屬性和非數(shù)值屬性進(jìn)行處理,通過利用已存數(shù)據(jù)的多數(shù)信息來推測缺失值大量采用同一屬性值,可能會誤導(dǎo)挖掘程序得出有偏差甚至錯(cuò)誤的結(jié)論數(shù)據(jù)偏離的問題小,但該方法十分費(fèi)時(shí),不具備實(shí)際的可操作性通常當(dāng)在缺少類標(biāo)號時(shí),通過這樣的方法來填補(bǔ)缺失值利用均值替換缺失值忽略元組人工填寫缺失值使用一個(gè)全局常量填充缺失值用屬性的均值填充缺失值用同類樣本的屬性均值填充缺失值使用最可能的值填充缺失值of42622.2.1數(shù)據(jù)清洗2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理填充缺失值數(shù)2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4263分箱方法通過考察某一數(shù)據(jù)周圍數(shù)據(jù)的值,即“近鄰”來光滑有序數(shù)據(jù)的值。分箱01回歸02光滑數(shù)據(jù)可以通過一個(gè)函數(shù)擬合數(shù)據(jù)來實(shí)現(xiàn)。線性回歸的目標(biāo)就是查找擬合兩個(gè)屬性的“最佳”線,使得其中一個(gè)屬性可以用于預(yù)測出另一個(gè)屬性。聚類03離群點(diǎn)可通過聚類進(jìn)行檢測,將類似的值組織成群或簇,離群點(diǎn)即為落在簇集合之外的值。許多數(shù)據(jù)光滑的方法也是涉及離散化的數(shù)據(jù)歸約方法。噪聲是被測量的變量的隨機(jī)誤差或方差。給定一個(gè)數(shù)值屬性,如何才能使數(shù)據(jù)“光滑”,去掉噪聲?下面給出數(shù)據(jù)光滑技術(shù)的具體內(nèi)容。2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4220分箱2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4264數(shù)據(jù)清洗可以視為一個(gè)過程,包括檢測偏差與糾正偏差兩個(gè)步驟:2糾正偏差1檢查偏差可以使用已有的關(guān)于數(shù)據(jù)性質(zhì)的知識發(fā)現(xiàn)噪聲、離群點(diǎn)和需要考察的不尋常的值。這種知識或“關(guān)于數(shù)據(jù)的數(shù)據(jù)”稱為元數(shù)據(jù)。即一旦發(fā)現(xiàn)偏差,通常需要定義并使用一系列的變換來糾正它們。但這些工具只支持有限的變換,因此,常??赡苄枰獮閿?shù)據(jù)清洗過程的這一步編寫定制的程序。2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理of4221數(shù)據(jù)2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理(1)模式集成和對象匹配問題(2)冗余問題(3)元組重復(fù)(4)數(shù)據(jù)值沖突的檢測與處理問題數(shù)據(jù)挖掘經(jīng)常需要數(shù)據(jù)集成合并來自多個(gè)數(shù)據(jù)存儲的數(shù)據(jù)。數(shù)據(jù)還可能需要變換成適于挖掘的形式。數(shù)據(jù)分析任務(wù)多半涉及數(shù)據(jù)集成。問題of42652.2.2數(shù)據(jù)集成2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理(1)模式集成和2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理1、光滑。去除數(shù)據(jù)中的噪聲2、聚集。對數(shù)據(jù)進(jìn)行匯總或聚集。3、

數(shù)據(jù)泛化。使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù)4、規(guī)范化。將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間5、屬性構(gòu)造??梢詷?gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程of42662.2.3數(shù)據(jù)變換數(shù)據(jù)變換的目的是將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式。數(shù)據(jù)變換主要涉及以下內(nèi)容:2.2數(shù)據(jù)預(yù)處理原理第二章數(shù)據(jù)采集與預(yù)處理1、光滑。去除第二章數(shù)據(jù)采集與預(yù)處理2.1

2.2數(shù)據(jù)預(yù)處理原理2.3數(shù)據(jù)倉庫與ETL工具習(xí)題全國高校標(biāo)準(zhǔn)教材《云計(jì)算》姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實(shí)戰(zhàn)應(yīng)用大數(shù)據(jù)采集架構(gòu)of4267第二章數(shù)據(jù)采集與預(yù)處理2.12.2數(shù)據(jù)預(yù)處理原理2.32.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務(wù)數(shù)據(jù)源,這些數(shù)據(jù)源可能處于不同硬件平臺上,使用不同的操作系統(tǒng),數(shù)據(jù)模型也相差很遠(yuǎn)。如何獲取并向數(shù)據(jù)倉庫加載這些數(shù)據(jù)量大、種類多的數(shù)據(jù),已成為建立數(shù)據(jù)倉庫所面臨的一個(gè)關(guān)鍵問題。of42682.3.1數(shù)據(jù)倉庫與ETL工具數(shù)據(jù)倉庫,是在企業(yè)管理和決策中面向主題的、集成的、隨時(shí)間變化的、非易失性數(shù)據(jù)的集合。2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理of422.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理如何獲取并向數(shù)據(jù)倉庫加載數(shù)據(jù)量大、種類多的數(shù)據(jù),一般要使用專業(yè)的數(shù)據(jù)抽取、轉(zhuǎn)換和裝載工具,這些工具合并起來被稱為ETL(Extract-Transform-Load)。InformaticaPowerCenter常用ETL工具IBMDatastageWarehouseBuilder(OWB)OracleDataIntegrator(ODI)MicrosoftSQLServerIntegrationServices開源Kettleof42692.3.2常用ETL工具2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理如何獲取2.3數(shù)據(jù)倉庫與ETL工具第二章數(shù)據(jù)采集與預(yù)處理of4270PowerCenterIBMDatastageKettleInformatica的PowerCenter是一個(gè)可擴(kuò)展、高性能企業(yè)數(shù)據(jù)集成平臺,應(yīng)用于各種數(shù)據(jù)集成流程,通過該平臺可實(shí)現(xiàn)自動(dòng)化、重復(fù)使用及靈活性IBM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論