大數(shù)據(jù)技術(shù)與應(yīng)用全套教學(xué)課件_第1頁
大數(shù)據(jù)技術(shù)與應(yīng)用全套教學(xué)課件_第2頁
大數(shù)據(jù)技術(shù)與應(yīng)用全套教學(xué)課件_第3頁
大數(shù)據(jù)技術(shù)與應(yīng)用全套教學(xué)課件_第4頁
大數(shù)據(jù)技術(shù)與應(yīng)用全套教學(xué)課件_第5頁
已閱讀5頁,還剩632頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)與應(yīng)用第1章初識(shí)大數(shù)據(jù)第2章大數(shù)據(jù)采集第3章大數(shù)據(jù)預(yù)處理第4章大數(shù)據(jù)存儲(chǔ)第5章大數(shù)據(jù)計(jì)算第6章大數(shù)據(jù)挖掘技術(shù)第7章大數(shù)據(jù)安全第8章大數(shù)據(jù)可視化第9章大數(shù)據(jù)應(yīng)用案例

全套PPT課件第一章初識(shí)大數(shù)據(jù)

大數(shù)據(jù)概述01目錄CONTENTS大數(shù)據(jù)發(fā)展0203大數(shù)據(jù)應(yīng)用04大數(shù)據(jù)的關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn)05大數(shù)據(jù)的發(fā)展趨勢06大數(shù)據(jù)概述01PART大數(shù)據(jù)時(shí)代的背景

數(shù)據(jù)爆炸的實(shí)際數(shù)據(jù)大數(shù)據(jù)時(shí)代的背景大數(shù)據(jù)時(shí)代給處理數(shù)據(jù)的不同方面都帶來了變化,主要體現(xiàn)為三個(gè)特點(diǎn),感知化、物聯(lián)化和智能化:感知化指的是數(shù)據(jù)源的變化。傳感器、RFID標(biāo)簽、芯片、攝像頭遍布世界的各個(gè)角落,物理世界中原本不能被感知的事務(wù)現(xiàn)在可以被感知,它們通過各種技術(shù)被接入了互聯(lián)網(wǎng)世界。物聯(lián)化指的是數(shù)據(jù)傳送方式的變化。繼人與人、人與機(jī)器的互聯(lián)后,機(jī)器與機(jī)器之間的互聯(lián)成為當(dāng)下的發(fā)展趨勢。智能化指的是數(shù)據(jù)使用方式的變化?!皼]有解釋就沒有價(jià)值”。感知和互聯(lián)并不是最終的目的,數(shù)據(jù)只有經(jīng)過處理、分析和計(jì)算,從中提取出有價(jià)值的東西,才能實(shí)現(xiàn)真正的價(jià)值。大數(shù)據(jù)的定義目前業(yè)界對大數(shù)據(jù)還沒有一個(gè)統(tǒng)一的定義。常見的研究機(jī)構(gòu)基于不同的角度給出如下定義:大數(shù)據(jù)是指大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。(并不是說一定要超過特定TB的數(shù)據(jù)集才能算大數(shù)據(jù))。——麥肯錫大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集?!S基百科大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!狦artner數(shù)據(jù)量大、獲取速度快或形態(tài)多樣的數(shù)據(jù),難以用傳統(tǒng)關(guān)系型數(shù)據(jù)分析方法進(jìn)行有效分析,或者需要大規(guī)模的水平擴(kuò)展才能高效處理?!绹鴩H標(biāo)準(zhǔn)技術(shù)研究院(NIST)大數(shù)據(jù)一般會(huì)涉及兩種或兩種以上的數(shù)據(jù)形式,它需要收集超過100TB(1TB=240B)的數(shù)據(jù),并且是高速實(shí)時(shí)數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)據(jù)每年增長速率至少為60%。——國際數(shù)據(jù)公司大數(shù)據(jù)的特征Volume(巨量性):數(shù)據(jù)量巨大。這是大數(shù)據(jù)的顯著特征,數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級,甚至開始以EB和ZB來計(jì)數(shù)。Variety(多樣性):數(shù)據(jù)類型復(fù)雜多樣。以往產(chǎn)生或者處理的數(shù)據(jù)部分是結(jié)構(gòu)化數(shù)據(jù),如今,還包含大量半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)。Velocity(高速性):數(shù)據(jù)具有高速性。數(shù)據(jù)產(chǎn)生、處理和分析的速度持續(xù)在加快,數(shù)據(jù)流量大。Veracity(準(zhǔn)確性):數(shù)據(jù)準(zhǔn)確性。該特性體現(xiàn)了大數(shù)據(jù)的數(shù)據(jù)質(zhì)量。較為典型的應(yīng)用是垃圾郵件,它們給社交網(wǎng)絡(luò)帶來了嚴(yán)重的困擾。Value(高價(jià)值,低價(jià)值密度):數(shù)據(jù)具有潛在價(jià)值。大數(shù)據(jù)由于數(shù)據(jù)體量不斷增大,單位數(shù)據(jù)的價(jià)值密度不斷降低,而數(shù)據(jù)的整體價(jià)值在提高?,F(xiàn)在普遍以5V特征來描述大數(shù)據(jù),其反映了大數(shù)據(jù)在5個(gè)方面的特點(diǎn):大數(shù)據(jù)的特征傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)區(qū)別如下表所示:類型傳統(tǒng)數(shù)據(jù)大數(shù)據(jù)數(shù)據(jù)規(guī)模小規(guī)模,以MB、GB為單位大規(guī)模,以TB、PB為單位生成速度每小時(shí)、每天每秒,甚至更快數(shù)據(jù)源集中的數(shù)據(jù)源分散的數(shù)據(jù)源數(shù)據(jù)的結(jié)構(gòu)類型單一的結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多源異構(gòu)數(shù)據(jù)數(shù)據(jù)存儲(chǔ)關(guān)系型數(shù)據(jù)管理系統(tǒng)(RDBMS)非關(guān)系型數(shù)據(jù)庫(NoSQL)、分布式存儲(chǔ)系統(tǒng)(如HDFS)處理工具一種或少數(shù)幾種處理工具不存在單一的全處理工具大數(shù)據(jù)的結(jié)構(gòu)類型

所謂結(jié)構(gòu)化數(shù)據(jù),簡單來說就是數(shù)據(jù)庫,也稱作行數(shù)據(jù),是由二維表結(jié)構(gòu)來邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長度規(guī)范,它的特點(diǎn)是每一列數(shù)據(jù)具有相同的數(shù)據(jù)類型,每一列數(shù)據(jù)不可以再細(xì)分。此類數(shù)據(jù)主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ)和管理,常用的關(guān)系型數(shù)據(jù)庫如SQLServer、DB2、MySQL、Oracle。結(jié)構(gòu)化數(shù)據(jù)01用戶ID姓名班級愛好手機(jī)號(hào)碼1張阿三119游泳138546212982孫德120乒乓構(gòu)化數(shù)據(jù)表舉例大數(shù)據(jù)的結(jié)構(gòu)類型半結(jié)構(gòu)化數(shù)據(jù)02

半結(jié)構(gòu)化數(shù)據(jù)和普通純文本相比具有一定的結(jié)構(gòu)性,但和具有嚴(yán)格理論模型的關(guān)系數(shù)據(jù)庫的數(shù)據(jù)相比更靈活。它是一種適于數(shù)據(jù)庫集成的數(shù)據(jù)模型,也就是說,適于描述包含在兩個(gè)或多個(gè)數(shù)據(jù)庫(這些數(shù)據(jù)庫含有不同模式的相似數(shù)據(jù))中的數(shù)據(jù)。例如,郵件、報(bào)表、HTML文檔、具有定義模式的XML數(shù)據(jù)文件等。典型應(yīng)用場景如郵件系統(tǒng)、檔案系統(tǒng)等。半結(jié)構(gòu)化數(shù)據(jù)舉例<person><name>A</name><age>13</age><gender>female</gender></person>大數(shù)據(jù)的結(jié)構(gòu)類型非結(jié)構(gòu)化數(shù)據(jù)03

非結(jié)構(gòu)化數(shù)據(jù),是與結(jié)構(gòu)化數(shù)據(jù)相對的,不適合用數(shù)據(jù)庫二維表來表現(xiàn),包括所有格式的辦公文檔、圖片和咅頻、視頻信息等。支持非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫采用多值字段、變長字段等機(jī)制進(jìn)行數(shù)據(jù)項(xiàng)的創(chuàng)建和管理,廣泛應(yīng)用于全文檢索和各種多媒體信息處理領(lǐng)域大數(shù)據(jù)發(fā)展02PART2005年,Hadoop項(xiàng)目誕生。Hadoop已經(jīng)成為由多個(gè)軟件產(chǎn)品組成的一個(gè)生態(tài)系統(tǒng),這些軟件產(chǎn)品共同實(shí)現(xiàn)功能全面和靈活的大數(shù)據(jù)分析。2008年9月,在Google成立10周年之際,著名的《自然》雜志出版了一期??渲芯吞岢隽恕癇igData”的概念。2008年年末,計(jì)算社區(qū)聯(lián)盟(ComputingCommunityConsortium)發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會(huì)領(lǐng)域創(chuàng)建革命性突破》。從2009年開始,“大數(shù)據(jù)”成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯,大數(shù)據(jù)起初成熟應(yīng)用多在互聯(lián)網(wǎng)行業(yè)。2011年5月,麥肯錫全球研究院發(fā)布題為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)新領(lǐng)域》的報(bào)告。2012年3月美國奧巴馬政府推出:“大數(shù)據(jù)研究和發(fā)展倡議”,并劃撥2億美元的專項(xiàng)資金之后,在全球掀起了一股大數(shù)據(jù)的熱潮。大數(shù)據(jù)概念的發(fā)展大數(shù)據(jù)概念的發(fā)展2012年4月19日,美國軟件公司Splunk在納斯達(dá)克成功上市,成為第一家上市的大數(shù)據(jù)處理公司。2012年7月,聯(lián)合國在紐約發(fā)布了一本關(guān)于大數(shù)據(jù)政務(wù)的白皮書《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》,全球大數(shù)據(jù)的研究和發(fā)展進(jìn)入了前所未有的高潮。2012年7月,阿里巴巴集團(tuán)在管理層設(shè)立“首席數(shù)據(jù)官”一職,負(fù)責(zé)全面推進(jìn)“數(shù)據(jù)分享平臺(tái)”戰(zhàn)略,并推出大型的數(shù)據(jù)分享平臺(tái)——“聚石塔”。2013年以來,國家自然科學(xué)基金、973計(jì)劃、863等重大研究計(jì)劃都已經(jīng)把大數(shù)據(jù)研究列為重大的研究課題。2014年4月,世界經(jīng)濟(jì)論壇以“大數(shù)據(jù)的回報(bào)與風(fēng)險(xiǎn)”主題發(fā)布了《全球信息技術(shù)報(bào)告(第13版)》。2014年5月,美國白宮發(fā)布2014年全球“大數(shù)據(jù)”白皮書的研究報(bào)告《大數(shù)據(jù):抓住機(jī)遇、守護(hù)價(jià)值》。2015年,國務(wù)院正式印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,此綱要明確表示要不斷的推動(dòng)大數(shù)據(jù)發(fā)展和應(yīng)用。2016年,大數(shù)據(jù)十三五規(guī)劃出臺(tái),該規(guī)劃通過定量和定性相結(jié)合的方式提出了2020年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展目標(biāo)。大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展

大數(shù)據(jù)技術(shù)是一種新時(shí)代技術(shù)和構(gòu)架,它以成本較低、以快速的采集、處理和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值。大數(shù)據(jù)技術(shù)不斷涌現(xiàn)和發(fā)展,讓我們處理海量數(shù)據(jù)更加容易、更加方便和迅速,成為利用數(shù)據(jù)的好助手。大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展可以分為以下方向:大數(shù)據(jù)的關(guān)鍵技術(shù)03PART大數(shù)據(jù)采集基于傳感器的采集系統(tǒng)01

數(shù)據(jù)采集系統(tǒng)(DAQ或DAS)是指從傳感器和其它待測設(shè)備等模擬和數(shù)字被測單元中自動(dòng)采集非電量或者電量信號(hào),送到上位機(jī)中進(jìn)行分析,處理的電子儀器,通??蓴U(kuò)展為儀器儀表和控制系統(tǒng)。它是結(jié)合基于計(jì)算機(jī)或者其他專用測試平臺(tái)的測量軟硬件產(chǎn)品來實(shí)現(xiàn)靈活的、用戶自定義的測量系統(tǒng),通常具有多通道、中到高分辨率(12~20位),而且采樣率相對較低(比示波器慢)。典型的DAS數(shù)據(jù)采集系統(tǒng)大數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)02

通過網(wǎng)絡(luò)爬蟲和一些網(wǎng)站平臺(tái)提供的公共API(如Twitter和新浪微博API)等方式從網(wǎng)站上獲取數(shù)據(jù)。這樣就可以將非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁數(shù)據(jù)從網(wǎng)頁中提取出來。目前常用的網(wǎng)頁爬蟲系統(tǒng)有ApacheNutch[5]、Crawler4j、Scrapy等框架。Scrapy的架構(gòu)圖大數(shù)據(jù)采集系統(tǒng)日志采集系統(tǒng)03

許多公司的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù)。對于這些日志信息,我們可以得到出很多有價(jià)值的數(shù)據(jù)。通過對這些日志信息進(jìn)行日志采集、收集,然后進(jìn)行數(shù)據(jù)分析,挖掘公司業(yè)務(wù)平臺(tái)日志數(shù)據(jù)中的潛在價(jià)值。為公司決策和公司后臺(tái)服務(wù)器平臺(tái)性能評估提高可靠的數(shù)據(jù)保證。系統(tǒng)日志采集系統(tǒng)做的事情就是收集日志數(shù)據(jù)提供離線和在線的實(shí)時(shí)分析使用。目前常用的開源日志收集系統(tǒng)有Cloudera公司的Flume、Facebook的Scribe、Hadoop的Chukwa等。Flume的結(jié)構(gòu)模型圖大數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是對數(shù)據(jù)進(jìn)行抽取、清洗、集成、轉(zhuǎn)換、規(guī)約并最終加載到數(shù)據(jù)倉庫的過程。由于現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整,不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。目前存在4種主流的數(shù)據(jù)預(yù)處理技術(shù),分別為數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)規(guī)約和數(shù)據(jù)轉(zhuǎn)換,這也是數(shù)據(jù)預(yù)處理的大致流程。1、數(shù)據(jù)清洗主要通過缺失值填充、識(shí)別離群點(diǎn)和光滑噪聲數(shù)據(jù)來糾正數(shù)據(jù)中的不一致。

2、數(shù)據(jù)集成是將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)集成到一起。

3、數(shù)據(jù)歸約技術(shù)是用來得到數(shù)據(jù)集的規(guī)約表示,在接近或保持原始數(shù)據(jù)完整性的同時(shí)將數(shù)據(jù)集規(guī)模大大減小。

4、數(shù)據(jù)轉(zhuǎn)換指把數(shù)據(jù)轉(zhuǎn)換或合并成適合數(shù)據(jù)挖掘的形式。數(shù)據(jù)轉(zhuǎn)換的策略主要包括光滑,屬性構(gòu)造,聚集,規(guī)范化,離散化,概念分層技術(shù)。大數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)經(jīng)過采集和轉(zhuǎn)換之后,需要進(jìn)行存儲(chǔ)管理,建立相應(yīng)的數(shù)據(jù)庫。曾經(jīng)傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(見圖)是萬能的,它們利用SQL這種蘊(yùn)含關(guān)系代數(shù)邏輯的編程語言操作結(jié)構(gòu)化數(shù)據(jù)極其便捷。傳統(tǒng)的關(guān)系數(shù)據(jù)庫01關(guān)系型數(shù)據(jù)庫

然而現(xiàn)代社會(huì)非結(jié)構(gòu)化數(shù)據(jù)容量巨大,增長迅速,沒有固定格式,查找目標(biāo)數(shù)據(jù)代價(jià)巨大,提煉價(jià)值信息的處理邏輯復(fù)雜,擴(kuò)展不便,這種小規(guī)模集群系統(tǒng)已經(jīng)難以應(yīng)對。因此非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)給計(jì)算機(jī)軟件和硬件架構(gòu)以及數(shù)據(jù)管理理論提出了新的要求,包括六個(gè)部分:容量、延遲、安全、成本、數(shù)據(jù)累積、靈活。

由于具有模式自由、易于復(fù)制、提供簡單API、最終一致性和支持海量數(shù)據(jù)的特性,NoSQL數(shù)據(jù)庫逐漸成為處理大數(shù)據(jù)的標(biāo)準(zhǔn)。根據(jù)數(shù)據(jù)模型的不同,NoSQL數(shù)據(jù)庫主流的數(shù)據(jù)存儲(chǔ)模型包括以下四種:鍵值存儲(chǔ),列式存儲(chǔ),文檔存儲(chǔ),圖形存儲(chǔ)。它們的特點(diǎn)如圖所示。大數(shù)據(jù)存儲(chǔ)NoSQL數(shù)據(jù)庫02NoSQL數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)模型

數(shù)據(jù)存儲(chǔ)系統(tǒng)可以通過不同的方式組織構(gòu)建,主要分為三種:直接附加存儲(chǔ)(DAS)、網(wǎng)絡(luò)附加存儲(chǔ)(NAS)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)。這三種存儲(chǔ)體系架構(gòu)的特點(diǎn)如下表所示。大數(shù)據(jù)存儲(chǔ)存儲(chǔ)體系架構(gòu)03表1.3三種存儲(chǔ)體系架構(gòu)三種存儲(chǔ)體系架構(gòu)大數(shù)據(jù)常見計(jì)算模式011、批處理計(jì)算主要解決針對大規(guī)模數(shù)據(jù)的批量處理,也是我們?nèi)粘?shù)據(jù)分析工作中非常常見的一類數(shù)據(jù)處理需求。2、流式計(jì)算(StreamProcessing)在計(jì)算機(jī)領(lǐng)域是一個(gè)傳統(tǒng)詞匯,也被稱為事件流處理、數(shù)據(jù)流處理或者響應(yīng)處理。3、在大數(shù)據(jù)時(shí)代,許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn),許多非圖結(jié)構(gòu)的大數(shù)常常會(huì)被轉(zhuǎn)換為圖模型后再進(jìn)行處理分析。4、針對超大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析,需要提供實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的響應(yīng),,很多時(shí)候用戶希望使用SQL直接從海量數(shù)據(jù)中獲得自己想要的信息。大數(shù)據(jù)計(jì)算大數(shù)據(jù)計(jì)算模式及其代表產(chǎn)品

云計(jì)算實(shí)現(xiàn)了通過網(wǎng)絡(luò)提供可伸縮的、廉價(jià)的分布式計(jì)算能力,用戶只需要在具備網(wǎng)絡(luò)接入條件的地方,就可以隨時(shí)隨地獲得所需的各種資源。云計(jì)算代表了以虛擬化技術(shù)為核心、以低成本為目標(biāo)的、動(dòng)態(tài)可擴(kuò)展的網(wǎng)絡(luò)應(yīng)用基礎(chǔ)設(shè)施,是近年來最有代表性的網(wǎng)絡(luò)計(jì)算技術(shù)與模式。云計(jì)算包括3種典型的服務(wù)模式(見圖),即IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))和SaaS(軟件即服務(wù))。IaaS將基礎(chǔ)設(shè)施(計(jì)算資源和存儲(chǔ))作為服務(wù)出租,PaaS把平臺(tái)作為服務(wù)出租,SaaS把軟件作為服務(wù)出租。大數(shù)據(jù)計(jì)算云計(jì)算02云計(jì)算的服務(wù)模式與類型

數(shù)據(jù)挖掘是知識(shí)獲取的核心,它是從大量不完全的、有噪聲的、模糊的和隨機(jī)的應(yīng)用數(shù)據(jù)中,提取隱含在其中、事前不知道的,但又是潛在有用信息的過程。數(shù)據(jù)挖掘的主要對象如下:大數(shù)據(jù)挖掘文本數(shù)據(jù)庫數(shù)據(jù)對象關(guān)系數(shù)據(jù)庫面向?qū)ο蟮臄?shù)據(jù)庫時(shí)態(tài)數(shù)據(jù)庫多媒體數(shù)據(jù)庫空間數(shù)據(jù)庫NoSQL數(shù)據(jù)庫異質(zhì)數(shù)據(jù)庫數(shù)據(jù)倉庫經(jīng)典數(shù)據(jù)挖掘算法C4.5算法k-Means算法支持向量機(jī)算法Apriori算法最大期望(EM)算法它是機(jī)器學(xué)習(xí)算法中的一個(gè)分類決策樹算法,它是決策樹核心算法ID3的改進(jìn)算法,決策樹構(gòu)造方法就是每次選擇一個(gè)好的特征以及分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類條件。k-means算法是一個(gè)聚類算法,把n個(gè)對象根據(jù)他們的屬性分為k個(gè)分割(k<n)。它與處理混合正態(tài)分布的最大期望算法很相似,因?yàn)樗麄兌荚噲D找到數(shù)據(jù)中自然聚類的中心。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在統(tǒng)計(jì)計(jì)算中,最大期望(ExpectationMaximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴于無法觀測的隱藏變量(LatentVariabl)。PageRank算法Adaboost算法K-最近鄰分類算法樸素貝葉斯模型分類與回歸樹PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量,衡量網(wǎng)站的價(jià)值。PageRank背后的概念是,每個(gè)到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。它是一種迭代算法,其核心思想是針對同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。該方法的思路是:如果一個(gè)樣本在特征空間中的K個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時(shí),樸素貝葉斯模型所需估計(jì)的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。分類與回歸樹(ClassificationandRegressionTrees,CART)在分類樹下面有兩個(gè)關(guān)鍵的思想。第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法(二元切分法);第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝(預(yù)剪枝、后剪枝)。經(jīng)典數(shù)據(jù)挖掘算法

大數(shù)據(jù)所存儲(chǔ)的數(shù)據(jù)非常巨大,往往采用分布式的方式進(jìn)行存儲(chǔ),而正是由于這種存儲(chǔ)方式,存儲(chǔ)的路徑視圖相對清晰,而數(shù)據(jù)量過大,導(dǎo)致數(shù)據(jù)保護(hù),相對簡單,黑客較為輕易利用相關(guān)漏洞,實(shí)施不法操作,造成安全問題。大數(shù)據(jù)安全問題包括以下三大方面:大數(shù)據(jù)安全大數(shù)據(jù)信息泄露風(fēng)險(xiǎn)大數(shù)據(jù)傳輸過程中的安全隱患大數(shù)據(jù)的存儲(chǔ)管理風(fēng)險(xiǎn)123

大數(shù)據(jù)平臺(tái)的信息泄露風(fēng)險(xiǎn)在對大數(shù)據(jù)進(jìn)行數(shù)據(jù)采集和信息挖掘的時(shí)候,要注重用戶隱私數(shù)據(jù)的安全問題,在不泄露用戶隱私數(shù)據(jù)的前提下進(jìn)行數(shù)據(jù)挖掘。

數(shù)據(jù)生命周期安全問題。伴隨著大數(shù)據(jù)傳輸技術(shù)和應(yīng)用的快速發(fā)展,在大數(shù)據(jù)傳輸生命周期的各個(gè)階段、各個(gè)環(huán)節(jié),越來越多的安全隱患逐漸暴露出來。

大數(shù)據(jù)的數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)是傳統(tǒng)數(shù)據(jù)不能比擬的,在大數(shù)據(jù)的存儲(chǔ)平臺(tái)上,數(shù)據(jù)量是非線性甚至指數(shù)級的速度增長,勢必會(huì)引發(fā)多種應(yīng)用進(jìn)程的并發(fā)且頻繁無序的運(yùn)行,極易造成數(shù)據(jù)存儲(chǔ)錯(cuò)位和數(shù)據(jù)管理混亂,為大數(shù)據(jù)存儲(chǔ)和后期的處理帶來安全隱患。

在大數(shù)據(jù)的安全技術(shù)中,基于身份的密碼體制已經(jīng)成為當(dāng)前研究領(lǐng)域的一個(gè)熱點(diǎn),與傳統(tǒng)的公鑰加密方案相比,基于身份的密碼體制具有以下優(yōu)點(diǎn):如不需要公鑰證書、不需要證書機(jī)構(gòu)、降低支持加密的花費(fèi)和設(shè)施、秘鑰撤銷簡單、提供前向安全性等。它包括基于身份的簽名技術(shù)和基于身份的加密技術(shù)。大數(shù)據(jù)安全基于身份的簽名技術(shù)基于身份的加密技術(shù)12

基于身份的簽名算法一般由4個(gè)算法構(gòu)成,包括PKG密鑰生成算法IBS.KG、用戶私鑰提取算法IBS.Extr、簽名生成算法IBS.Sign和簽名驗(yàn)證算法IBS.Vfy。

一個(gè)基于身份的加密方案包括4個(gè)算法:系統(tǒng)建立算法(PKG創(chuàng)建系統(tǒng)參數(shù)和一個(gè)主密鑰)、密鑰提取(用戶將他們的身份信息ID提交給PKG,PKG生成一個(gè)對應(yīng)于ID的私鑰返回給用戶)、加密算法(利用一個(gè)身份信息D加密一個(gè)消息)和解密算法(利用ID對應(yīng)的私鑰解密密文,得到消息)。大數(shù)據(jù)可視化

大數(shù)據(jù)可視化是指利用支持信息可視化的用戶界面以及支持分析過程的人機(jī)交互方式與技術(shù),有效融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,以獲得對于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力。大數(shù)據(jù)可視化技術(shù)涉及傳統(tǒng)的科學(xué)可視化和信息可視化,從大數(shù)據(jù)分析將掘取信息和洞悉知識(shí)作為目標(biāo)的角度出發(fā),信息可視化技術(shù)將在大數(shù)據(jù)可視化中扮演更為重要的角色。數(shù)據(jù)可視化技術(shù)主要分為以下幾類:文本可視化網(wǎng)絡(luò)(圖)可視化時(shí)空數(shù)據(jù)可視化多維數(shù)據(jù)可視化123

文本信息是大數(shù)據(jù)時(shí)代非結(jié)構(gòu)化數(shù)據(jù)類型的典型代表,是互聯(lián)網(wǎng)中最主要的信息類型,也是物聯(lián)網(wǎng)各種傳感器采集后生成的主要信息類型,人們?nèi)粘9ぷ骱蜕钪薪佑|最多的電子文檔也是以文本形式存在。

基于網(wǎng)絡(luò)節(jié)點(diǎn)和連接的拓?fù)潢P(guān)系,直觀地展示網(wǎng)絡(luò)中潛在的模式關(guān)系,例如節(jié)點(diǎn)或邊聚集性,是網(wǎng)絡(luò)可視化的主要內(nèi)容之一。經(jīng)典的基于節(jié)點(diǎn)和邊的可視化,是圖可視化的主要形式。

時(shí)空數(shù)據(jù)是指帶有地理位置與時(shí)間標(biāo)簽的數(shù)據(jù)。傳感器與移動(dòng)終端的迅速普及,使得時(shí)空數(shù)據(jù)成為大數(shù)據(jù)時(shí)代典型的數(shù)據(jù)類型。時(shí)空數(shù)據(jù)可視化與地理制圖學(xué)相結(jié)合,對與時(shí)間和空間密切相關(guān)的模式及規(guī)律進(jìn)行展示。4

多維數(shù)據(jù)指的是具有多個(gè)維度屬性的數(shù)據(jù)變量,廣泛存在于基于傳統(tǒng)關(guān)系數(shù)據(jù)庫以及數(shù)據(jù)倉庫的應(yīng)用中。多維可視化的基本方法,包括基于幾何圖形、基于圖標(biāo)、基于像素、基于層次結(jié)構(gòu)、基于圖結(jié)構(gòu)以及混合方法。

此外,時(shí)空大數(shù)據(jù)可視分析是近年國際大數(shù)據(jù)分析與數(shù)據(jù)可視化領(lǐng)域研究的熱點(diǎn)前沿,也是全空間信息系統(tǒng)的核心研究內(nèi)容之一。時(shí)空大數(shù)據(jù)由于其所屬空間從宏觀的宇宙空間到地表室內(nèi)空間以及更微觀的空間,其時(shí)間、空間和屬性3個(gè)方面的固有特征呈現(xiàn)出時(shí)空緊耦合、數(shù)據(jù)高維、多源異構(gòu)、動(dòng)態(tài)演化、復(fù)雜語義關(guān)聯(lián)的特點(diǎn)?,F(xiàn)有的時(shí)空數(shù)據(jù)可視化方法主要包括描述性可視化方法、解釋性可視化方法和探索性可視化方法。其中,典型的描述性可視化方法有:時(shí)序數(shù)據(jù)可視化方法、軌跡數(shù)據(jù)可視化方法和網(wǎng)絡(luò)可視化方法三種。大數(shù)據(jù)可視化大數(shù)據(jù)應(yīng)用04PART

金融領(lǐng)域作為大數(shù)據(jù)應(yīng)用的前沿和領(lǐng)航者,根據(jù)業(yè)務(wù)驅(qū)動(dòng)應(yīng)用場景大致可分為精準(zhǔn)營銷、風(fēng)險(xiǎn)控制、改善經(jīng)營、服務(wù)創(chuàng)新和產(chǎn)品創(chuàng)新等五個(gè)方面。大數(shù)據(jù)在金融領(lǐng)域中的應(yīng)用精準(zhǔn)營銷

互聯(lián)網(wǎng)時(shí)代的銀行在互聯(lián)網(wǎng)的沖擊下,迫切的需要掌握更多用戶信息,繼而構(gòu)建用戶360度立體畫像,即可對細(xì)分的客戶進(jìn)行精準(zhǔn)營銷、實(shí)時(shí)營銷等個(gè)性化智慧營銷。風(fēng)險(xiǎn)控制

大數(shù)據(jù)技術(shù)可以統(tǒng)一管理金融企業(yè)內(nèi)部多源異構(gòu)數(shù)據(jù)與外部征信數(shù)據(jù),可以更好地完善風(fēng)控體系。內(nèi)部可保障數(shù)據(jù)的完整性與安全性,外部可控制用戶風(fēng)險(xiǎn)。改善經(jīng)營

通過大數(shù)據(jù)分析方法改善經(jīng)營決策,為管理層提供可靠的數(shù)據(jù)支撐,使經(jīng)營決策更加高效、敏捷,精確性更高。服務(wù)創(chuàng)新

通過對大數(shù)據(jù)的應(yīng)用,改善與客戶之間的交互、增加用戶粘性,為個(gè)人與政府提供增值服務(wù),不斷增強(qiáng)金融企業(yè)業(yè)務(wù)核心競爭力。產(chǎn)品創(chuàng)新

通過高端數(shù)據(jù)分析和綜合化數(shù)據(jù)分享,有效對接銀行、保險(xiǎn)、信托、基金等各類金融產(chǎn)品,使金融企業(yè)能夠從其他領(lǐng)域借鑒并創(chuàng)造出新的金融產(chǎn)品。大數(shù)據(jù)在醫(yī)療領(lǐng)域的應(yīng)用

大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域的技術(shù)層面、業(yè)務(wù)層面都有十分重要的應(yīng)用價(jià)值。醫(yī)療領(lǐng)域主要包括以下五方面的應(yīng)用:(5),大數(shù)據(jù)在醫(yī)療系統(tǒng)、信息平臺(tái)建設(shè)中的應(yīng)用

大數(shù)據(jù)技術(shù)可以通過建立海量醫(yī)療數(shù)據(jù)庫、網(wǎng)絡(luò)信息共享、數(shù)據(jù)實(shí)時(shí)監(jiān)測等方式,為信息平臺(tái)提供數(shù)據(jù)源的存儲(chǔ)、更新、挖掘分析、管理等功能。大數(shù)據(jù)在臨床輔助決策中的應(yīng)用

大數(shù)據(jù)技術(shù)可以將患者的影像數(shù)據(jù),病歷數(shù)據(jù)等各種數(shù)據(jù)錄入大數(shù)據(jù)系統(tǒng),通過機(jī)器學(xué)習(xí)和挖掘分析方法,即可獲得類似癥狀、患者的疾病機(jī)理、病因以及治療方案。大數(shù)據(jù)在醫(yī)療科研中的應(yīng)用

在醫(yī)療科研領(lǐng)域,運(yùn)用大數(shù)據(jù)技術(shù)對各種數(shù)據(jù)進(jìn)行篩選、分析,可以為科研工作提供強(qiáng)有力的數(shù)據(jù)分析支持。大數(shù)據(jù)在健康監(jiān)測中的應(yīng)用

在居民的健康監(jiān)測方面,大數(shù)據(jù)技術(shù)可以提供居民的健康檔案,包括全部診療信息、體檢信息,這些信息可以為患病居民提供更有針對性的治療方案。大數(shù)據(jù)技術(shù)在醫(yī)藥研發(fā)、醫(yī)藥副作用研究中的應(yīng)用

在醫(yī)藥研發(fā)方面,醫(yī)藥公司能夠通過大數(shù)據(jù)技術(shù)分析來自互聯(lián)網(wǎng)上的公眾疾病藥品需求趨勢,確定更有效率的投入產(chǎn)出比,合理配置有限研發(fā)資源。

智能交通行業(yè)是現(xiàn)代IT技術(shù)與傳統(tǒng)交通技術(shù)結(jié)合的產(chǎn)物,隨著高清攝像、車輛傳感器技術(shù)的應(yīng)用,智能交通行業(yè)數(shù)據(jù)出現(xiàn)了爆發(fā)性的增長,視頻、圖片數(shù)據(jù)大量出現(xiàn)。大數(shù)據(jù)技術(shù)能夠?qū)Ω鞣N類型的交通數(shù)據(jù)進(jìn)行有效的整合,挖掘數(shù)據(jù)之間的聯(lián)系,提供更及時(shí)的路況信息。在智能交通領(lǐng)域,大數(shù)據(jù)應(yīng)用主要包括以下三方面:大數(shù)據(jù)在智能交通中的應(yīng)用擁堵監(jiān)測

通過分析數(shù)據(jù),可以實(shí)時(shí)獲得用戶的連貫位置信息。通過對信息長時(shí)間的統(tǒng)計(jì),分析常駐用戶和人車合并條件,挖掘道路中真正運(yùn)行的用戶。實(shí)時(shí)服務(wù)

如預(yù)警信息發(fā)布、路況信息發(fā)布、定制提醒信息。預(yù)警信息發(fā)布是對于交通擁堵、重大交通事件等信息,進(jìn)行影響范圍及影響時(shí)間長度預(yù)測,實(shí)時(shí)發(fā)布交通誘導(dǎo)信息。

當(dāng)?shù)缆愤_(dá)到擁堵狀態(tài)時(shí),由于運(yùn)營商數(shù)據(jù)可以實(shí)時(shí)監(jiān)控到擁堵路段的人群,也可以監(jiān)控到即將進(jìn)入此路段的人群,平臺(tái)可以根據(jù)需求向選定人群發(fā)送預(yù)警信息。預(yù)警管理

大數(shù)據(jù)技術(shù)作為當(dāng)前分析決策的科學(xué)手段,整合了來自互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、全球定位、移動(dòng)設(shè)備等渠道的反映土地資源數(shù)量及空間結(jié)構(gòu)、土地利用動(dòng)態(tài)、模式與效率的數(shù)據(jù),使得土地優(yōu)化利用工作能夠同時(shí)滿足政府、企業(yè)、個(gè)體的多樣需求。大數(shù)據(jù)對土地管理帶來的機(jī)遇包括以下三個(gè)方面:大數(shù)據(jù)在土地管理中的應(yīng)用促進(jìn)土地優(yōu)化從經(jīng)驗(yàn)判斷走向數(shù)據(jù)支撐

大數(shù)據(jù)技術(shù)豐富了土地空間優(yōu)化的數(shù)據(jù)源,各種App應(yīng)用、社交網(wǎng)絡(luò)、傳感器等信息均提供了反映土地利用實(shí)體和個(gè)體行為的時(shí)空信息。這些信息互動(dòng)性高、現(xiàn)勢性強(qiáng),實(shí)現(xiàn)“以形定流”走向“以流定型”。增強(qiáng)土地優(yōu)化配置分析和解決問題的能力

大數(shù)據(jù)技術(shù)有助于解決土地空間優(yōu)化的應(yīng)用難題,其中包含時(shí)空動(dòng)態(tài)信息、位置信息、公眾參與等信息,有助于解決協(xié)調(diào)人口、用地?cái)?shù)量、結(jié)構(gòu)分布、產(chǎn)業(yè)效率、生態(tài)環(huán)境等方面的配置關(guān)系。

大數(shù)據(jù)使得土地規(guī)劃從傳統(tǒng)的空間規(guī)劃向動(dòng)態(tài)的時(shí)空規(guī)劃轉(zhuǎn)變,對規(guī)劃實(shí)施效果進(jìn)行長期的實(shí)時(shí)評估和快速優(yōu)化。。改變土地規(guī)劃的理念大數(shù)據(jù)的其他應(yīng)用

社會(huì)各行各業(yè)的發(fā)展都離不開大數(shù)據(jù),其他領(lǐng)域?qū)τ诖髷?shù)據(jù)的典型應(yīng)用如下。公共領(lǐng)域

在公共領(lǐng)域,利用大數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)網(wǎng)絡(luò)安全監(jiān)測,合理性監(jiān)管分析,甚至在環(huán)保方面實(shí)施對工業(yè)廢水、碳排放和生活垃圾處理的管理與監(jiān)控。欺詐監(jiān)測

欺詐管理的應(yīng)用可以預(yù)測某一特定交易或賬戶遇到欺詐的可能性。典型的欺詐類型包括信用卡和借記卡欺詐等。針對以上欺詐類型,可以建立相應(yīng)的數(shù)據(jù)庫,經(jīng)過分析管理做出預(yù)測分析。能源

以電能為例,利用傳感器可以對每個(gè)電網(wǎng)內(nèi)的電壓、電流、頻率等重要指標(biāo)進(jìn)行記錄,這樣可以有效預(yù)防安全事故。此外,還可以分析發(fā)電、電能供應(yīng)、電力需求等的關(guān)系,減少電能浪費(fèi)。零售業(yè)

運(yùn)用大數(shù)據(jù)技術(shù),可以幫助商家在產(chǎn)品上架之前對影響購買者購買能力的重要因素進(jìn)行預(yù)測,如使用關(guān)聯(lián)性分析來達(dá)到更好的銷售效果。政府部門

以政府治理霧霾方面,可以將霧霾檢測歷史數(shù)據(jù)、集成氣象記錄等形成一個(gè)數(shù)據(jù)庫,然后利用大數(shù)據(jù)技術(shù)進(jìn)行分析,得出規(guī)律以便實(shí)現(xiàn)霧霾預(yù)警技術(shù)或制定有效的霧霾緩解策略。大數(shù)據(jù)技術(shù)面臨的挑戰(zhàn)05PART數(shù)據(jù)隱私和安全

對用戶行為的深入分析和建模,可以更好地服務(wù)用戶,實(shí)施精準(zhǔn),然而如果信息泄露或被濫用,則會(huì)直接侵犯到用戶的隱私,對用戶形成惡劣的影響,甚至帶來生命財(cái)產(chǎn)的損失。

由于物聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,與我們工作生活相關(guān)各類,我們隨時(shí)暴露在“第三只眼”下面。不管我們是在上網(wǎng)、打電話、發(fā)微博、微信,還是我們的行為都在隨時(shí)被監(jiān)控分析。問題背景主要內(nèi)容數(shù)據(jù)存儲(chǔ)和處理

云存儲(chǔ)技術(shù)是目前一種主要的解決方案,一方面,將巨大數(shù)據(jù)量的數(shù)據(jù)上傳到云端需要大量的時(shí)間,但這些數(shù)據(jù)變化速度很快,這使得上傳的數(shù)據(jù)一定程度上缺少了實(shí)時(shí)性。另一方面,云存儲(chǔ)的分布式特點(diǎn)對數(shù)據(jù)分析性能也造成了一定的影響。

由于大數(shù)據(jù)的巨大體量,集中式的數(shù)據(jù)存儲(chǔ)和處理也在轉(zhuǎn)向分布式并行處理。大數(shù)據(jù)更多的時(shí)候是非結(jié)構(gòu)化數(shù)據(jù),因此也衍生了許多分布式文件存儲(chǔ)系統(tǒng)等來應(yīng)對這類數(shù)據(jù)。然而這些新興系統(tǒng),在用戶管理、數(shù)據(jù)訪問權(quán)限、備份機(jī)制、安全控制等各方面還需進(jìn)一步完善。問題背景主要內(nèi)容數(shù)據(jù)共享機(jī)制

為了實(shí)現(xiàn)跨行業(yè)的數(shù)據(jù)整合,需要制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、交換接口以及共享協(xié)議,使得不同行業(yè)、不同部門、不同格式的數(shù)據(jù)才能基于一個(gè)統(tǒng)一的基礎(chǔ)進(jìn)行訪問、交換和共享,對于數(shù)據(jù)訪問,還需要制定細(xì)致的訪問權(quán)限,規(guī)定用戶權(quán)限。

在企業(yè)信息化建設(shè)過程中,普遍存在條塊分割和信息孤島的現(xiàn)象。不同行業(yè)之間的系統(tǒng)與數(shù)據(jù)幾乎沒有交集。同一行業(yè)也是按航證領(lǐng)域進(jìn)行劃分的,跨區(qū)域的信息交互和協(xié)同非常困難。因此,在實(shí)現(xiàn)數(shù)字化的基礎(chǔ)上,還需要實(shí)現(xiàn)互聯(lián)化,打通各行各業(yè)的數(shù)據(jù)接口,實(shí)現(xiàn)互通和數(shù)據(jù)共享。問題背景主要內(nèi)容價(jià)值挖掘問題

大數(shù)據(jù)的數(shù)據(jù)量巨大,在對數(shù)據(jù)的存儲(chǔ)、清洗、ETL(抽取、轉(zhuǎn)換、加載)方面都需要能夠應(yīng)對大數(shù)據(jù)量的需求和挑戰(zhàn),在很大程度上需要采用分布式并行處理的方式,對數(shù)據(jù)進(jìn)行挖掘時(shí),也需要改造傳統(tǒng)數(shù)據(jù)挖掘算法以及底層處理架構(gòu),同樣采用并行處理的方式才能對海量數(shù)據(jù)進(jìn)行快速計(jì)算分析。

大數(shù)據(jù)體積巨大,同時(shí)又在不斷增長,因此單位數(shù)據(jù)的價(jià)值密度在不斷降低,但同時(shí)大數(shù)據(jù)的整體價(jià)值在不斷提高,大數(shù)據(jù)被類比為石油和黃金,因此從中可以發(fā)掘巨大的商業(yè)價(jià)值。要從海量數(shù)據(jù)中找到潛藏的模式,需要進(jìn)行深度的數(shù)據(jù)挖掘和分析。問題背景主要內(nèi)容大數(shù)據(jù)發(fā)展面臨的主要挑戰(zhàn)可以概括為以下4點(diǎn):(1)多源異構(gòu)數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是原始、無組織的數(shù)據(jù),而結(jié)構(gòu)化數(shù)據(jù)是被組織成高度可管理化的數(shù)據(jù)。(2)可擴(kuò)展性。現(xiàn)階段實(shí)現(xiàn)任務(wù)處理的方式主要是將具有不同性能目標(biāo)的多個(gè)不同工作負(fù)載分布于巨大的集群系統(tǒng)中,但實(shí)現(xiàn)這個(gè)要求需要高水平的資源共享機(jī)制和高昂的成本。(3)容錯(cuò)性?,F(xiàn)階段對大部分系統(tǒng)的要求是:當(dāng)故障發(fā)生時(shí),故障對數(shù)據(jù)處理任務(wù)的影響程度應(yīng)該在一個(gè)可以接受的閾值范圍內(nèi),并不是一定要將任務(wù)重新開始。但現(xiàn)有的容錯(cuò)機(jī)制往往并不能滿足數(shù)據(jù)處理任務(wù)的要求。(4)數(shù)據(jù)質(zhì)量。很多中型以及大型企業(yè),每時(shí)每刻也都在產(chǎn)生大量的數(shù)據(jù),但很多企業(yè)在大數(shù)據(jù)的預(yù)處理階段很不重視,導(dǎo)致數(shù)據(jù)處理很不規(guī)范。其他挑戰(zhàn)大數(shù)據(jù)的發(fā)展趨勢06PART

目前,伴隨移動(dòng)互聯(lián)網(wǎng)、智能硬件和物聯(lián)網(wǎng)的快速普及,全球數(shù)據(jù)總量呈現(xiàn)指數(shù)增長的態(tài)勢,與此同時(shí),機(jī)器學(xué)習(xí)等先進(jìn)的數(shù)據(jù)分析技術(shù)創(chuàng)新也日趨活躍,使得大數(shù)據(jù)隱含的價(jià)值得以更大程度的顯現(xiàn),一個(gè)更加注重?cái)?shù)據(jù)價(jià)值的新時(shí)代正悄然來臨。由于大數(shù)據(jù)能夠通過數(shù)據(jù)的價(jià)值化來賦能傳統(tǒng)行業(yè),所以大數(shù)據(jù)作為產(chǎn)業(yè)互聯(lián)網(wǎng)的關(guān)鍵技術(shù)之一將在未來產(chǎn)業(yè)互聯(lián)網(wǎng)階段獲得巨大的發(fā)展空間。現(xiàn)階段大數(shù)據(jù)技術(shù)的發(fā)展趨勢大致體現(xiàn)在以下幾個(gè)方面:(1)邊緣計(jì)算。邊緣計(jì)算是一種分布式計(jì)算,將數(shù)據(jù)資料的處理、應(yīng)用程序的運(yùn)行甚至一些功能服務(wù)的實(shí)現(xiàn),由網(wǎng)絡(luò)中心下放到網(wǎng)絡(luò)邊緣的節(jié)點(diǎn)上。(2)數(shù)字匯流。數(shù)字匯流是未來沖擊最大的一項(xiàng)趨勢,包括數(shù)字化與整合兩大概念,它來自于網(wǎng)絡(luò)通訊技術(shù)的快速演變,讓許多各自獨(dú)立的領(lǐng)域開始產(chǎn)生互動(dòng),彼此界線逐漸模糊、產(chǎn)生整合。(3)機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種途徑,它和數(shù)據(jù)挖掘有一定的相似性,也是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、計(jì)算復(fù)雜性理論等多門學(xué)科,它更加注重算法的設(shè)計(jì),讓計(jì)算機(jī)能夠自動(dòng)地從數(shù)據(jù)中“學(xué)習(xí)”規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測。大數(shù)據(jù)的發(fā)展趨勢

(4)人工智能。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。(5)増強(qiáng)現(xiàn)實(shí)(AR)與虛擬現(xiàn)實(shí)(VR)。増強(qiáng)現(xiàn)實(shí)是一種實(shí)時(shí)地計(jì)算攝影機(jī)影像的位置及角度并加上相應(yīng)圖像、視頻、3D模型的技術(shù),這種技術(shù)的目標(biāo)是在屏幕上把虛擬世界套在現(xiàn)實(shí)世界并進(jìn)行互動(dòng)。而虛擬現(xiàn)實(shí)是一種可以創(chuàng)建和體驗(yàn)虛擬世界的計(jì)算機(jī)仿真系統(tǒng),它利用計(jì)算機(jī)生成一種模擬環(huán)境,是一種多源信息融合的、交互式的三維動(dòng)態(tài)視景和實(shí)體行為的系統(tǒng)仿真使用戶沉浸到該環(huán)境中。(6)區(qū)塊鏈。區(qū)塊鏈?zhǔn)且粋€(gè)分布式數(shù)據(jù)庫系統(tǒng),作為一種“開放式分類賬”來存儲(chǔ)和管理交易。大數(shù)據(jù)的發(fā)展趨勢THANKS第二章大數(shù)據(jù)采集

數(shù)據(jù)采集基礎(chǔ)01目錄CONTENTS大數(shù)據(jù)采集架構(gòu)0203互聯(lián)網(wǎng)數(shù)據(jù)抓取與處理技術(shù)數(shù)據(jù)采集基礎(chǔ)01PART利用計(jì)算機(jī)硬件和軟件技術(shù)對數(shù)據(jù)進(jìn)行有效的收集、存儲(chǔ)、處理和應(yīng)用的過程。是指在主要的處理以前對數(shù)據(jù)進(jìn)行的一些處理。分類:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,再進(jìn)行交互處理的理論、方法和技術(shù)。又稱為資料探勘、數(shù)據(jù)采礦。是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(Knowledge-DiscoveryinDatabases,簡稱:KDD)中的一個(gè)步驟。指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。是指在計(jì)算機(jī)或智能系統(tǒng)中,模擬人類的智能推理方式,依據(jù)推理控制策略,利用形式化的知識(shí)進(jìn)行機(jī)器思維和求解問題的過程。預(yù)處理管理挖掘可視化推理大數(shù)據(jù)技術(shù)概述數(shù)據(jù)采集基礎(chǔ)數(shù)據(jù)采集是計(jì)算機(jī)與外部世界之間聯(lián)系的橋梁,是獲取信息的重要途徑。主要分為兩種,傳統(tǒng)數(shù)據(jù)采集和大數(shù)據(jù)采集:傳統(tǒng)數(shù)據(jù)采集解決了從信息到數(shù)字信號(hào)的處理過程,這一過程數(shù)據(jù)量小,數(shù)據(jù)結(jié)構(gòu)簡單,數(shù)據(jù)存儲(chǔ)和處理簡單。大數(shù)據(jù)采集在確定用戶目標(biāo)的基礎(chǔ)上,針對該范圍內(nèi)的海量數(shù)據(jù)的智能化識(shí)別、跟蹤及采集過程。幾種大數(shù)據(jù)采集設(shè)備傳統(tǒng)數(shù)據(jù)采集傳統(tǒng)數(shù)據(jù)采集系統(tǒng)性能的好壞,主要取決于它的精度和速度。在保證精度的條件下,應(yīng)該盡可能提高采樣速度,以滿足實(shí)時(shí)采集、實(shí)時(shí)處理和實(shí)時(shí)控制等對速度的要求。傳統(tǒng)數(shù)據(jù)采集系統(tǒng)都具有以下幾個(gè)特點(diǎn):包含有計(jì)算機(jī)系統(tǒng)。軟件在數(shù)據(jù)采集系統(tǒng)中的作用大。數(shù)據(jù)采集與處理相互融合的系統(tǒng),可實(shí)現(xiàn)從數(shù)據(jù)采集、處理到控制的全部工作。速度快,數(shù)據(jù)采集過程一般都具有“實(shí)時(shí)”特性。電路集成度高,數(shù)據(jù)采集系統(tǒng)的體積小,可靠性高。先進(jìn)的采集技術(shù):總線采集技術(shù)、分布式采集技術(shù)等。傳統(tǒng)數(shù)據(jù)采集系統(tǒng)存在以下不足:傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲(chǔ)、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。對依靠并行計(jì)算提升數(shù)據(jù)處理速度方面而言,傳統(tǒng)的并行數(shù)據(jù)庫技術(shù)追求高度一致性和容錯(cuò)性,根據(jù)CAP理論,難以保證其可用性和擴(kuò)展性。大數(shù)據(jù)采集傳感器數(shù)據(jù):指通過傳感器等物聯(lián)網(wǎng)設(shè)備獲取到的數(shù)據(jù)。這類信息是實(shí)時(shí)產(chǎn)生的,觀測結(jié)果的數(shù)量和周期性將是可變的。數(shù)據(jù)質(zhì)量主要取決于傳感器是否以預(yù)期方式進(jìn)行精確測量。大數(shù)據(jù)分類01根據(jù)數(shù)據(jù)來源形式不同,數(shù)據(jù)大致分為如下三種:大數(shù)據(jù)采集互聯(lián)網(wǎng)數(shù)據(jù):指通過互聯(lián)網(wǎng)等網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)。主要源于各種網(wǎng)絡(luò)和社交媒體的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),包括Web文本和點(diǎn)擊流數(shù)據(jù)、GPS和地理定位映射數(shù)據(jù),通過管理文件傳輸協(xié)議傳送的海量圖像文件,評價(jià)數(shù)據(jù)、科學(xué)信息、電子郵件等數(shù)據(jù)。大數(shù)據(jù)分類01根據(jù)數(shù)據(jù)來源形式不同,數(shù)據(jù)大致分為如下三種:大數(shù)據(jù)采集業(yè)務(wù)數(shù)據(jù):指記錄在結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)庫中的由業(yè)務(wù)活動(dòng)產(chǎn)生的數(shù)據(jù)。當(dāng)記錄在結(jié)構(gòu)化數(shù)據(jù)庫上時(shí),分析數(shù)據(jù)并獲得統(tǒng)計(jì)指標(biāo)的最常見問題:第一種,大量信息及數(shù)據(jù)產(chǎn)生的周期,有時(shí)這些數(shù)據(jù)生成速度非???,每秒可以生成數(shù)千條記錄。第二種,不可以直接存儲(chǔ)在關(guān)系數(shù)據(jù)庫中的格式,如電子發(fā)票。大數(shù)據(jù)分類01根據(jù)數(shù)據(jù)來源形式不同,數(shù)據(jù)大致分為如下三種:大數(shù)據(jù)收集挑戰(zhàn)與困難02大數(shù)據(jù)的價(jià)值不在于存儲(chǔ)數(shù)據(jù)本身,而在于如何挖掘數(shù)據(jù),只要具有足夠的數(shù)據(jù)源,才可挖掘出數(shù)據(jù)背后的價(jià)值。因此,大數(shù)據(jù)采集是非常重要的基礎(chǔ)。針對如此龐大的數(shù)據(jù)量,在數(shù)據(jù)采集過程中,主要面臨的挑戰(zhàn)和困難如下:數(shù)據(jù)的分布性:文檔數(shù)據(jù)分布在數(shù)以百萬計(jì)的不同服務(wù)器上,沒有預(yù)先定義的拓?fù)浣Y(jié)構(gòu)相連。數(shù)據(jù)的不穩(wěn)定性:系統(tǒng)會(huì)定期或不定期地添加和刪除數(shù)據(jù)。數(shù)據(jù)的無結(jié)構(gòu)和冗余性:很多網(wǎng)絡(luò)數(shù)據(jù)沒有統(tǒng)一的機(jī)構(gòu),并存在大量重復(fù)信息。數(shù)據(jù)的錯(cuò)誤性:數(shù)據(jù)可能是錯(cuò)誤的或無效的。錯(cuò)誤來源有錄入錯(cuò)誤,語法錯(cuò)誤、OCR錯(cuò)誤等。數(shù)據(jù)結(jié)構(gòu)復(fù)雜:既有3存儲(chǔ)在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),也有文檔、系統(tǒng)日志、圖形圖像、語音、視頻等非結(jié)構(gòu)化數(shù)據(jù)大數(shù)據(jù)采集架構(gòu)02PART大數(shù)據(jù)采集架構(gòu)目前,現(xiàn)在越來越多的企業(yè)通過架設(shè)日志采集系統(tǒng)來保存這些數(shù)據(jù),希望通過這些數(shù)據(jù)獲取其中的商業(yè)或社會(huì)價(jià)值。

ScribeChukwaKafkaFlume實(shí)現(xiàn)語言C/C++JavaScalaJava框架Push/pushPush/pushPush/pullPush/push容錯(cuò)性Collector和Store之間有容錯(cuò)機(jī)制,Agent和Collector之間的容錯(cuò)用戶自己定義Agent定期記錄已發(fā)送給Collector的數(shù)據(jù)偏移量。一旦出錯(cuò),根據(jù)記錄的偏移量繼續(xù)獲取數(shù)據(jù)Agent通過Collector自動(dòng)識(shí)別并獲取可用的Collector。Store保存已經(jīng)獲取的數(shù)據(jù)偏移量,一旦Collector出現(xiàn)故障,根據(jù)記錄的偏移量繼續(xù)獲取數(shù)據(jù)。Agent和Collector以及collector和Store之間均有通融弄錯(cuò)機(jī)制,且提供三種界別的可靠保證負(fù)載均衡無無使用ZooKeeper使用ZooKeeperAgentThriftClient獲取Hadooplogs的Agent需要根據(jù)Kafka提供low-level和high-levelAPI自己定義提供豐富的AgentCollectorThriftServer系統(tǒng)提供Collector使用Sendfile、Zerocopy等系統(tǒng)提供CollectorStore直接支持HDFS直接支持HDFS直接支持HDFS直接支持HDFS大數(shù)據(jù)采集架構(gòu)Scribe01Scribe是Facebook開源的日志收集系統(tǒng),能夠從各種日志源上收集日志,存儲(chǔ)到中央存儲(chǔ)系統(tǒng)(如NFS,分布式文件系統(tǒng)等)以便于進(jìn)行集中統(tǒng)計(jì)分析處理。它為日志的“分布式收集,統(tǒng)一處理”提供了一個(gè)可擴(kuò)展的,高容錯(cuò)的方案。當(dāng)后端的存儲(chǔ)系統(tǒng)crash時(shí),Scribe會(huì)將數(shù)據(jù)寫到本地磁盤上,當(dāng)存儲(chǔ)系統(tǒng)恢復(fù)正常后,Scribe將日志重新加載到存儲(chǔ)系統(tǒng)中。大數(shù)據(jù)采集架構(gòu)Chukwa02Chukwa是一個(gè)開源的監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它構(gòu)建于HDFS和Map/Reduce框架之上,并繼承了Hadoop優(yōu)秀的擴(kuò)展性和健壯性。在數(shù)據(jù)分析方面,Chukwa擁有一套靈活、強(qiáng)大的工具,可用于監(jiān)控和分析結(jié)果來更好的利用所收集的數(shù)據(jù)結(jié)果,

提供了很多模塊以支持Hadoop集群日志分析。大數(shù)據(jù)采集架構(gòu)Kafka03Kafka是一個(gè)分布式消息隊(duì)列。具有高性能、持久化、多副本備份、橫向擴(kuò)展能力。生產(chǎn)者往隊(duì)列里寫消息,消費(fèi)者從隊(duì)列里取消息進(jìn)行業(yè)務(wù)邏輯。Kafka的主要使用場景有:1)消息隊(duì)列功能:在系統(tǒng)或應(yīng)用程序之間構(gòu)建可靠的用于傳輸實(shí)時(shí)數(shù)據(jù)的管道;2)數(shù)據(jù)處理功能:構(gòu)建實(shí)時(shí)的流數(shù)據(jù)處理程序來變換或處理數(shù)據(jù)流。大數(shù)據(jù)采集架構(gòu)Flume04Flume是一個(gè)分布式、可靠、和高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(比如文本、HDFS、HBase等)的能力。網(wǎng)絡(luò)服務(wù)器SourceChannelSinkHDFSAgentHBase文本互聯(lián)網(wǎng)數(shù)據(jù)抓取與處理技術(shù)03PART互聯(lián)網(wǎng)數(shù)據(jù)中沉淀著大量能反映用戶偏好傾向、事件趨勢等的相關(guān)信息。更重要的是,互聯(lián)網(wǎng)數(shù)據(jù)均是以共享和開放的形式存放于互聯(lián)網(wǎng)中的,因此互聯(lián)網(wǎng)數(shù)據(jù)采集的成本較低。常用的數(shù)據(jù)采集方式為APP端數(shù)據(jù)采集和web端數(shù)據(jù)采集。APP端數(shù)據(jù)采集:是指針對APP端的互聯(lián)網(wǎng)數(shù)據(jù)采集過程。Web端數(shù)據(jù)采集:是指針對PC/WAP端的互聯(lián)網(wǎng)數(shù)據(jù)采集過程,一定程度上又可以被稱為網(wǎng)絡(luò)爬蟲?;ヂ?lián)網(wǎng)數(shù)據(jù)抓取與處理技術(shù)APP端數(shù)據(jù)收集數(shù)據(jù)采集基本流程01圖數(shù)據(jù)采集基本流程1.數(shù)據(jù)抓取:抓取App運(yùn)行數(shù)據(jù),例如用戶點(diǎn)擊事件、性能數(shù)據(jù)、運(yùn)行異常崩潰等,也叫數(shù)據(jù)采集(本PPT中統(tǒng)稱為數(shù)據(jù)抓?。?。數(shù)據(jù)抓取技術(shù)大概分為兩類:侵入式抓取:也叫代碼中埋點(diǎn)。其中,代碼中埋點(diǎn)是指的在寫業(yè)務(wù)代碼時(shí),用軟件工程師人為添加的抓取業(yè)務(wù)流程、性能數(shù)據(jù)等的代碼。非侵入式抓?。阂部梢越袩o痕埋點(diǎn),主要通過監(jiān)聽各種APP頁面的點(diǎn)擊事件,來獲取相應(yīng)數(shù)據(jù)。如AspectJ技術(shù)。。APP端數(shù)據(jù)收集數(shù)據(jù)采集基本流程01圖數(shù)據(jù)采集基本流程2.數(shù)據(jù)緩存:根據(jù)數(shù)據(jù)抓取時(shí)App運(yùn)行環(huán)境,進(jìn)行不同策略的本地緩存。緩存方式:文件緩存、數(shù)據(jù)庫緩存、內(nèi)存緩存等;緩存時(shí)間:立馬上報(bào)、每天上報(bào)、每小時(shí)上報(bào)等;觸發(fā)上報(bào)時(shí)機(jī):例如,將用戶瀏覽頁面的情況存儲(chǔ)于本地?cái)?shù)據(jù)庫,等用戶處于WIFI環(huán)境時(shí)候把數(shù)據(jù)上傳到服務(wù)器。3.數(shù)據(jù)上報(bào):把抓取到的數(shù)據(jù)和緩存數(shù)據(jù)上傳到后臺(tái)服務(wù)器。APP端數(shù)據(jù)收集軟件開發(fā)工具包(SDK)要求02為了方便使用,我們一般會(huì)把APP端數(shù)據(jù)采集部分做成APP軟件開發(fā)工具包(SoftwareDevelopmentKit,SDK)中一個(gè)單獨(dú)的模塊,以Lib的形式提供給主應(yīng)用使用。一個(gè)好的SDK要滿足如下條件:簡潔易用穩(wěn)定高效APP端數(shù)據(jù)收集優(yōu)點(diǎn)與缺點(diǎn)03優(yōu)點(diǎn):具有明確的目的性,可自定義收集的數(shù)據(jù)類型,內(nèi)容等。較少的“臟數(shù)據(jù)”。可“隨時(shí)隨地”進(jìn)行數(shù)據(jù)采集。缺點(diǎn):屬于APP內(nèi)部采集,部分采集方式屬于閉源采集。數(shù)據(jù)采集總量過多且并未清理時(shí),可能導(dǎo)致手機(jī)內(nèi)存不足。存在“侵犯用戶個(gè)人隱私”的風(fēng)險(xiǎn)。網(wǎng)絡(luò)爬蟲技術(shù)網(wǎng)絡(luò)爬蟲概述01盡管目前移動(dòng)端的應(yīng)用較為廣泛,但由于涉及用戶隱私,企業(yè)知識(shí)產(chǎn)權(quán)等相關(guān)問題,因此,APP采集通常是企業(yè)內(nèi)部需要對用戶行為進(jìn)行分析時(shí)采用的常規(guī)方式。而在學(xué)術(shù)領(lǐng)域,傳統(tǒng)Web端數(shù)據(jù)采集應(yīng)用廣泛。而針對Web端的數(shù)據(jù)采集從一定程度上又可以被稱為網(wǎng)絡(luò)爬蟲。WIKI定義:“A

Webcrawler,sometimescalleda

spider

or

spiderbot

andoftenshortenedto

crawler,isan

Internetbot

thatsystematicallybrowsesthe

WorldWideWeb,typicallyforthepurposeof

Webindexing

(webspidering).”百度定義:網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。網(wǎng)絡(luò)爬蟲技術(shù)網(wǎng)絡(luò)爬蟲概述01網(wǎng)絡(luò)爬蟲引用廣泛,常見的應(yīng)用包括:服務(wù)于搜索引擎:網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)上尚未索引的數(shù)據(jù),索引到搜索引擎到索引,方便用戶搜索。采集網(wǎng)絡(luò)數(shù)據(jù),用于數(shù)據(jù)分析:數(shù)據(jù)分析到數(shù)據(jù)來源,一部分來自于互聯(lián)網(wǎng),在對數(shù)據(jù)進(jìn)行分析之前,需要使用爬技術(shù),將數(shù)據(jù)采集到以后,進(jìn)行數(shù)據(jù)清洗,結(jié)構(gòu)化,然后才能對數(shù)據(jù)進(jìn)行分析。輿情監(jiān)測:輿情監(jiān)測,整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù)通過對互聯(lián)網(wǎng)海量信息自動(dòng)抓取、自動(dòng)分類聚類、主題檢測、專題聚焦,實(shí)現(xiàn)用戶的網(wǎng)絡(luò)輿情監(jiān)測和新聞專題追蹤等信息需求,形成簡報(bào)、報(bào)告、圖表等分析結(jié)果,為客戶全面掌握群眾思想動(dòng)態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。產(chǎn)品基礎(chǔ)服務(wù):根據(jù)產(chǎn)品的具體要求,通過網(wǎng)絡(luò)爬蟲技術(shù),對互聯(lián)網(wǎng)中的信息進(jìn)行爬取,為產(chǎn)品進(jìn)行基礎(chǔ)服務(wù)支持。聚合應(yīng)用:通過爬蟲技術(shù),采集同該行業(yè)相關(guān)都網(wǎng)站上都內(nèi)容,然后自己再經(jīng)過整理展示。網(wǎng)絡(luò)爬蟲技術(shù)網(wǎng)絡(luò)爬蟲工作流程共4步,分別是第一步:選取一部分精心挑選的種子URL。第二步:將這些URL放入待抓取URL隊(duì)列。工作流程02網(wǎng)絡(luò)爬蟲工作流程共4步,分別是第三步:從待抓取URL隊(duì)列中取出待抓取URL,解析DNS,并且得到主機(jī)的ip地址,并將URL對應(yīng)的網(wǎng)頁下載下來,存儲(chǔ)進(jìn)已下載網(wǎng)頁庫中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列。網(wǎng)絡(luò)爬蟲技術(shù)工作流程02網(wǎng)絡(luò)爬蟲工作流程共4步,分別是第四步:分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。網(wǎng)絡(luò)爬蟲技術(shù)工作流程02抓取策略03在爬蟲系統(tǒng)中,待抓取URL隊(duì)列是很重要的一部分。同時(shí)待抓取URL隊(duì)列中的URL排序也是一個(gè)很重要的問題。網(wǎng)絡(luò)爬蟲的抓取策略是指在網(wǎng)絡(luò)爬蟲系統(tǒng)中決定URL在待抓取URL隊(duì)列中排序順序的方法。1)深度優(yōu)先策略:是按照深度由低到高的順序依次訪問下一級網(wǎng)頁鏈接,直到不能再深入為止。爬蟲在完成一個(gè)爬行分支后返回到上一鏈接節(jié)點(diǎn)進(jìn)一步搜索其他鏈接。當(dāng)所有鏈接遍歷完后,爬行任務(wù)結(jié)束。深度優(yōu)先策略比較適合垂直搜索或站內(nèi)搜索。按照深度優(yōu)先策略,爬蟲的順序?yàn)?A→B→D→E→I→C→F→G→H。網(wǎng)絡(luò)爬蟲技術(shù)在爬蟲系統(tǒng)中,待抓取URL隊(duì)列是很重要的一部分。同時(shí)待抓取URL隊(duì)列中的URL排序也是一個(gè)很重要的問題。網(wǎng)絡(luò)爬蟲的抓取策略是指在網(wǎng)絡(luò)爬蟲系統(tǒng)中決定URL在待抓取URL隊(duì)列中排序順序的方法。2)廣度優(yōu)先策略:是按照廣度優(yōu)先的搜索思想,逐層抓取URL池中的每一個(gè)URL的內(nèi)容,并將每一層的URL納入U(xiǎn)RL池中,按照廣度優(yōu)先的策略繼續(xù)遍歷。由此可見,這種策略屬于盲目搜索,會(huì)徹底地搜索整張圖,效率較低。這種策略多用于主題爬蟲。按照深度優(yōu)先策略,爬蟲的順序?yàn)?A→B→D→E→I→C→F→G→H。網(wǎng)絡(luò)爬蟲技術(shù)抓取策略03在爬蟲系統(tǒng)中,待抓取URL隊(duì)列是很重要的一部分。同時(shí)待抓取URL隊(duì)列中的URL排序也是一個(gè)很重要的問題。網(wǎng)絡(luò)爬蟲的抓取策略是指在網(wǎng)絡(luò)爬蟲系統(tǒng)中決定URL在待抓取URL隊(duì)列中排序順序的方法。3)局部PageRank策略:是借鑒PageRank的思想,按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標(biāo)網(wǎng)頁的相似度或與主題的相關(guān)性,并選取評價(jià)最好的一個(gè)或幾個(gè)URL進(jìn)行抓取,即對已經(jīng)下載的網(wǎng)頁,連同待抓取URL隊(duì)列中的URL形成網(wǎng)頁集合,計(jì)算每個(gè)頁面的PageRank值,計(jì)算完之后,將待抓取URL隊(duì)列中的URL按照PageRank值的大小排列,并按照該順序抓取頁面。但是,這種策略由于網(wǎng)絡(luò)中廣告鏈接、作弊鏈接的存在,易導(dǎo)致PageRank的值不能完全刻畫其重要程度,從而導(dǎo)致抓取的數(shù)據(jù)無效。網(wǎng)絡(luò)爬蟲技術(shù)抓取策略03在爬蟲系統(tǒng)中,待抓取URL隊(duì)列是很重要的一部分。同時(shí)待抓取URL隊(duì)列中的URL排序也是一個(gè)很重要的問題。網(wǎng)絡(luò)爬蟲的抓取策略是指在網(wǎng)絡(luò)爬蟲系統(tǒng)中決定URL在待抓取URL隊(duì)列中排序順序的方法。4)OPIC(OnlinePageImportanceComputation)策略:實(shí)際上也是對頁面進(jìn)行一個(gè)重要性打分。初始時(shí),給所有頁面一個(gè)相同的初始現(xiàn)金(cash)。當(dāng)下載了某個(gè)頁面P之后,將P的現(xiàn)金分?jǐn)偨o所有從P中分析出的鏈接,并將P的現(xiàn)金清空。對于待抓取URL隊(duì)列中的所有頁面都須按照現(xiàn)金數(shù)進(jìn)行排序。與PageRank相比,PageRank每次都需要迭代計(jì)算,而OPIC策略不需要迭代過程。因此,OPIC計(jì)算速度明顯快于局部PageRank策略,這是一種較好的重要性衡量策略,適合實(shí)時(shí)計(jì)算場景。網(wǎng)絡(luò)爬蟲技術(shù)抓取策略03在爬蟲系統(tǒng)中,待抓取URL隊(duì)列是很重要的一部分。同時(shí)待抓取URL隊(duì)列中的URL排序也是一個(gè)很重要的問題。網(wǎng)絡(luò)爬蟲的抓取策略是指在網(wǎng)絡(luò)爬蟲系統(tǒng)中決定URL在待抓取URL隊(duì)列中排序順序的方法。5)大站優(yōu)先策略:是指對于待抓取URL隊(duì)列中的所有網(wǎng)頁,根據(jù)所屬的網(wǎng)站進(jìn)行分類。對于待下載頁面量大的網(wǎng)站,優(yōu)先下載。這種策略的本質(zhì)思想傾向于優(yōu)先下載大型網(wǎng)站,大型網(wǎng)站往往包含最多的頁面,而且大型網(wǎng)站往往是著名企業(yè)的內(nèi)容,網(wǎng)頁質(zhì)量一般較高。大量實(shí)際應(yīng)用表明這種策略優(yōu)于深度優(yōu)先策略。6)反向鏈接數(shù)策略:是指一個(gè)網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個(gè)網(wǎng)頁的內(nèi)容受到其他人推薦的程度。7)最佳優(yōu)先搜索策略:是通過計(jì)算URL描述文本與目標(biāo)網(wǎng)頁的相似度或者與主題的相關(guān)性,根據(jù)所設(shè)定的閾值選出有效URL進(jìn)行抓取。網(wǎng)絡(luò)爬蟲技術(shù)抓取策略03互聯(lián)網(wǎng)中的網(wǎng)頁信息經(jīng)常更新,而網(wǎng)絡(luò)爬蟲程序須在網(wǎng)頁更新后,對這些網(wǎng)頁進(jìn)行重新爬取。常見的網(wǎng)頁更新策略包括用戶體驗(yàn)策略、歷史數(shù)據(jù)策略以及聚類分析策略等。1)用戶體驗(yàn)策略:在搜索引擎查詢某個(gè)關(guān)鍵詞時(shí),以用戶體驗(yàn)為主,在爬蟲服務(wù)器資源有限的情況下,爬蟲會(huì)優(yōu)先更新排名結(jié)果靠前的網(wǎng)頁。在用戶體驗(yàn)策略中,爬蟲程序中會(huì)保留對應(yīng)網(wǎng)頁的多個(gè)歷史版本,并進(jìn)行對應(yīng)分析,依據(jù)這多個(gè)歷史版本的內(nèi)容更新、搜索質(zhì)量影響、用戶體驗(yàn)等信息,來確定網(wǎng)頁的爬取周期。2)歷史數(shù)據(jù)策略:是依據(jù)網(wǎng)頁的歷史更新數(shù)據(jù),通過泊松分布進(jìn)行建模等手段,預(yù)測該網(wǎng)頁下一次更新的時(shí)間,從而確定網(wǎng)頁的爬取周期。網(wǎng)絡(luò)爬蟲技術(shù)更新策略04互聯(lián)網(wǎng)中的網(wǎng)頁信息經(jīng)常更新,而網(wǎng)絡(luò)爬蟲程序須在網(wǎng)頁更新后,對這些網(wǎng)頁進(jìn)行重新爬取。常見的網(wǎng)頁更新策略包括用戶體驗(yàn)策略、歷史數(shù)據(jù)策略以及聚類分析策略等。3)聚類分析策略:是將聚類分析算法運(yùn)用于爬蟲對網(wǎng)頁更新的一種策略。其基本原理是首先將海量網(wǎng)頁進(jìn)行聚類分析(即按照相似性進(jìn)行分類)。通常,相似網(wǎng)頁的更新頻率類似。然后,這些網(wǎng)頁會(huì)被分為多個(gè)簇,每個(gè)簇(Cluster)中的網(wǎng)頁具有類似的屬性,即具有類似的更新頻率。然后,對聚類結(jié)果中的每個(gè)簇中的網(wǎng)頁進(jìn)行抽樣,并計(jì)算出抽樣網(wǎng)頁的平均更新頻率,從而確定每個(gè)聚類的網(wǎng)頁爬行頻率。網(wǎng)絡(luò)爬蟲技術(shù)更新策略04按網(wǎng)絡(luò)爬蟲功能可以分為批量型爬蟲、增量型爬蟲和垂直型爬蟲三類。1)批量型爬蟲:是根據(jù)用戶配置進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的抓取,用戶通常需要配置的信息包括URL或URL池、爬蟲累計(jì)工作時(shí)間和爬蟲累計(jì)獲取的數(shù)據(jù)量等信息。這種方法適用于互聯(lián)網(wǎng)數(shù)據(jù)獲取的任何場景,通常用于評估算法的可行性以及審計(jì)目標(biāo)URL數(shù)據(jù)的可用性。批量式爬蟲實(shí)際上是增量型爬蟲和垂直型爬蟲的基礎(chǔ)。常見網(wǎng)絡(luò)爬蟲方法2)增量型爬蟲:根據(jù)用戶配置持續(xù)進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的抓取,用戶通常需要配置的信息包括URL池、單個(gè)URL數(shù)據(jù)抓取頻度和數(shù)據(jù)更新策略等信息。這種方法可以實(shí)時(shí)獲取互聯(lián)網(wǎng)數(shù)據(jù),適用于通用的商業(yè)搜索引擎。3)垂直型爬蟲:是根據(jù)用戶配置持續(xù)進(jìn)行指定網(wǎng)絡(luò)數(shù)據(jù)的抓取,用戶通常需要配置的信息包括URL或URL池、敏感熱詞

和數(shù)據(jù)更新策略

等信息。這種方法可以實(shí)時(shí)獲取互聯(lián)網(wǎng)中與指定內(nèi)容相關(guān)的數(shù)據(jù),適用于垂直搜索網(wǎng)站或者垂直行業(yè)網(wǎng)站。按網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)可以分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲、分布式網(wǎng)絡(luò)爬蟲等方法。1)通用網(wǎng)絡(luò)爬蟲(全網(wǎng)爬蟲):,它是根據(jù)預(yù)先設(shè)定的一個(gè)或若干初始種子URL為開始,迭代下載收集到的URL頁面內(nèi)容,直至滿足停止條件。主要為門戶站點(diǎn)、搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)。網(wǎng)絡(luò)爬蟲技術(shù)按網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)可以分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲、分布式網(wǎng)絡(luò)爬蟲等方法2)聚焦網(wǎng)絡(luò)爬蟲(主題網(wǎng)絡(luò)爬蟲):是按照預(yù)先定義好的主題有選擇地進(jìn)行網(wǎng)頁爬蟲的一種爬蟲技術(shù)。相對于通用網(wǎng)絡(luò)爬蟲,增加目標(biāo)定義和過濾機(jī)制。網(wǎng)絡(luò)爬蟲技術(shù)網(wǎng)絡(luò)爬蟲技術(shù)按網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)可以分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲、分布式網(wǎng)絡(luò)爬蟲等方法3)深層網(wǎng)絡(luò)爬蟲:在訪問并解析出URL后,還需要繼續(xù)分析該頁面是否包含有深層頁面入口的表單。若包含,則還要模擬人的行為對該表單進(jìn)行分析、填充并提交,最后從返回頁面中提取所需要的內(nèi)容,將其加入到搜索引擎中參與索引以供用戶查找。按網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)可以分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲、分布式網(wǎng)絡(luò)爬蟲等方法4)分布式網(wǎng)絡(luò)爬蟲:包含多個(gè)爬蟲,每個(gè)爬蟲需要完成的任務(wù)和單個(gè)的爬行器類似,它們從互聯(lián)網(wǎng)上下載網(wǎng)頁,并把網(wǎng)頁保存在本地的磁盤上,從中抽取URL并沿著這些URL的指向繼續(xù)爬行。網(wǎng)絡(luò)爬蟲技術(shù)按網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)可以分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲、分布式網(wǎng)絡(luò)爬蟲等方法4)分布式網(wǎng)絡(luò)爬蟲:重點(diǎn)在于爬蟲如何進(jìn)行通信。目前分布式網(wǎng)絡(luò)爬蟲按通信方式不同可以分為主從式和對等式。網(wǎng)絡(luò)爬蟲技術(shù)a)主從式:實(shí)現(xiàn)簡單、利于管理Master服務(wù)器:維護(hù)待抓取URL隊(duì)列;

分發(fā)URL到不同的Slave服務(wù)器;調(diào)解Slave服務(wù)器的負(fù)載情況。Slave服務(wù)器:負(fù)責(zé)實(shí)際的網(wǎng)頁下載工作,各個(gè)Slave之間互不通信b)對等式:hash算法:分配待抓取的URL至不同的服務(wù)器抓取服務(wù)器:負(fù)責(zé)實(shí)際的網(wǎng)頁下載工作,網(wǎng)絡(luò)爬蟲技術(shù)按網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)可以分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲、分布式網(wǎng)絡(luò)爬蟲等方法4)分布式網(wǎng)絡(luò)爬蟲:重點(diǎn)在于爬蟲如何進(jìn)行通信。目前分布式網(wǎng)絡(luò)爬蟲按通信方式不同可以分為主從式和對等式。文本分詞是將字符串文本劃分為有意義的單位的過程,如詞語、句子或主題。中文分詞也稱為切分,是將中文文本分割成若干個(gè)獨(dú)立、有意義的基本單位的過程。中文分詞的準(zhǔn)確度會(huì)直接影響搜索結(jié)果的相關(guān)度排序。分詞算法的基本原理是根據(jù)輸入的字符串文本進(jìn)行分詞處理、過濾處理,然后輸出分詞后的結(jié)果,包括英文單詞、中文單詞以及數(shù)字串等一系列切分好的字符串。文本數(shù)據(jù)處理文本分詞概述01現(xiàn)有的中文分詞方法可分為三大類,即基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。文本數(shù)據(jù)處理中文分詞算法021.基于字符串匹配的分詞方法(機(jī)械分詞方法)——初分手段它是按照一定的策略將待分析的句子(字符串)與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)分詞)。常用的機(jī)械分詞方法包括:正向最大匹配法:由左到右的方向?qū)⒋衷~文本中的幾個(gè)連續(xù)字符與詞典匹配,如果匹配上,則切分出一個(gè)詞逆向最大匹配法:由右到左的方向進(jìn)行最大匹配雙向最大匹配法:正向最大匹配法與逆向最大匹配法的進(jìn)行結(jié)果對比最少切分法:取幾種分案中分詞數(shù)最少的方案保證切出的詞數(shù)最小現(xiàn)有的中文分詞方法可分為三大類,即基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。文本數(shù)據(jù)處理中文分詞算法022.基于理解的分詞方法(人工智能)——難以實(shí)現(xiàn)通過讓計(jì)算機(jī)模擬人對句子的理解達(dá)到識(shí)別詞的效果?;舅枷耄涸诜衷~的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。3.基于統(tǒng)計(jì)的分詞方法在給定大量已經(jīng)分詞的文本的前提下,利用統(tǒng)計(jì)原理、機(jī)器學(xué)習(xí)模型來學(xué)習(xí)詞語切分的規(guī)律(稱為訓(xùn)練),從而實(shí)現(xiàn)對未知文本的切分。主要的統(tǒng)計(jì)模型包括:N元模型(N-gram) 隱馬爾可夫模型(hiddenmarkovmodel,HMM);最大熵模型(ME) 條件隨機(jī)場模型(conditionalrandomfeds,CRF)?,F(xiàn)有的中文分詞方法可分為三大類,即基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。文本數(shù)據(jù)處理中文分詞算法02分詞方法基于字符串匹配的分詞方法基于理解的分詞方法基于統(tǒng)計(jì)的分詞方法準(zhǔn)確度一般準(zhǔn)確度高比較準(zhǔn)確分詞速度快慢一般新詞識(shí)別差強(qiáng)強(qiáng)歧義識(shí)別差強(qiáng)強(qiáng)語料庫不需要不需要需要規(guī)則庫不需要需要不需要算法復(fù)雜度容易困難一般各種分詞方法的比較文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02輸入文本匹配算法消歧規(guī)則分詞詞典輸出文本MMSEG分詞算法是一種基于字符串匹配的分詞方法,

其基本思想是通過匹配算法和詞典進(jìn)行匹配,

再根據(jù)消歧規(guī)則將最終的分詞結(jié)果輸出?;玖鞒蹋簭囊粋€(gè)完整的句子里,按照從左向右的順序,以詞典為標(biāo)準(zhǔn),

通過匹配算法識(shí)別出多種不同的組合,

然后根據(jù)消歧規(guī)則,

確定最佳的備選詞組合。1.詞典:chas.dic(漢字字典)units.dic(中文單位詞語)words..dic(自定義詞典):存儲(chǔ)自定義詞條,作為新名詞、專有詞的判斷。文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02輸入文本匹配算法消歧規(guī)則分詞詞典輸出文本2.匹配算法簡單最大匹配:從待分詞文本的左邊開始,列出所有可能的分詞結(jié)果。文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02輸入文本匹配算法消歧規(guī)則分詞詞典輸出文本“國際化大都市”的簡單匹配算法的分詞結(jié)果為:國國際國際化國際化大...“研究大數(shù)據(jù)”的復(fù)雜最大匹配算法的分詞結(jié)果為:研|究|大研|究|大數(shù)研究|大|數(shù)研究|大|數(shù)據(jù)研究|大數(shù)|據(jù)研究大|數(shù)|據(jù)…2.匹配算法復(fù)雜最大匹配:以給定字為起始位置,

向右得到所有可能的“以三個(gè)詞為一組”的切詞組合。文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02輸入文本匹配算法消歧規(guī)則分詞詞典輸出文本3.消除歧義MMSEG詞算法根據(jù)漢語語言的基本成詞習(xí)慣提出了四個(gè)規(guī)則進(jìn)行過濾,直到只有一種結(jié)果或者第四個(gè)規(guī)則使用完畢。這四種規(guī)則為:規(guī)則1:備選詞組合的最大匹配規(guī)則(maximunmatching)規(guī)則2:備選詞組合的平均詞長最大規(guī)則(largestaveragewordlength)。規(guī)則3:備選詞組合的詞長變化最小規(guī)則(smallvarianceofwordlengths)。規(guī)則4:備選詞組合中,單字詞的出現(xiàn)頻率統(tǒng)計(jì)值最高(largestsumofdegreeofmorphemicfreedomofone-characterwords)(或者取單字詞頻的自然對數(shù),然后將得到的值相加,取總和最大的詞)。文本數(shù)據(jù)處理中文分詞算法——MMSEG算法023.四種歧義消除規(guī)則規(guī)則1:備選詞組合的最大匹配規(guī)則(maximunmatching)文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02假設(shè):“研究大數(shù)據(jù)”的復(fù)雜最大匹配算法的分詞結(jié)果為:“研|究|大”、“研|究|大數(shù)”、“研究|大|數(shù)”、“研究|大|數(shù)據(jù)”、“研究|大數(shù)|據(jù)”、“研究大|數(shù)|據(jù)”選C4,C5,C63.四種歧義消除規(guī)則規(guī)則2:備選詞組合的平均詞長最大規(guī)則(largestaveragewordlength)。文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02averagewordlength(C4)=averagewordlength(研究|大|數(shù)據(jù))=5/3averagewordlength(C5)=averagewordlength(研究|大數(shù)|據(jù))=5/3averagewordlength(C6)=averagewordlength(研究大|數(shù)|據(jù))=5/3選C4,C5,C63.四種歧義消除規(guī)則規(guī)則3:備選詞組合的詞長變化最小規(guī)則(smallvarianceofwordlengths)。文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02選C4,C53.四種歧義消除規(guī)則規(guī)則4:備選詞組合中,單字詞的出現(xiàn)頻率統(tǒng)計(jì)值最高(largestsumofdegreeofmorphemicfreedomofone-characterwords)(或者取單字詞頻的自然對數(shù),然后將得到的值相加,取總和最大的詞)。文本數(shù)據(jù)處理中文分詞算法——MMSEG算法02選C4:“研究|大|數(shù)據(jù)”所謂單字自由度(morphemicfreedomofone-characterwords),能夠簡單的理解為這個(gè)字作為單獨(dú)出現(xiàn)的語境次數(shù)。比方“的”常常作為定語修飾字,常常出如今各種語境??墒恰暗摹迸紶栆矔?huì)和其它字詞組成成語。比方“目的”等,這樣的組合會(huì)影響改字的自由度。關(guān)鍵在于詞典內(nèi)容。 Jieba THULAC SnowNLP NLPR文本數(shù)據(jù)處理常用中文分詞工具03網(wǎng)絡(luò)爬蟲在爬取相應(yīng)的網(wǎng)頁后,會(huì)將網(wǎng)頁存儲(chǔ)到服務(wù)器的原始數(shù)據(jù)庫中,然后爬蟲程序尤其是搜索引擎將會(huì)對這些網(wǎng)頁進(jìn)行分析并確定各網(wǎng)頁的重要性,從而確定網(wǎng)頁的優(yōu)先級和用戶檢索結(jié)果的網(wǎng)頁排名。常用的網(wǎng)頁分析算法包括基于用戶行為的網(wǎng)頁分析算法、基于網(wǎng)絡(luò)拓?fù)涞木W(wǎng)頁分析算法及基于網(wǎng)頁內(nèi)容的網(wǎng)頁分析算法等。文本數(shù)據(jù)處理網(wǎng)頁分析算法041.基于用戶行為的網(wǎng)頁分析算法依據(jù)用戶對這些網(wǎng)頁的訪問行為,對這些網(wǎng)頁進(jìn)行評價(jià)。用戶行為包括用戶對網(wǎng)頁的訪問頻率、用戶對網(wǎng)頁的訪問時(shí)長、用戶的單擊率等信息對網(wǎng)頁進(jìn)行綜合評價(jià)。網(wǎng)絡(luò)爬蟲在爬取相應(yīng)的網(wǎng)頁后,會(huì)將網(wǎng)頁存儲(chǔ)到服務(wù)器的原始數(shù)據(jù)庫中,然后爬蟲程序尤其是搜索引擎將會(huì)對這些網(wǎng)頁進(jìn)行分析并確定各網(wǎng)頁的重要性,從而確定網(wǎng)頁的優(yōu)先級和用戶檢索結(jié)果的網(wǎng)頁排名。常用的網(wǎng)頁分析算法包括基于用戶行為的網(wǎng)頁分析算法、基于網(wǎng)絡(luò)拓?fù)涞木W(wǎng)頁分析算法及基于網(wǎng)頁內(nèi)容的網(wǎng)頁分析算法等。文本數(shù)據(jù)處理網(wǎng)頁分析算法042.基于網(wǎng)絡(luò)拓?fù)涞木W(wǎng)頁分析算法根據(jù)網(wǎng)頁的鏈接關(guān)系、結(jié)構(gòu)關(guān)系、已知網(wǎng)頁或數(shù)據(jù)等對網(wǎng)頁進(jìn)行分析的一種算法。常見的基于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論