第3章 數(shù)據(jù)基礎(chǔ)-SDU-2017秋_第1頁
第3章 數(shù)據(jù)基礎(chǔ)-SDU-2017秋_第2頁
第3章 數(shù)據(jù)基礎(chǔ)-SDU-2017秋_第3頁
第3章 數(shù)據(jù)基礎(chǔ)-SDU-2017秋_第4頁
第3章 數(shù)據(jù)基礎(chǔ)-SDU-2017秋_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第3章數(shù)據(jù)基礎(chǔ)

山東大學(xué)計算機科學(xué)與技術(shù)學(xué)院蔣志方2主要內(nèi)容3.1數(shù)據(jù)基礎(chǔ)3.2數(shù)據(jù)特征3.3數(shù)據(jù)預(yù)處理3.4數(shù)據(jù)存儲3.5數(shù)據(jù)分析2023/2/42/4/2023數(shù)據(jù)常伴我們左右,有關(guān)數(shù)據(jù)的常識3.1數(shù)據(jù)基礎(chǔ)數(shù)據(jù)屬性數(shù)據(jù)對象的特征(characteristics)或特性(feature)別名:特征維度變量屬性集合:屬性向量屬性類型(1)類別型屬性屬性類型(2)有序型屬性屬性類型(3)數(shù)值型屬性離散型和連續(xù)型屬性類型基本統(tǒng)計描述

數(shù)據(jù)的宏觀表達(dá)“探索式數(shù)據(jù)分析”的基礎(chǔ)3.2數(shù)據(jù)特征

基本統(tǒng)計描述均值表示一系列數(shù)據(jù)或統(tǒng)計總體的平均特征的值中位數(shù)是指將統(tǒng)計總體當(dāng)中的各個變量值按大小順序排列起來,形成一個數(shù)列,處于變量數(shù)列中間位置的變量值就稱為中位數(shù)均方差方差是各個數(shù)據(jù)與平均數(shù)之差的平方和的平均數(shù),通常以σ2表示

數(shù)據(jù)對象間的關(guān)系:相似度和相異度數(shù)據(jù)間關(guān)系的度量,經(jīng)常在統(tǒng)計和數(shù)據(jù)挖掘中使用相異度矩陣存儲n個對象兩兩之間的相似性,表現(xiàn)形式是一個n×n維的矩陣。d(i,j)是對象i和j之間相異性的量化表示,通常為非負(fù)值,兩個對象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)=d(j,i),d(i,i)=0。

多數(shù)聚類算法都是建立在相異度矩陣基礎(chǔ)上,如果數(shù)據(jù)是以數(shù)據(jù)矩陣形式給出的,就要將數(shù)據(jù)矩陣轉(zhuǎn)化為相異度矩陣。對象間的相似度或相異度是基于兩個對象間的距離來計算的。相異度矩陣類別型數(shù)據(jù):表現(xiàn)為類別,但不區(qū)分順序,是由定類尺度計量形成的

其距離度量可以直接用屬性集中,對應(yīng)位置不相等的屬性的個數(shù)作為度量值不匹配率:公式中,p為兩對象間的屬性個數(shù),m為兩對象對應(yīng)屬性相等的個數(shù)。(二值類別型數(shù)據(jù))Jaccard系數(shù):

Jaccard相似性系數(shù),用來比較樣本集中的相似性和分散性的一個概率。Jaccard系數(shù)等于樣本集交集與樣本集合集的比值類別型數(shù)據(jù)距離計算數(shù)值型屬性間的距離:明科夫斯基距離系歐氏距離(L2)曼哈頓距離(L1)明科夫斯基距離(LP)分類存在不確定性屬性不確定性來源本身誤差精度轉(zhuǎn)換特定應(yīng)用需求缺失值數(shù)據(jù)集成數(shù)據(jù)不確定性3.3數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)系統(tǒng)架構(gòu)應(yīng)用數(shù)據(jù)庫ETL抽?。‥xtract)轉(zhuǎn)化(Transform)裝載(Load)數(shù)據(jù)倉庫數(shù)據(jù)產(chǎn)品商業(yè)智能分析ETL的內(nèi)部過程 ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)清理數(shù)據(jù)整合原始數(shù)據(jù)通常含有雜質(zhì)“Garbagein,garbageout.”處理過程數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量高->對目標(biāo)用途的符合度高精確性(Accuracy)完整性(Completeness)一致性(Consistency)適時性(Timeliness)可信性(Believability)可解釋性(Interpretability)數(shù)據(jù)可視化質(zhì)量數(shù)據(jù)墨水比(data-inkratio): 數(shù)據(jù)可視化質(zhì)量的衡量標(biāo)準(zhǔn)數(shù)據(jù)清洗

數(shù)據(jù)清理:檢測和清除數(shù)據(jù)中的錯誤和不一致,以提高數(shù)據(jù)質(zhì)量Data…Data!數(shù)據(jù)錯誤類型及處理方法缺失值常量代替缺失值屬性平均值填充回歸人工填充噪聲值回歸分析離群點分析可視數(shù)據(jù)清洗使用可視化工具進行數(shù)據(jù)清洗數(shù)據(jù)整合數(shù)據(jù)整合包括:(1)合并來自多個數(shù)據(jù)源的數(shù)據(jù)(2)向用戶提供一個關(guān)于這些數(shù)據(jù)的統(tǒng)一視圖管理來自多個數(shù)據(jù)源的數(shù)據(jù)數(shù)據(jù)1數(shù)據(jù)2數(shù)據(jù)3數(shù)據(jù)多數(shù)據(jù)源結(jié)構(gòu)沖突(structuralconflicts): 不同的模式(schema)等數(shù)據(jù)沖突(dataconflicts): 重復(fù)的記錄,沖突的記錄屬性等

數(shù)據(jù)整合實例(1)客戶列表1客戶列表2整合結(jié)果數(shù)據(jù)整合實例(2) 對同一篇論文,來自不同論文數(shù)據(jù)庫的引用格式可能存在不同 整合為某種統(tǒng)一格式另一種數(shù)據(jù)整合方式:虛擬化數(shù)據(jù)源A數(shù)據(jù)源B數(shù)據(jù)源C轉(zhuǎn)換器轉(zhuǎn)換器轉(zhuǎn)換器擁有統(tǒng)一模式的“虛擬數(shù)據(jù)庫”

數(shù)據(jù)清洗和整合步驟 初步分析:在操作之前進行數(shù)據(jù)分析 沖突解析:解析數(shù)據(jù)源間的數(shù)據(jù)沖突 定義數(shù)據(jù)轉(zhuǎn)換工作流和轉(zhuǎn)換規(guī)則:使用工作流方式完成模式(schema)配準(zhǔn)和轉(zhuǎn)換 工作流驗證:驗證工作流中的步驟是否正確 數(shù)據(jù)轉(zhuǎn)換:開始流程3.4數(shù)據(jù)存儲裝載并存儲數(shù)據(jù)基于文件的存儲數(shù)據(jù)庫&數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)倉庫最簡單的方法直接將數(shù)據(jù)存儲為文件形式簡單、方便

電子表格類型:CSV文件逗號分隔值(Comma-SeparatedValues)結(jié)構(gòu)化文件格式 通用格式:XML(可擴展標(biāo)記語言,eXtensibleMarkupLanguage)<employer>

<id>23</id>

<name>Alice</name>

<city>CA</city>

<dptid>1</dptid></employer>IDNameCityDpt.ID23AliceCA124BobNY2XML的擴展IVOA(International

Virtual

ObservatoryAlliance)VOTable:用于交換天文學(xué)領(lǐng)域表格數(shù)據(jù)的XML擴展XML的擴展 KeyholeMarkupLanguage(KML):在基于web的二維或三維地圖上表達(dá)地理標(biāo)注信息<?xmlversion="1.0"encoding="UTF-8"?><kmlxmlns="/kml/2.2"><Document><Placemark><name>NewYorkCity</name><description>NewYorkCity</description><Point><coordinates>-74.006393,40.714172,0</coordinates></Point></Placemark></Document></kml>特殊用途文件格式 HDF(HierarchicalDataFormat):組織和存儲大量的數(shù)值型數(shù)據(jù),特別是科學(xué)計算數(shù)據(jù)數(shù)據(jù)庫 “Adatabaseisacollectionofdata,typicallydescribingtheactivitiesofoneormorerelatedorganizations.” (數(shù)據(jù)庫是數(shù)據(jù)的集合,通常用來描述多個相關(guān)組織結(jié)構(gòu)的活動。)應(yīng)用數(shù)據(jù)庫--RaghuRamakrishnanandJohannesGehrke,“DatabaseManagementSystem”關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS) 數(shù)據(jù)的關(guān)系模型是現(xiàn)代數(shù)據(jù)庫系統(tǒng)的標(biāo)準(zhǔn)— 最小化應(yīng)用程序與機器表示間的耦合度 高級數(shù)據(jù)語言:

數(shù)據(jù)定義語言(DataDefinitionLanguage)

結(jié)構(gòu)化查詢語言(StructuredQueryLanguage)關(guān)系模型表(關(guān)系)列(屬性)行(記錄)約束鍵:主鍵,外鍵等索引 “Whenpeopleusetheworddatabase,fundamentallywhattheysayisthatthedatashouldbeself-describinganditshouldhaveaschema.That’sreallyalltheworddatabasemeans.” (當(dāng)使用數(shù)據(jù)庫這個詞時,人們強調(diào)的是數(shù)據(jù)需要能夠自描述,并且擁有模式。這就是“數(shù)據(jù)庫”的含義。)--JimGray,“TheFourthParadigm”關(guān)系數(shù)據(jù)庫可視化美國自然基金數(shù)據(jù)庫可視化Z.Liu,S.B.Navathe,andJ.T.Stasko,Network-basedvisualanalysisoftabulardata,IEEEConferenceonVisualAnalyticsScienceandTechnology(VAST),pp.41–50,2011.挑戰(zhàn)勝任交互式任務(wù)所需的響應(yīng)時間(通常為亞秒級)大尺度數(shù)據(jù)的索引構(gòu)建數(shù)據(jù)間的語意關(guān)系NoSQL數(shù)據(jù)庫“NotOnlySQL”(不僅僅是SQL)面向海量數(shù)據(jù)(并且數(shù)據(jù)不需要關(guān)系模型)通常不使用表結(jié)構(gòu),并且不使用SQL進行查詢NoSQL數(shù)據(jù)庫實例文檔存儲 –Apache

CouchDB是一個面向文檔的數(shù)據(jù)庫管理系統(tǒng)。它提供以JSON作為數(shù)據(jù)格式的REST接口來對其進行操作,并可以通過視圖來操縱文檔的組織和呈現(xiàn)。CouchDB是Apache基金會的頂級開源項目。CouchDB是圍繞一系列語義上自包含的文檔而組織的。CouchDB中的文檔是沒有模式的(schemafree),也就是說并不要求文檔具有某種特定的結(jié)構(gòu)。圖結(jié)構(gòu)存儲 –Neo4j:一個嵌入在Python中的圖數(shù)據(jù)庫模塊,讓Python可以通過圖數(shù)據(jù)庫的API操作本地文件以存儲圖結(jié)構(gòu)的數(shù)據(jù)(類似于很多支持SQLite的類庫)。鍵-值存儲 –Redis(內(nèi)存數(shù)據(jù)庫-(in-memorydatabase),MongoDB(磁盤數(shù)據(jù)庫)-

(分布式文檔存儲數(shù)據(jù)庫)表格數(shù)據(jù) –ApacheHBase(基于Hadoop)--HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。數(shù)據(jù)倉庫Adatawarehouseisasubject-oriented,integrated,time-varient,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmakingprocess.(數(shù)據(jù)倉庫是面向主題的、已整合的、時變且穩(wěn)定的數(shù)據(jù)集合,用來支持管理的決策過程。)--W.H.Inmon,“BuildingtheDataWarehouse”.1996.數(shù)據(jù)倉庫數(shù)據(jù)倉庫LooselySpeaking,adatawarehousereferstoadatarepositorythatismaintainedseparatelyfromanorganization’soperationaldatabases.(概括地講,數(shù)據(jù)倉庫指與企業(yè)功能數(shù)據(jù)庫分離維護的數(shù)據(jù)貯藏系統(tǒng)。)--H.JiaweiandM.Kamber,“DataMining:ConceptsandTechniques”,3rded.,2011.數(shù)據(jù)庫和數(shù)據(jù)倉庫的異同數(shù)據(jù)庫數(shù)據(jù)倉庫特點處理數(shù)據(jù)操作處理數(shù)據(jù)中的信息

面向領(lǐng)域事務(wù)分析用戶終端用戶:職員,數(shù)據(jù)庫管理員(DBA)知識工作者:經(jīng)理,分析師,執(zhí)行官功能日常操作長期決策支持分析數(shù)據(jù)當(dāng)前最新的數(shù)據(jù)歷史數(shù)據(jù),時變數(shù)據(jù)訪問方式讀寫平均(主要)讀聚焦點數(shù)據(jù)輸入信息/知識輸出容量尺度1GB~<1TB>=TB探索式數(shù)據(jù)分析數(shù)據(jù)挖掘3.5數(shù)據(jù)分析基礎(chǔ):統(tǒng)計(基本上講)現(xiàn)代數(shù)據(jù)分析的基礎(chǔ)(同樣也是)數(shù)據(jù)挖掘、機器學(xué)習(xí)的基礎(chǔ)探索式數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)基于統(tǒng)計數(shù)據(jù)可視化驅(qū)動的方法使用簡單的方式概括數(shù)據(jù)主要特征 “SomeofmyfriendsfeltthatIshouldbeveryexplicitinwarningyouofhowmuchtimeandmoneycanbewastedoncomputing,howmuchclarityandinsightcanbelostingreatstacksofcomputeroutput.Infact,Iaskyoutorememberonlytwopoints: 1.Thetoolthatissodullthatyoucannotcutyourselfonitisnotlikelytobesharpenoughtobeeitherusefulorhelpful.(連自己都傷不了的工具也不會鋒利到使用或有幫助。) 2.Mostusesoftheclassicaltoolsofstatisticshavebeen,are,andwillbe,madebythosewhoknownotwhattheydo.(絕大多數(shù)統(tǒng)計工具是由外行人使用的)”

--JohnW.Tukey,“TheTechnicalToolsofStatistics”,atthe125thAnniversaryMeetingofAmericanStatisticalAssociation,1964探索式數(shù)據(jù)分析探索式數(shù)據(jù)分析中的可視化 這里僅講解探索式數(shù)據(jù)分析中的可視化方法,統(tǒng)計計算方法并不涉及。 探索式數(shù)據(jù)分析中的可視化方法分類:原始數(shù)據(jù)繪圖簡單統(tǒng)計值標(biāo)繪多視圖協(xié)調(diào)關(guān)聯(lián)原始數(shù)據(jù)繪圖:數(shù)據(jù)軌跡

(datatrajectory)原始數(shù)據(jù)繪圖:柱狀圖(barchart)原始數(shù)據(jù)繪圖:餅圖(piechart)原始數(shù)據(jù)繪圖:直方圖(histogram)原始數(shù)據(jù)繪圖:等值線圖

(contourmap)原始數(shù)據(jù)繪圖:走勢圖(sparkline)原始數(shù)據(jù)繪圖:散點圖

(scatterplot/scatterplotmatrix)原始數(shù)據(jù)繪圖:熱力圖(heatmap)原始數(shù)據(jù)繪圖:維恩圖(Venndiagram)用封閉曲線(內(nèi)部區(qū)域)表示集合及其關(guān)系的圖形簡單統(tǒng)計值標(biāo)繪:一維盒須圖(1-Dboxplot)maxmin25%75%mean箱形圖(box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖。因型狀如箱子而得名。簡單統(tǒng)計值標(biāo)繪:二維盒須圖(2-Dboxplot)多視圖協(xié)調(diào)關(guān)聯(lián)基礎(chǔ):統(tǒng)計 “DataMining,alsopopularlyreferredtoasknowledgediscoveryfromdata(KDD),istheautomatedorconvenientextractionofpatternsrepresentingknowledgeimplicitlystoredorcapturedinlargedatabases,datawarehouses,theWeb,othermassiverepositories,ordatastreams.” (數(shù)據(jù)挖掘/知識發(fā)現(xiàn)是一種自動、簡易地從從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫中的數(shù)據(jù),到網(wǎng)頁、其他大型儲存庫、或是數(shù)據(jù)流的數(shù)據(jù)中提取表示知識模式的過程。)--H.JiaweiandM.Kamber,“DataMining:ConceptsandTechniques”,3rded.,2011.數(shù)據(jù)挖掘模型解釋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論