版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第3章數(shù)據(jù)基礎(chǔ)
山東大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院蔣志方2主要內(nèi)容3.1數(shù)據(jù)基礎(chǔ)3.2數(shù)據(jù)特征3.3數(shù)據(jù)預(yù)處理3.4數(shù)據(jù)存儲(chǔ)3.5數(shù)據(jù)分析2023/2/42/4/2023數(shù)據(jù)常伴我們左右,有關(guān)數(shù)據(jù)的常識(shí)3.1數(shù)據(jù)基礎(chǔ)數(shù)據(jù)屬性數(shù)據(jù)對(duì)象的特征(characteristics)或特性(feature)別名:特征維度變量屬性集合:屬性向量屬性類(lèi)型(1)類(lèi)別型屬性屬性類(lèi)型(2)有序型屬性屬性類(lèi)型(3)數(shù)值型屬性離散型和連續(xù)型屬性類(lèi)型基本統(tǒng)計(jì)描述
數(shù)據(jù)的宏觀表達(dá)“探索式數(shù)據(jù)分析”的基礎(chǔ)3.2數(shù)據(jù)特征
基本統(tǒng)計(jì)描述均值表示一系列數(shù)據(jù)或統(tǒng)計(jì)總體的平均特征的值中位數(shù)是指將統(tǒng)計(jì)總體當(dāng)中的各個(gè)變量值按大小順序排列起來(lái),形成一個(gè)數(shù)列,處于變量數(shù)列中間位置的變量值就稱(chēng)為中位數(shù)均方差方差是各個(gè)數(shù)據(jù)與平均數(shù)之差的平方和的平均數(shù),通常以σ2表示
數(shù)據(jù)對(duì)象間的關(guān)系:相似度和相異度數(shù)據(jù)間關(guān)系的度量,經(jīng)常在統(tǒng)計(jì)和數(shù)據(jù)挖掘中使用相異度矩陣存儲(chǔ)n個(gè)對(duì)象兩兩之間的相似性,表現(xiàn)形式是一個(gè)n×n維的矩陣。d(i,j)是對(duì)象i和j之間相異性的量化表示,通常為非負(fù)值,兩個(gè)對(duì)象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)=d(j,i),d(i,i)=0。
多數(shù)聚類(lèi)算法都是建立在相異度矩陣基礎(chǔ)上,如果數(shù)據(jù)是以數(shù)據(jù)矩陣形式給出的,就要將數(shù)據(jù)矩陣轉(zhuǎn)化為相異度矩陣。對(duì)象間的相似度或相異度是基于兩個(gè)對(duì)象間的距離來(lái)計(jì)算的。相異度矩陣類(lèi)別型數(shù)據(jù):表現(xiàn)為類(lèi)別,但不區(qū)分順序,是由定類(lèi)尺度計(jì)量形成的
其距離度量可以直接用屬性集中,對(duì)應(yīng)位置不相等的屬性的個(gè)數(shù)作為度量值不匹配率:公式中,p為兩對(duì)象間的屬性個(gè)數(shù),m為兩對(duì)象對(duì)應(yīng)屬性相等的個(gè)數(shù)。(二值類(lèi)別型數(shù)據(jù))Jaccard系數(shù):
Jaccard相似性系數(shù),用來(lái)比較樣本集中的相似性和分散性的一個(gè)概率。Jaccard系數(shù)等于樣本集交集與樣本集合集的比值類(lèi)別型數(shù)據(jù)距離計(jì)算數(shù)值型屬性間的距離:明科夫斯基距離系歐氏距離(L2)曼哈頓距離(L1)明科夫斯基距離(LP)分類(lèi)存在不確定性屬性不確定性來(lái)源本身誤差精度轉(zhuǎn)換特定應(yīng)用需求缺失值數(shù)據(jù)集成數(shù)據(jù)不確定性3.3數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn)系統(tǒng)架構(gòu)應(yīng)用數(shù)據(jù)庫(kù)ETL抽?。‥xtract)轉(zhuǎn)化(Transform)裝載(Load)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)產(chǎn)品商業(yè)智能分析ETL的內(nèi)部過(guò)程 ETL負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)清理數(shù)據(jù)整合原始數(shù)據(jù)通常含有雜質(zhì)“Garbagein,garbageout.”處理過(guò)程數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量高->對(duì)目標(biāo)用途的符合度高精確性(Accuracy)完整性(Completeness)一致性(Consistency)適時(shí)性(Timeliness)可信性(Believability)可解釋性(Interpretability)數(shù)據(jù)可視化質(zhì)量數(shù)據(jù)墨水比(data-inkratio): 數(shù)據(jù)可視化質(zhì)量的衡量標(biāo)準(zhǔn)數(shù)據(jù)清洗
數(shù)據(jù)清理:檢測(cè)和清除數(shù)據(jù)中的錯(cuò)誤和不一致,以提高數(shù)據(jù)質(zhì)量Data…Data!數(shù)據(jù)錯(cuò)誤類(lèi)型及處理方法缺失值常量代替缺失值屬性平均值填充回歸人工填充噪聲值回歸分析離群點(diǎn)分析可視數(shù)據(jù)清洗使用可視化工具進(jìn)行數(shù)據(jù)清洗數(shù)據(jù)整合數(shù)據(jù)整合包括:(1)合并來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)(2)向用戶(hù)提供一個(gè)關(guān)于這些數(shù)據(jù)的統(tǒng)一視圖管理來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)數(shù)據(jù)1數(shù)據(jù)2數(shù)據(jù)3數(shù)據(jù)多數(shù)據(jù)源結(jié)構(gòu)沖突(structuralconflicts): 不同的模式(schema)等數(shù)據(jù)沖突(dataconflicts): 重復(fù)的記錄,沖突的記錄屬性等
數(shù)據(jù)整合實(shí)例(1)客戶(hù)列表1客戶(hù)列表2整合結(jié)果數(shù)據(jù)整合實(shí)例(2) 對(duì)同一篇論文,來(lái)自不同論文數(shù)據(jù)庫(kù)的引用格式可能存在不同 整合為某種統(tǒng)一格式另一種數(shù)據(jù)整合方式:虛擬化數(shù)據(jù)源A數(shù)據(jù)源B數(shù)據(jù)源C轉(zhuǎn)換器轉(zhuǎn)換器轉(zhuǎn)換器擁有統(tǒng)一模式的“虛擬數(shù)據(jù)庫(kù)”
數(shù)據(jù)清洗和整合步驟 初步分析:在操作之前進(jìn)行數(shù)據(jù)分析 沖突解析:解析數(shù)據(jù)源間的數(shù)據(jù)沖突 定義數(shù)據(jù)轉(zhuǎn)換工作流和轉(zhuǎn)換規(guī)則:使用工作流方式完成模式(schema)配準(zhǔn)和轉(zhuǎn)換 工作流驗(yàn)證:驗(yàn)證工作流中的步驟是否正確 數(shù)據(jù)轉(zhuǎn)換:開(kāi)始流程3.4數(shù)據(jù)存儲(chǔ)裝載并存儲(chǔ)數(shù)據(jù)基于文件的存儲(chǔ)數(shù)據(jù)庫(kù)&數(shù)據(jù)庫(kù)管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)最簡(jiǎn)單的方法直接將數(shù)據(jù)存儲(chǔ)為文件形式簡(jiǎn)單、方便
電子表格類(lèi)型:CSV文件逗號(hào)分隔值(Comma-SeparatedValues)結(jié)構(gòu)化文件格式 通用格式:XML(可擴(kuò)展標(biāo)記語(yǔ)言,eXtensibleMarkupLanguage)<employer>
<id>23</id>
<name>Alice</name>
<city>CA</city>
<dptid>1</dptid></employer>IDNameCityDpt.ID23AliceCA124BobNY2XML的擴(kuò)展IVOA(International
Virtual
ObservatoryAlliance)VOTable:用于交換天文學(xué)領(lǐng)域表格數(shù)據(jù)的XML擴(kuò)展XML的擴(kuò)展 KeyholeMarkupLanguage(KML):在基于web的二維或三維地圖上表達(dá)地理標(biāo)注信息<?xmlversion="1.0"encoding="UTF-8"?><kmlxmlns="/kml/2.2"><Document><Placemark><name>NewYorkCity</name><description>NewYorkCity</description><Point><coordinates>-74.006393,40.714172,0</coordinates></Point></Placemark></Document></kml>特殊用途文件格式 HDF(HierarchicalDataFormat):組織和存儲(chǔ)大量的數(shù)值型數(shù)據(jù),特別是科學(xué)計(jì)算數(shù)據(jù)數(shù)據(jù)庫(kù) “Adatabaseisacollectionofdata,typicallydescribingtheactivitiesofoneormorerelatedorganizations.” (數(shù)據(jù)庫(kù)是數(shù)據(jù)的集合,通常用來(lái)描述多個(gè)相關(guān)組織結(jié)構(gòu)的活動(dòng)。)應(yīng)用數(shù)據(jù)庫(kù)--RaghuRamakrishnanandJohannesGehrke,“DatabaseManagementSystem”關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS) 數(shù)據(jù)的關(guān)系模型是現(xiàn)代數(shù)據(jù)庫(kù)系統(tǒng)的標(biāo)準(zhǔn)— 最小化應(yīng)用程序與機(jī)器表示間的耦合度 高級(jí)數(shù)據(jù)語(yǔ)言:
數(shù)據(jù)定義語(yǔ)言(DataDefinitionLanguage)
結(jié)構(gòu)化查詢(xún)語(yǔ)言(StructuredQueryLanguage)關(guān)系模型表(關(guān)系)列(屬性)行(記錄)約束鍵:主鍵,外鍵等索引 “Whenpeopleusetheworddatabase,fundamentallywhattheysayisthatthedatashouldbeself-describinganditshouldhaveaschema.That’sreallyalltheworddatabasemeans.” (當(dāng)使用數(shù)據(jù)庫(kù)這個(gè)詞時(shí),人們強(qiáng)調(diào)的是數(shù)據(jù)需要能夠自描述,并且擁有模式。這就是“數(shù)據(jù)庫(kù)”的含義。)--JimGray,“TheFourthParadigm”關(guān)系數(shù)據(jù)庫(kù)可視化美國(guó)自然基金數(shù)據(jù)庫(kù)可視化Z.Liu,S.B.Navathe,andJ.T.Stasko,Network-basedvisualanalysisoftabulardata,IEEEConferenceonVisualAnalyticsScienceandTechnology(VAST),pp.41–50,2011.挑戰(zhàn)勝任交互式任務(wù)所需的響應(yīng)時(shí)間(通常為亞秒級(jí))大尺度數(shù)據(jù)的索引構(gòu)建數(shù)據(jù)間的語(yǔ)意關(guān)系NoSQL數(shù)據(jù)庫(kù)“NotOnlySQL”(不僅僅是SQL)面向海量數(shù)據(jù)(并且數(shù)據(jù)不需要關(guān)系模型)通常不使用表結(jié)構(gòu),并且不使用SQL進(jìn)行查詢(xún)NoSQL數(shù)據(jù)庫(kù)實(shí)例文檔存儲(chǔ) –Apache
CouchDB是一個(gè)面向文檔的數(shù)據(jù)庫(kù)管理系統(tǒng)。它提供以JSON作為數(shù)據(jù)格式的REST接口來(lái)對(duì)其進(jìn)行操作,并可以通過(guò)視圖來(lái)操縱文檔的組織和呈現(xiàn)。CouchDB是Apache基金會(huì)的頂級(jí)開(kāi)源項(xiàng)目。CouchDB是圍繞一系列語(yǔ)義上自包含的文檔而組織的。CouchDB中的文檔是沒(méi)有模式的(schemafree),也就是說(shuō)并不要求文檔具有某種特定的結(jié)構(gòu)。圖結(jié)構(gòu)存儲(chǔ) –Neo4j:一個(gè)嵌入在Python中的圖數(shù)據(jù)庫(kù)模塊,讓Python可以通過(guò)圖數(shù)據(jù)庫(kù)的API操作本地文件以存儲(chǔ)圖結(jié)構(gòu)的數(shù)據(jù)(類(lèi)似于很多支持SQLite的類(lèi)庫(kù))。鍵-值存儲(chǔ) –Redis(內(nèi)存數(shù)據(jù)庫(kù)-(in-memorydatabase),MongoDB(磁盤(pán)數(shù)據(jù)庫(kù))-
(分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù))表格數(shù)據(jù) –ApacheHBase(基于Hadoop)--HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目。HBase不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。另一個(gè)不同的是HBase基于列的而不是基于行的模式。數(shù)據(jù)倉(cāng)庫(kù)Adatawarehouseisasubject-oriented,integrated,time-varient,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmakingprocess.(數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、已整合的、時(shí)變且穩(wěn)定的數(shù)據(jù)集合,用來(lái)支持管理的決策過(guò)程。)--W.H.Inmon,“BuildingtheDataWarehouse”.1996.數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)LooselySpeaking,adatawarehousereferstoadatarepositorythatismaintainedseparatelyfromanorganization’soperationaldatabases.(概括地講,數(shù)據(jù)倉(cāng)庫(kù)指與企業(yè)功能數(shù)據(jù)庫(kù)分離維護(hù)的數(shù)據(jù)貯藏系統(tǒng)。)--H.JiaweiandM.Kamber,“DataMining:ConceptsandTechniques”,3rded.,2011.數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的異同數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)處理數(shù)據(jù)操作處理數(shù)據(jù)中的信息
面向領(lǐng)域事務(wù)分析用戶(hù)終端用戶(hù):職員,數(shù)據(jù)庫(kù)管理員(DBA)知識(shí)工作者:經(jīng)理,分析師,執(zhí)行官功能日常操作長(zhǎng)期決策支持分析數(shù)據(jù)當(dāng)前最新的數(shù)據(jù)歷史數(shù)據(jù),時(shí)變數(shù)據(jù)訪(fǎng)問(wèn)方式讀寫(xiě)平均(主要)讀聚焦點(diǎn)數(shù)據(jù)輸入信息/知識(shí)輸出容量尺度1GB~<1TB>=TB探索式數(shù)據(jù)分析數(shù)據(jù)挖掘3.5數(shù)據(jù)分析基礎(chǔ):統(tǒng)計(jì)(基本上講)現(xiàn)代數(shù)據(jù)分析的基礎(chǔ)(同樣也是)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的基礎(chǔ)探索式數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)基于統(tǒng)計(jì)數(shù)據(jù)可視化驅(qū)動(dòng)的方法使用簡(jiǎn)單的方式概括數(shù)據(jù)主要特征 “SomeofmyfriendsfeltthatIshouldbeveryexplicitinwarningyouofhowmuchtimeandmoneycanbewastedoncomputing,howmuchclarityandinsightcanbelostingreatstacksofcomputeroutput.Infact,Iaskyoutorememberonlytwopoints: 1.Thetoolthatissodullthatyoucannotcutyourselfonitisnotlikelytobesharpenoughtobeeitherusefulorhelpful.(連自己都傷不了的工具也不會(huì)鋒利到使用或有幫助。) 2.Mostusesoftheclassicaltoolsofstatisticshavebeen,are,andwillbe,madebythosewhoknownotwhattheydo.(絕大多數(shù)統(tǒng)計(jì)工具是由外行人使用的)”
--JohnW.Tukey,“TheTechnicalToolsofStatistics”,atthe125thAnniversaryMeetingofAmericanStatisticalAssociation,1964探索式數(shù)據(jù)分析探索式數(shù)據(jù)分析中的可視化 這里僅講解探索式數(shù)據(jù)分析中的可視化方法,統(tǒng)計(jì)計(jì)算方法并不涉及。 探索式數(shù)據(jù)分析中的可視化方法分類(lèi):原始數(shù)據(jù)繪圖簡(jiǎn)單統(tǒng)計(jì)值標(biāo)繪多視圖協(xié)調(diào)關(guān)聯(lián)原始數(shù)據(jù)繪圖:數(shù)據(jù)軌跡
(datatrajectory)原始數(shù)據(jù)繪圖:柱狀圖(barchart)原始數(shù)據(jù)繪圖:餅圖(piechart)原始數(shù)據(jù)繪圖:直方圖(histogram)原始數(shù)據(jù)繪圖:等值線(xiàn)圖
(contourmap)原始數(shù)據(jù)繪圖:走勢(shì)圖(sparkline)原始數(shù)據(jù)繪圖:散點(diǎn)圖
(scatterplot/scatterplotmatrix)原始數(shù)據(jù)繪圖:熱力圖(heatmap)原始數(shù)據(jù)繪圖:維恩圖(Venndiagram)用封閉曲線(xiàn)(內(nèi)部區(qū)域)表示集合及其關(guān)系的圖形簡(jiǎn)單統(tǒng)計(jì)值標(biāo)繪:一維盒須圖(1-Dboxplot)maxmin25%75%mean箱形圖(box-plot)又稱(chēng)為盒須圖、盒式圖或箱線(xiàn)圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖。因型狀如箱子而得名。簡(jiǎn)單統(tǒng)計(jì)值標(biāo)繪:二維盒須圖(2-Dboxplot)多視圖協(xié)調(diào)關(guān)聯(lián)基礎(chǔ):統(tǒng)計(jì) “DataMining,alsopopularlyreferredtoasknowledgediscoveryfromdata(KDD),istheautomatedorconvenientextractionofpatternsrepresentingknowledgeimplicitlystoredorcapturedinlargedatabases,datawarehouses,theWeb,othermassiverepositories,ordatastreams.” (數(shù)據(jù)挖掘/知識(shí)發(fā)現(xiàn)是一種自動(dòng)、簡(jiǎn)易地從從存儲(chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),到網(wǎng)頁(yè)、其他大型儲(chǔ)存庫(kù)、或是數(shù)據(jù)流的數(shù)據(jù)中提取表示知識(shí)模式的過(guò)程。)--H.JiaweiandM.Kamber,“DataMining:ConceptsandTechniques”,3rded.,2011.數(shù)據(jù)挖掘模型解釋
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《黑神話(huà):悟空》2025高中地理練習(xí)題含答案
- 餐飲戰(zhàn)略合作協(xié)議書(shū)合同模板
- 采購(gòu)管材管件合同范文
- 保證合同協(xié)議書(shū)范本
- 智慧養(yǎng)老方案課件
- 山東省煙臺(tái)市蓬萊區(qū)(五四制)2024-2025學(xué)年八年級(jí)上學(xué)期期中考試英語(yǔ)試卷(含解析)
- 河北省邯鄲市臨漳縣2024-2025學(xué)年七年級(jí)上學(xué)期11月期中生物學(xué)試卷(含答案)
- 《紡織纖維鑒別試驗(yàn)方法 第3部分:顯微鏡法》
- 高原常見(jiàn)病防治課件
- 肺部解剖及肺循環(huán)相關(guān)病變課件
- 2024人民音樂(lè)出版社招聘7人歷年高頻500題難、易錯(cuò)點(diǎn)模擬試題附帶答案詳解
- 【科迪乳業(yè)財(cái)務(wù)信息披露問(wèn)題及優(yōu)化建議(數(shù)據(jù)論文)11000字】
- 急腹癥病人護(hù)理講解
- 2024年浙江省中考?xì)v史真題(原卷版)
- 早產(chǎn)兒和低出生體重兒袋鼠式護(hù)理臨床實(shí)踐指南(2024)解讀
- 2024至2030年中國(guó)補(bǔ)腎市場(chǎng)銷(xiāo)售前景模及消費(fèi)需求潛力分析報(bào)告
- 2024-2030年中國(guó)水循環(huán)利用行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 2024年秋新人教版七年級(jí)上冊(cè)數(shù)學(xué)教學(xué)課件 第三章 代數(shù)式 數(shù)學(xué)活動(dòng)
- 2024小學(xué)道德與法治新教材培訓(xùn):教材邏輯分析與教學(xué)要點(diǎn)梳理
- 百果園品牌特許經(jīng)營(yíng)合同范本(2024年版)
- 中國(guó)古代刑罰
評(píng)論
0/150
提交評(píng)論