數(shù)據(jù)分析與可視化.doc

上傳人：X*** IP屬地：天津上傳時間：2021-11-08 格式：DOC 頁數(shù)：64 大?。?.20MB 積分：118 舉報 版權(quán)申訴

免費預覽已結(jié)束，剩余59頁可下載查看

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)分析與可視化數(shù)據(jù)分析與可視化1. 什么是數(shù)據(jù)分析？數(shù)據(jù)分析是基于商業(yè)目的，有目的的進行收集、整理、加工和分析數(shù)據(jù)，提煉有價信息的一個過程。其過程概括起來主要包括：明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報告等 6 個階段。1、明確分析目的與框架一個分析項目，你的數(shù)據(jù)對象是誰？商業(yè)目的是什么？要解決什么業(yè)務(wù)問題？數(shù)據(jù)分析師對這些都要了然于心。基于商業(yè)的理解，整理分析框架和分析思路。例如，減少新客戶的流失、優(yōu)化活動效果、提高客戶響應(yīng)率等等。不同的項目對數(shù)據(jù)的要求，使用的分析手段也是不一樣的。2、數(shù)據(jù)收集數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析和框架內(nèi)容，有目的的收集、整

2、合相關(guān)數(shù)據(jù)的一個過程，它是數(shù)據(jù)分析的一個基礎(chǔ)。3、數(shù)據(jù)處理數(shù)據(jù)處理是指對收集到的數(shù)據(jù)進行加工、整理，以便開展數(shù)據(jù)分析，它是數(shù)據(jù)分析前必不可少的階段。這個過程是數(shù)據(jù)分析整個過程中最占據(jù)時間的，也在一定程度上取決于數(shù)據(jù)倉庫的搭建和數(shù)據(jù)質(zhì)量的保證。數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化等處理方法。4、數(shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對準備好的數(shù)據(jù)進行探索、分析，從中發(fā)現(xiàn)因果關(guān)系、內(nèi)部聯(lián)系和業(yè)務(wù)規(guī)律，為商業(yè)目提供決策參考。到了這個階段，要能駕馭數(shù)據(jù)、開展數(shù)據(jù)分析，就要涉及到工具和方法的使用。其一要熟悉常規(guī)數(shù)據(jù)分析方法，最基本的要了解例如方差、回歸、因子、聚類、分類、時間序列等多元

3、和數(shù)據(jù)分析方法的原理、使用范圍、優(yōu)缺點和結(jié)果的解釋；其二是熟悉 1+1 種數(shù)據(jù)分析工具， Excel 是最常見，一般的數(shù)據(jù)分析我們可以通過 Excel 完成，后而要熟悉一個專業(yè)的分析軟件，如數(shù)據(jù)分析工具 SPSS/SAS/R/Matlab 等，便于進行一些專業(yè)的統(tǒng)計分析、數(shù)據(jù)建模等。5、數(shù)據(jù)展現(xiàn)一般情況下，數(shù)據(jù)分析的結(jié)果都是通過圖、表的方式來呈現(xiàn)，俗話說：字不如表，表不如圖。借助數(shù)據(jù)展現(xiàn)手段，能更直觀的讓數(shù)據(jù)分析師表述想要呈現(xiàn)的信息、觀點和建議。常用的圖表包括餅圖、折線圖、柱形圖 / 條形圖、散點圖、雷達圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6 、撰寫報告最后階段，就是撰寫數(shù)據(jù)分析

4、報告，這是對整個數(shù)據(jù)分析成果的一個呈現(xiàn)。通過分析報告，把數(shù)據(jù)分析的目的、過程、結(jié)果及方案完整呈現(xiàn)出來，以供商業(yè)目的提供參考。一份好的數(shù)據(jù)分析報告，首先需要有一個好的分析框架，并且圖文并茂，層次明晰，能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報告內(nèi)容；圖文并茂，可以令數(shù)據(jù)更加生動活潑，提高視覺沖擊力，有助于閱讀者更形象、直觀地看清楚問題和結(jié)論，從而產(chǎn)生思考。另外，數(shù)據(jù)分析報告需要有明確的結(jié)論、建議和解決方案，不僅僅是找出問題，后者是更重要的，否則稱不上好的分析，同時也失去了報告的意義，數(shù)據(jù)的初衷就是為解決一個商業(yè)目的才進行的分析，不能舍本求末。2. 數(shù)據(jù)

5、分析常用的方法有哪些？他們多用來分析哪些類型的數(shù)據(jù)？通過分析可以得到怎樣的結(jié)果和結(jié)論？怎樣得到保證其信度和效度？常用數(shù)據(jù)分析方法：聚類分析、因子分析、相關(guān)分析、對應(yīng)分析、回歸分析、方差分析；數(shù)據(jù)分析常用的圖表方法：柏拉圖 ( 排列圖 ) 、直方圖 (Histogram) 、散點圖 (scatter diagram) 、魚骨圖（ Ishikawa ）、FMEA、點圖、柱狀圖、雷達圖、趨勢圖。數(shù)據(jù)分析統(tǒng)計工具： SPSS、minitab 、JMP。常用數(shù)據(jù)分析方法 :1、聚類分析（ Cluster Analysis）聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析

6、過程。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程，所以同一個簇中的對象有很大的相似性，而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個分類的標準，聚類分析能夠從樣本數(shù)據(jù)出發(fā)，自動進行分類。聚類分析所使用方法的不同，常常會得到不同的結(jié)論。不同研究者對于同一組數(shù)據(jù)進行聚類分析，所得到的聚類數(shù)未必一致。2、因子分析（ Factor Analysis）因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù)。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系，減少決策的困難。因子分析的方法約有 10 多種，如重心法、影像分析法，最大似然解、最小平方法、

7、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似方法，是以相關(guān)系數(shù)矩陣為基礎(chǔ)的，所不同的是相關(guān)系數(shù)矩陣對角線上的值，采用不同的共同性 2 估值。在社會學研究中，因子分析常采用以主成分分析為基礎(chǔ)的反覆法。3、相關(guān)分析（ Correlation Analysis）相關(guān)分析（ correlation analysis），相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系，并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度。相關(guān)關(guān)系是一種非確定性的關(guān)系，例如，以 X 和 Y 分別記一個人的身高和體重，或分別記每公頃施肥量與每公頃小麥產(chǎn)量，則X 與 Y顯然有關(guān)系，而又沒有確切到可由其中的一個

8、去精確地決定另一個的程度，這就是相關(guān)關(guān)系。4、對應(yīng)分析（ Correspondence Analysis）對應(yīng)分析 (Correspondence analysis)也稱關(guān)聯(lián)分析、 R-Q型因子分析，通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。可以揭示同一變量的各個類別之間的差異，以及不同變量各個類別之間的對應(yīng)關(guān)系。對應(yīng)分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結(jié)構(gòu)以點的形式在較低維的空間中表示出來。5、回歸分析研究一個隨機變量 Y 對另一個 (X) 或一組(X1，X2，，Xk)變量的相依關(guān)系的統(tǒng)計分析方法?；貧w分析（ regression analysis) 是確定兩

9、種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。運用十分廣泛，回歸分析按照涉及的自變量的多少，可分為一元回歸分析和多元回歸分析；按照自變量和因變量之間的關(guān)系類型，可分為線性回歸分析和非線性回歸分析。6、方差分析 (ANOVA/Analysis of Variance)又稱“變異數(shù)分析”或“F 檢驗”，是 R.A.Fisher 發(fā)明的，用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響，研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類，一是不可控的隨機因素，另一是研究中施加的對結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手，研究諸多控制變量中哪些變量是

10、對觀測變量有顯著影響的變量。數(shù)據(jù)分析常用的圖表方法有：柏拉圖 ( 排列圖 )排列圖是分析和尋找影響質(zhì)量主原因素的一種工具，其形式用雙直角坐標圖，左邊縱坐標表示頻數(shù)（如件數(shù)金額等），右邊縱坐標表示頻率（如百分比表示）。分折線表示累積頻率，橫坐標表示影響質(zhì)量的各項因素，按影響程度的大?。闯霈F(xiàn)頻數(shù)多少）從左向右排列。通過對排列圖的觀察分析可抓住影響質(zhì)量的主原因素。直方圖將一個變量的不同等級的相對頻數(shù)用矩形塊標繪的圖表 ( 每一矩形的面積對應(yīng)于頻數(shù) ) 。直方圖 (Histogram) 又稱柱狀圖、質(zhì)量分布圖。是一種統(tǒng)計報告圖，由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。一般用橫軸

11、表示數(shù)據(jù)類型，縱軸表示分布情況。散點圖 (scatter diagram)散點圖表示因變量隨自變量而變化的大致趨勢，據(jù)此可以選擇合適的函數(shù)對數(shù)據(jù)點進行擬合。用兩組數(shù)據(jù)構(gòu)成多個坐標點，考察坐標點的分布，判斷兩變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標點的分布模式。魚骨圖（ Ishikawa ）魚骨圖是一種發(fā)現(xiàn)問題 “根本原因”的方法，它也可以稱之為 “因果圖”。其特點是簡捷實用，深入直觀。它看上去有些象魚骨，問題或缺陷（即后果）標在 " 魚頭 " 外。FMEAFMEA是一種可靠性設(shè)計的重要方法。它實際上是 FMA（故障模式分析）和 FEA（故障影響分析）的組合。它對各種可能的風險進

12、行評價、分析，以便在現(xiàn)有技術(shù)的基礎(chǔ)上消除這些風險或?qū)⑦@些風險減小到可接受的水平。數(shù)據(jù)分析統(tǒng)計工具：SPSS：SPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計軟件，它最突出的特點就是操作界面極為友好，輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來，使用Windows的窗口方式展示各種管理和分析數(shù)據(jù)方法的功能，對話框展示出各種功能選擇項。用戶只要掌握一定的 Windows操作技能，粗通統(tǒng)計分析原理，就可以使用該軟件為特定的科研工作服務(wù)。minitab ： MINITAB 功能菜單包括：假設(shè)檢驗（參數(shù)檢驗和非參數(shù)檢驗），回歸分析（一元回歸和多元回歸、線性回歸和非線性回歸）

13、，方差分析（單因子、多因子、一般線性模型等），時間序列分析，圖表（散點圖、點圖、矩陣圖、直方圖、莖葉圖、箱線圖、概率圖、概率分布圖、邊際圖、矩陣圖、單值圖、餅圖、區(qū)間圖、Pareto 、 Fishbone 、運行圖等）、蒙特卡羅模擬和仿真、SPC(Statistical Process Control -統(tǒng)計過程控制 ) 、可靠性分析（分布擬合、檢驗計劃、加速壽命測試等）、MSA（交叉、嵌套、量具運行圖、類型 I 量具研究等）等。JMP：JMP的算法源于 SAS，特別強調(diào)以統(tǒng)計方法的實際應(yīng)用為導向，交互性、可視化能力強，使用方便，尤其適合非統(tǒng)計專業(yè)背景的數(shù)據(jù)分析人員使用，在同類軟件中有較大

14、的優(yōu)勢。 JMP的應(yīng)用領(lǐng)域包括業(yè)務(wù)可視化、探索性數(shù)據(jù)分析、六西格瑪及持續(xù)改善（可視化六西格瑪、質(zhì)量管理、流程優(yōu)化）、試驗設(shè)計、生存及可靠性、統(tǒng)計分析與建模、交互式數(shù)據(jù)挖掘、分析程序開發(fā)等。JMP是六西格瑪軟件的鼻祖，當年摩托羅拉開始推六西格瑪?shù)臅r候，用的就是 JMP軟件，目前有非常多的全球頂尖企業(yè)采用 JMP 作為六西格瑪軟件，包括陶氏化學、惠而浦、鐵姆肯、招商銀行、美國銀行、中國石化等等。1描述性統(tǒng)計分析包括樣本基本資料的描述，作各變量的次數(shù)分配及百分比分析，以了解樣本的分布情況。此外，以平均數(shù)和標準差來描述市場導向、競爭優(yōu)勢、組織績效等各個構(gòu)面，以了解樣本企業(yè)的管理人員對

15、這些相關(guān)變量的感知，并利用 t 檢驗及相關(guān)分析對背景變量所造成的影響做檢驗。2Cronbacha 信度系數(shù)分析信度是指測驗結(jié)果的一致性、穩(wěn)定性及可靠性，一般多以內(nèi)部一致性 (consistency) 來加以表示該測驗信度的高低。信度系數(shù)愈高即表示該測驗的結(jié)果愈一致、穩(wěn)定與可靠。針對各研究變量的衡量題項進行 Cronbacha 信度分析，以了解衡量構(gòu)面的內(nèi)部一致性。一般來說，Cronbach a 僅大于 07 為高信度，低于 035 為低信度(Cuieford ，1965) ，0 5 為最低可以接受的信度水準 (Nunnally ，1978) 。3 探索性因素分析 (ex

16、ploratory factor analysis) 和驗訌性因素分析 (confirmatory factor analysis)用以測試各構(gòu)面衡量題項的聚合效度(convergent validity) 與區(qū) 別效度 (discriminant validity) 。因為僅有信度是不夠的，可信度高的測量，可能是完全無效或是某些程度上無效。所以我們必須對效度進行檢驗。效度是指工具是否能測出在設(shè)計時想測出的結(jié)果。收斂效度的檢驗根據(jù)各個項目和所衡量的概念的因素的負荷量來決定；而區(qū)別效度的檢驗是根據(jù)檢驗性因素分析計算理論上相關(guān)概念的相關(guān)系數(shù)，檢定相關(guān)系數(shù)的95信賴區(qū)間是否包

17、含 10，若不包含 10，則可確認為具有區(qū)別效度 (Anderson ，1987) 。4結(jié)構(gòu)方程模型分析 (structural equations modeling)由于結(jié)構(gòu)方程模型結(jié)合了因素分析 (factor analysis) 和路徑分析 (path analysis) ，并納入計量經(jīng)濟學的聯(lián)立方程式，可同時處理多個因變量，容許自變量和因變量含測量誤差，可同時估計因子結(jié)構(gòu)和因子關(guān)系。容許更大彈性的測量模型，可估計整個模型的擬合程度 (Bollen 和Long，1993) ，因而適用于整體模型的因果關(guān)系。在模型參數(shù)的估計上，采用最大似然估計法 (MaximumLikelihood

18、，ML)；在模型的適合度檢驗上，以基本的擬合標準 (preliminary fitcriteria)、整體模型擬合優(yōu)度(overall modelfit)以及模型內(nèi) 在結(jié) 構(gòu) 擬合優(yōu) 度 (fitofinternalstructureof model)(Bagozzi和 Yi ，1988) 三個方面的各項指標作為判定的標準。在評價整體模式適配標準方面，本研究采用x2( 卡方 ) df( 自由度 ) 值、擬合優(yōu) 度指數(shù)(goodness of f ：iJt in dex，GFI) 、平均殘差平方根 (root meansquare ：residual ，RMSR)、

19、近似誤差均方根 (root-mean square-error-of-approximation ， RMSEA)等指標；模型內(nèi)在結(jié)構(gòu)擬合優(yōu)度則參考 Bagozzi 和Yi(1988) 的標準，考察所估計的參數(shù)是否都到達顯著水平。一、信度分析信度（ Reliability ）即可靠性，是指采用同一方法對同一對象進行調(diào)查時，問卷調(diào)查結(jié)果的穩(wěn)定性和一致性，即測量工具（問卷或量表）能否穩(wěn)定地測量所測的事物或變量。信度指標多以相關(guān)系數(shù)表示，具體評價方法大致可分為三類：穩(wěn)定系數(shù)（跨時間的一致性），等值系數(shù)（跨形式的一致性）和內(nèi)在一致性系數(shù) （跨項目的一致性）。信度分析的方法主要有以

20、下四種：大部分的信度指標都以相關(guān)系數(shù)來表示，即用同一被試樣本所得的兩組資料的相關(guān)作為測量一致性的指標，稱作信度系數(shù)，主要分為四大類：1. 重測信度是指用同樣的測量工具，對同一組被測者隔一定時間重復測量，考察兩次測量結(jié)果的相關(guān)程度，可以直接采用相關(guān)分析，得到的相關(guān)系數(shù)即為重測信度系數(shù)。也可以對兩次重復測試結(jié)果做兩相關(guān)樣本差異的統(tǒng)計檢驗。2. 復本信度是指讓同一組被測者一次填寫兩份平行問卷，計算兩份數(shù)據(jù)的相關(guān)系數(shù)，復本信度要求兩份問卷除了在問題表述不同之外，其余方面要完全一致，實際操作比較困難。3. 內(nèi)部一致性信度是指測驗內(nèi)部所有題目間的一致性程度。這里的一致性是指題目測量目的的

21、一致，而不是題目描述或形式的一致，主要方法有：<1>分半信度是指將一份問卷分成兩部分，計算這兩部分的相關(guān)系數(shù)，即分半信度系數(shù)，以此來衡量整份問卷的信度<2>克朗巴哈信度是最常用的測量內(nèi)部一致性信度的方法，計算出的克朗巴哈系數(shù)是所有可能分半信度的均值，取值在 0-1 之間，系數(shù)越高一致性越好，常用在量表的信度分析K 為量表做包含的總題目數(shù) si2 為量表題項的方差總和 s2 為量表題項加總后方差 <3> 庫德 - 理查森信度計算出的 KR20系數(shù)是克朗巴哈系數(shù)的一個特例，用于計算二分類變量的量表4. 評分者信度用來考察評分者對于問卷評分的信度，有兩

22、種方法：<1>隨機抽取一些問卷，由兩位評分者評分，然后根據(jù)每份問卷的分數(shù)計算相關(guān)系數(shù)<2>一位評分者兩次或兩次以上進行評分，然后計算這幾次評分的 Kendall 和諧系數(shù)或 Kappa 系數(shù)對信度系數(shù)要注意三點：1. 在不同的情況下，對不同樣本，采用不同方法會得到不同的信度系數(shù)，因此一個測驗可能不止一個信度系數(shù)。2. 信度系數(shù)只是對測量分數(shù)不一致程度的估計，并沒有指出不一致的原因。3. 獲得較高的信度系數(shù)并不是測量追求的最終目標，它只是邁向目標的一步，是使測驗有效的一個必要條件。5. 提高信度的方法1. 適當延長問卷長度2. 問卷難度適中3. 問卷內(nèi)容盡量同質(zhì)4

23、. 測量時間充分5. 測量程序要統(tǒng)一二、效度分析效度是指測量工具能夠準確測量出所要測量特性的程度，除受隨機誤差影響外，還受系統(tǒng)誤差的影響。效度越高表示測量真實性越高，由于真實值往往未知，所以我們對于效度的評價也不可能有絕對肯定的答案，但是可以用指標來評價，對于一個標準的測量來說，效度比信度更為重要。效度的性質(zhì)：1. 效度具有相對性，任何測驗的效度都是針對一定的目標而言2. 效度具有連續(xù)性 ?測驗效度通常用相關(guān)系數(shù)表示，它只有程度上的不同，不是“全有”或“全無”的區(qū)別。效度的評估方法：效度分為四大類：標準效度，內(nèi)容效度、結(jié)構(gòu)效度、區(qū)分效度1. 標準效度：人為指定一種測量結(jié)果作為 “金

24、標準”，考察其他待測結(jié)果與其是否一致2. 內(nèi)容效度：是一種定性評價標準，主要通過經(jīng)驗判斷進行，評價測量指標 ( 問卷內(nèi)容 ) 的含義是否能準確反映真實情況，通常用專家評價的方法。3. 結(jié)構(gòu)效度：是評價量表效度常用的指標，是指測量結(jié)果體現(xiàn)出來的某種結(jié)構(gòu)與測量值之間的對應(yīng)程度，常使用因子分析。4. 區(qū)分效度：如果測量的結(jié)果能區(qū)分不同的測量結(jié)果，就認為該測量具有區(qū)分效度，例如如果測量結(jié)果能區(qū)分 A/B 兩類人群，那么對這兩類人群做 t 檢驗或方差分析，比較差異是否具有統(tǒng)計學意義，以此判斷測量是否具有區(qū)分效度。信度與效度的關(guān)系：1. 可信的測量未必有效，而有效的測量必定可信。2. 沒有信度

25、就不可能有效度，沒有效度，信度也就毫無意義情況 1：過于分散，既沒有效度也沒有信度情況 2：點很集中，雖然有一致性，但是沒有命中中心，有信度但是無效度情況 3：即有信度也有效度3. 影響數(shù)據(jù)分析的結(jié)果因素有哪些？舉例說明？預期結(jié)果分析（ 1）描述性模式：該方法通過挖掘歷史和當前數(shù)據(jù)，分析過去展現(xiàn)情況來決定接下來的計劃步驟。描述性模式能確定許多不同客戶或產(chǎn)品之間的關(guān)系，來決定需要采取什么方法向前發(fā)展。幾乎所有的報表，如：銷售、市場、操作以及財務(wù)都適用這樣的模式進行事后分析，來提出這些問題：發(fā)什么什么？多少？頻率如何？什么地方？何時？問題關(guān)鍵是什么？應(yīng)該采取怎樣的行動？（ 2）預測模式：分析過

26、去可以知道客戶可能會有的操作，這樣可以預測單一用戶的操作。他可以陳述這樣的問題：將會發(fā)生什么？如果這個趨勢持續(xù)會怎樣？如果 ., 下一次會怎樣？（ 3）規(guī)范模式：又叫做決定模式。這個模式闡述了所有的決定因素之間的關(guān)系，來預測決定可能帶來的結(jié)果。我們可以預測這樣的問題：怎樣才能達到最好的效果？怎樣應(yīng)對變數(shù)？客戶可能感興趣的其他商品是什么？雖然預測分析在現(xiàn)在數(shù)據(jù)分析中凸顯，但是他還是經(jīng)常以描述模式出現(xiàn)在傳統(tǒng)商業(yè)智能領(lǐng)域。一個例子看去年的銷售收入，再為下一年指定目標?；仡櫼郧暗臄?shù)據(jù)，指定未來的目標，這就是數(shù)年來商業(yè)的標準模式。更加復雜的預測、規(guī)范模式現(xiàn)在正在商業(yè)中扮演更加重要的角色，

27、這是因為硬件成本的下降，大量的數(shù)據(jù)隨之而來，特別是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。深入理解這些模式間的關(guān)系對于正確分析預測數(shù)據(jù)至關(guān)重要。就像所有的項目，剛開始我們都要明確他的商業(yè)目標目的一樣。一旦有明確的業(yè)務(wù)目標目的，任何模式或者這三個模式都可以用在 BI 系統(tǒng)中，為達到最終目標目的服務(wù)。重復篩選 (Rinse-and-Repeat )我們不能忽略掉預測數(shù)據(jù)給我們帶來的誤區(qū)。大多數(shù)情況下， 100%精準的數(shù)據(jù)分析師不可能的，原因如下：1、歷史數(shù)據(jù)不能準確預測未來2、預測模式中可能會有不定因素3、操作各種模式的時候，可能會有偏頗以及不符合實際的預測當實踐各個模式的時候，可能的錯誤區(qū)域應(yīng)該被記錄。

28、通常表現(xiàn)為預測分析系統(tǒng)質(zhì)量提高，或者說第三方因素對其的影響下降。因此，不斷優(yōu)化數(shù)據(jù)分析預測模式非常有必要。模式部署周期，不斷優(yōu)化，不斷操作實踐，這樣可以保證他在分析預測中以最高精度運行。4. 數(shù)據(jù)統(tǒng)計，數(shù)據(jù)分析，數(shù)據(jù)挖掘，數(shù)據(jù)處理，知識發(fā)現(xiàn)，大數(shù)據(jù)處理等，這些概念之間的區(qū)別和聯(lián)系？數(shù)據(jù)統(tǒng)計：數(shù)據(jù)統(tǒng)計，是互聯(lián)網(wǎng)傳媒行業(yè)或其他操作流程的數(shù)據(jù)統(tǒng)計的統(tǒng)稱，用于歷史資料、科學實驗、檢驗、統(tǒng)計等領(lǐng)域。以便精準快速的查找與分類。知識發(fā)現(xiàn)：從數(shù)據(jù)中鑒別出有效模式的非平凡過程，該模式是新的、可能有用的和最終可理解的。知識發(fā)現(xiàn)是指在積累了大量數(shù)據(jù)后，利用各種數(shù)據(jù)挖掘算法來分析數(shù)據(jù)庫中存儲的數(shù)據(jù)，從中識別

29、出有效的、新穎的、潛在有用的及最終可以理解的知識。我們可以理解為，知識發(fā)現(xiàn)就是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程，即把數(shù)據(jù)轉(zhuǎn)化為知識、把知識轉(zhuǎn)化為決策的一個多次循環(huán)反復的高級處理過程。數(shù)據(jù)挖掘：數(shù)據(jù)挖掘又叫數(shù)據(jù)開采，數(shù)據(jù)采掘，分為基于數(shù)據(jù)庫的數(shù)據(jù)挖掘、基于應(yīng)用數(shù)據(jù)的挖掘、基于信息集合的挖掘等多種概念。數(shù)據(jù)挖掘的定義雖然表達方式不同，但本質(zhì)都是一樣的，我們認為數(shù)據(jù)挖掘是指從各種數(shù)據(jù)庫或觀察的數(shù)據(jù)集合中提取人們事先未知的、隱含的、潛在有用的、感興趣的概念、規(guī)則、規(guī)律、模式等形式的知識，用以支持用戶的決策。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)都可以看作是一門交叉性學科，它們都涉及到機器學習、模式識別、統(tǒng)

30、計學、數(shù)據(jù)可視化、高性能計算機和專家系統(tǒng)等多個領(lǐng)域，特別是都可以被看成是數(shù)據(jù)庫理論和機器學習的交叉科學。兩個術(shù)語在定義上有一定的重合度，內(nèi)涵也大致相同，都是從數(shù)據(jù)中挖掘或發(fā)現(xiàn)隱藏的知識 ; 它們的研究對象、方法和結(jié)果的表現(xiàn)形式等方面基本上都是相同的。因此，有些人認為，數(shù)據(jù)挖掘與知識發(fā)現(xiàn)只是叫法不一樣，其含義是相同的。而且，在現(xiàn)今的文獻中，有許多場合，如技術(shù)綜述等，這兩個術(shù)語仍然不加區(qū)分地使用著。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)有一定的區(qū)別。關(guān)于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的區(qū)別有不同的表述，典型的表述有兩種 : 知識發(fā)現(xiàn)是數(shù)據(jù)挖掘的特例，即把用于挖掘的數(shù)據(jù)集限制在數(shù)據(jù)庫這種數(shù)據(jù)組織形式上，因此數(shù)據(jù)挖

31、掘可以看作是知識發(fā)現(xiàn)在挖掘?qū)ο蟮难由旌蛿U展。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個特定步驟。知識發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程而數(shù)據(jù)挖掘則是此全部過程的一個特定的關(guān)鍵步驟。從知識發(fā)現(xiàn)的含義可以得知，知識發(fā)現(xiàn)一般可包括以下步驟 : 數(shù)據(jù)清理，消除噪聲和不一致數(shù)據(jù) ; 數(shù)據(jù)集成，多種數(shù)據(jù)源可以組合在一起 ; 數(shù)據(jù)選擇，從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù) ;數(shù)據(jù)變換，通過匯總、聚集操作等方式將數(shù)據(jù)統(tǒng)一變換成適合挖掘的形式;數(shù)據(jù)挖掘，使用智能方法提取數(shù)據(jù)模式;模式評估，根據(jù)某種興趣度量，識別表示知識的真正有趣的模式 ;知識表示，使用可視化和知識表示技術(shù)，向用戶提供挖掘的知識。從這7個步驟，可以

32、看出，數(shù)據(jù)挖掘只是知識發(fā)現(xiàn)整個過程中的一個特定步驟，它用專門算法從數(shù)據(jù)中提取數(shù)據(jù)模式，是知識發(fā)現(xiàn)過程中重要的環(huán)節(jié)。而知識發(fā)現(xiàn)是一個高級的復雜的處理過程，它還包括前期處理和后期評估，即是一個應(yīng)用了數(shù)據(jù)挖倔算法和評價解釋模式的循環(huán)反復過程，它們之間相互影響、反復調(diào)整。數(shù)據(jù)分析：數(shù)據(jù)分析只是在已定的假設(shè)，先驗約束上處理原有計算方法，統(tǒng)計方法，將數(shù)據(jù)分析轉(zhuǎn)化為信息，而這些信息需要進一步的獲得認知，轉(zhuǎn)化為有效的預測和決策，這時就需要數(shù)據(jù)挖掘，數(shù)據(jù)挖掘與數(shù)據(jù)分析兩者緊密相連，具有循環(huán)遞歸的關(guān)系，數(shù)據(jù)分析結(jié)果需要進一步進行數(shù)據(jù)挖掘才能指導決策，而數(shù)據(jù)挖掘進行價值評估的過程也需要調(diào)整先驗約束而

33、再次進行數(shù)據(jù)分析。而兩者的具體區(qū)別在于：（其實數(shù)據(jù)分析的范圍廣，包含了數(shù)據(jù)挖掘，在這里區(qū)別主要是指統(tǒng)計分析）? 數(shù)據(jù)量上：數(shù)據(jù)分析的數(shù)據(jù)量可能并不大，而數(shù)據(jù)挖掘的數(shù)據(jù)量極大。? 約束上：數(shù)據(jù)分析是從一個假設(shè)出發(fā)，需要自行建立方程或模型來與假設(shè)吻合，而數(shù)據(jù)挖掘不需要假設(shè)，可以自動建立方程。? 對象上：數(shù)據(jù)分析往往是針對數(shù)字化的數(shù)據(jù)，而數(shù)據(jù)挖掘能夠采用不同類型的數(shù)據(jù)，比如聲音，文本等。? 結(jié)果上：數(shù)據(jù)分析對結(jié)果進行解釋，呈現(xiàn)出有效信息，數(shù)據(jù)挖掘的結(jié)果不容易解釋，對信息進行價值評估，著眼于預測未來，并提出決策性建議。數(shù)據(jù)分析是把數(shù)據(jù)變成信息的工具，數(shù)據(jù)挖掘是把信息變成認知的工具，如果我們想要

34、從數(shù)據(jù)中提取一定的規(guī)律（即認知）往往需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結(jié)合使用。5. 第 (4) 題中所列出的概念有哪些數(shù)學模型？( 寫出這些模型的形式化描述 ) ，那些是新近的模型，以教育 ( 教學、學習 ) 為例，可以分析和挖掘的數(shù)據(jù)模型？數(shù)據(jù)分析的模型：(1.)PEST 分析模型 (2.)5W2H 分析模型 (3.) 邏輯樹分析模型 (4.)4P 營銷理論 (5). 用戶行為模型數(shù)據(jù)分析模型的形式化描述：(1.)PEST 分析模型主要針對宏觀市場環(huán)境進行分析，從政治、經(jīng)濟、社會以及技術(shù)四個維度對產(chǎn)品或服務(wù)是否適合進入市場進行數(shù)據(jù)化的分析，最終得到結(jié)論，輔助判斷產(chǎn)品或服務(wù)是否滿足大環(huán)境。 (2.)

35、5W2H 分析模型的應(yīng)用場景較廣，可用于對用戶行為進行分析以及產(chǎn)品業(yè)務(wù)分析。(3.) 邏輯樹分析模型主要針對已知問題進行分析，通過對已知問題的細化分析，通過分析結(jié)論找到問題的最優(yōu)解決方案。(4.)4P營銷理論模型主要用于公司或其中某一個產(chǎn)品線的整體運營情況分析，通過分析結(jié)論，輔助決策近期運營計劃與方案。 (5.) 用戶行為分析模型應(yīng)用場景比較單一，完全針對用戶的行為進行研究分析。數(shù)據(jù)統(tǒng)計的數(shù)學模型：多變量統(tǒng)計分析主要用于數(shù)據(jù)分類和綜合評價。綜合評價是區(qū)劃和規(guī)劃的基礎(chǔ)。從人類認識的角度來看有精確的和模糊的兩種類型，因為絕大多數(shù)地理現(xiàn)象難以用精確的定量關(guān)系劃分和表示，因此模糊的模型更為實用，

36、結(jié)果也往往更接近實際，模糊評價一般經(jīng)過四個過程：(1) 評價因子的選擇與簡化 ;(2) 多因子重要性指標 ( 權(quán)重 ) 的確定 ;(3) 因子內(nèi)各類別對評價目標的隸屬度確定 ;(4) 選用某種方法進行多因子綜合。1. 主成分分析地理問題往往涉及大量相互關(guān)聯(lián)的自然和社會要素，眾多的要素常常給模型的構(gòu)造帶來很大困難，為使用戶易于理解和解決現(xiàn)有存儲容量不足的問題，有必要減少某些數(shù)據(jù)而保留最必要的信息。主成分分析是通過數(shù)理統(tǒng)計分析，求得各要素間線性關(guān)系的實質(zhì)上有意義的表達式，將眾多要素的信息壓縮表達為若干具有代表性的合成變量，這就克服了變量選擇時的冗余和相關(guān)，然后選擇信息最豐富的少數(shù)因子進行各

37、種聚類分析，構(gòu)造應(yīng)用模型。2. 層次分析法 (AHP)Hierarahy Analysis 是 T.L.Saaty 等在 70 年代提出和廣泛應(yīng)用的 , 是系統(tǒng)分析的數(shù)學工具之一，它把人的思維過程層次化、數(shù)量化，并用數(shù)學方法為分析、決策、預報或控制提供定量的依據(jù)。AHP 方法把相互關(guān)聯(lián)的要素按隸屬關(guān)系分為若干層次，請有經(jīng)驗的專家對各層次各因素的相對重要性給出定量指標，利用數(shù)學方法綜合專家意見給出各層次各要素的相對重要性權(quán)值，作為綜合分析的基礎(chǔ)。例如要比較 n 個因素 y=yl ，y2，， yn 對目標 Z 的影響，確定它們在 z 中的比重，每次取兩個因素 yi 和 yJ，用 aij 表

38、示 yi 與 yJ 對 Z 的影響之比，全部比較結(jié)果可用矩陣 A=(aij)n*n 表示， A 叫成對比矩陣，它應(yīng)滿足：aij>0,aij=1/aij (i,j=1,2,.n)使上式成立的矩陣稱互反陣，必有aij=l。3. 系統(tǒng)聚類分析聚類分析的主要依據(jù)是把相似的樣本歸為一類，而把差異大的樣本區(qū)分開來。在由 m個變量組成為 m 維的空間中可以用多種方法定義樣本之間的相似性和差異性統(tǒng)計量。4. 判別分析判別分析是根據(jù)表明事物特點的變量值和它們所屬的類求出判別函數(shù)，根據(jù)判別函數(shù)對未知所屬類別的事物進行分類的一種分析方法，與聚類分析不同，它需要已知一系列反映事物特性的數(shù)值變量值及其變量值

39、。判別分析就是在已知研究對象分為若干類型 ( 組別 ) 并已經(jīng)取得各種類型的一批已知樣品的觀測數(shù)據(jù)基礎(chǔ)上，根據(jù)某些準則，建立起盡可能把屬于不同類型的數(shù)據(jù)區(qū)分開來的判別函數(shù)，然后用它們來判別未知類型的樣品應(yīng)該屬于哪一類。根據(jù)判別的組數(shù)，判別分析可以分為兩組判別分析和多組判別分析 ; 根據(jù)判別函數(shù)的形式，判別分析可以分為線性判別和非線性判別 ; 根據(jù)判別時處理變量的方法不同，判別分析可以分為逐步判別、序貫判別等 ; 根據(jù)判別標準的不同，判別分析有距離判別、 Fisher 判別、 Bayes 判別等。數(shù)據(jù)挖掘的數(shù)學模型：可分為四大類（ 1. ）分類與預測，決策樹、神經(jīng)網(wǎng)絡(luò)、回歸、時間序列（2

40、. ）聚類，K-means，快速聚類，系統(tǒng)聚類（ 3. ）關(guān)聯(lián)， apriori 算法等（ 4. ）異常值處理。以教育 ( 教學、學習 ) 為例，可以分析和挖掘的數(shù)據(jù)模型？基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學習過程監(jiān)管研究為例進行論述（1. ）教育數(shù)據(jù)挖掘及其應(yīng)用。教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的具體應(yīng)用。根據(jù)國際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義，教育數(shù)據(jù)挖掘是指運用不斷發(fā)展的方法和技術(shù)，探索特定的教育環(huán)境中的數(shù)據(jù)類型，挖掘出有價值的信息，以幫助教師更好地理解學生，并改善他們所學習的環(huán)境，為教育者、學習者、管理者等教育工作者提供服務(wù)。教育數(shù)據(jù)挖掘的主要目標包括：構(gòu)建學習者模型，預測學習發(fā)展趨勢；

41、分析已有教學內(nèi)容、教學模型，提出改進優(yōu)化建議；針對各種教育軟件系統(tǒng)，評估其有效性；構(gòu)建教育領(lǐng)域模型，促進有效學習的產(chǎn)生。教育數(shù)據(jù)挖掘的數(shù)據(jù)來源可以來自于網(wǎng)絡(luò)學習系統(tǒng)或者教育辦公軟件等，也可以來自于傳統(tǒng)學習課堂或傳統(tǒng)測試結(jié)果等。數(shù)據(jù)屬性既可以是個人信息（人口學信息），也可以是學習過程信息。教育數(shù)據(jù)挖掘過程包括數(shù)據(jù)獲取與預處理、數(shù)據(jù)分析和結(jié)果解釋三個階段。教育數(shù)據(jù)挖掘的模型主要可分為描述性模型和預測性模型兩類。描述性模型用于模式的描述，為決策制定提供參考意見；而預測性模型主要用于基于數(shù)據(jù)的預測（如預測學生成績或課程通過情況等）。（2. ）網(wǎng)絡(luò)學習過程監(jiān)管的教育數(shù)據(jù)挖掘模型根據(jù)網(wǎng)絡(luò)

42、學習的特殊屬性及教育數(shù)據(jù)挖掘流程，本研究構(gòu)建了如圖 1 所示的網(wǎng)絡(luò)學習過程監(jiān)管的教育數(shù)據(jù)挖掘模型。數(shù)據(jù)源主要來自網(wǎng)絡(luò)學習平臺數(shù)據(jù)庫，以及教務(wù)管理平臺數(shù)據(jù)庫中的學生課程考試成績、個人信息等數(shù)據(jù)。由于數(shù)據(jù)來源的多樣化，因此在完成數(shù)據(jù)采集之后，必須對數(shù)據(jù)進行預處理，包括去除冗余數(shù)據(jù)、處理缺失數(shù)據(jù)、數(shù)值轉(zhuǎn)換等。數(shù)據(jù)預處理完成后，進入教育數(shù)據(jù)挖掘的核心環(huán)節(jié)選擇挖掘方法分析數(shù)據(jù)并得出結(jié)果。針對網(wǎng)絡(luò)學習平臺的學習過程監(jiān)管，使用統(tǒng)計分析與可視化方法了解學習者的網(wǎng)絡(luò)學習時間分布、偏好頁面等；使用關(guān)聯(lián)規(guī)則了解學習者的網(wǎng)絡(luò)學習屬性與學業(yè)成績之間的關(guān)聯(lián)；使用聚類分析對學習者分類，教師可以依據(jù)分類

43、結(jié)果對各類學生進行不同形式的監(jiān)管，也可根據(jù)分類結(jié)果給予相應(yīng)的網(wǎng)絡(luò)學習效果評價。最后，將教育數(shù)據(jù)挖掘的結(jié)果應(yīng)用到網(wǎng)絡(luò)學習過程的監(jiān)管中，學生進行新一輪的網(wǎng)絡(luò)學習，產(chǎn)生新的網(wǎng)絡(luò)學習數(shù)據(jù)，對產(chǎn)生的新數(shù)據(jù)繼續(xù)進行分析。如此不斷迭代，對網(wǎng)絡(luò)學習過程進行調(diào)整和優(yōu)化，使其朝著研究性學習和自主性學習的目標實現(xiàn)可持續(xù)發(fā)展。6. 大數(shù)據(jù)的本質(zhì)特征是什么？大數(shù)據(jù)是指按照一定的組織結(jié)構(gòu)連接起來的數(shù)據(jù)，是非常簡單而且直接的事物，但是從現(xiàn)象上分析，大數(shù)據(jù)所呈現(xiàn)出來的狀態(tài)復雜多樣，這是因為現(xiàn)象是由觀察角度決定的. 大數(shù)據(jù)的結(jié)構(gòu)是一個多層次、交織關(guān)聯(lián)的復雜系統(tǒng)結(jié)構(gòu)，數(shù)據(jù)是分布在節(jié)點上的構(gòu)成物質(zhì)，數(shù)據(jù)之間的關(guān)聯(lián)

44、關(guān)系是由節(jié)點的位置決定的，而不是由數(shù)據(jù)本身來決定。也就是說，不同的數(shù)據(jù)位于同一個節(jié)點時，就可以獲得相同的關(guān)聯(lián)關(guān)系。(1.) 使用所有的數(shù)據(jù)運用用戶行為觀察等大數(shù)據(jù)出現(xiàn)前的分析方法，通常是將調(diào)查對象范圍縮小至幾個人。這是因為，整理所有目標用戶的數(shù)據(jù)實在太費時間，所以采取了從總用戶群中，爭取不產(chǎn)生偏差地抽取一部分作為調(diào)查對象，并僅僅根據(jù)那幾個人的數(shù)據(jù)進行分析。而使用大數(shù)據(jù)技術(shù)，能夠通過發(fā)達的數(shù)據(jù)抽選和分析技術(shù)，完全可以做到對所有的數(shù)據(jù)進行分析，以提高數(shù)據(jù)的正確性。(2.)不拘泥于單個數(shù)據(jù)的精確度如果我們連續(xù)扔骰子，偶爾會連續(xù)好幾次都扔出同樣的數(shù)字。但是如果無限增加扔骰子的次數(shù)，每

45、個數(shù)字出現(xiàn)的概率都將越來越接近六分之一。同樣的，在大數(shù)據(jù)領(lǐng)域，通過觀察數(shù)量龐大的數(shù)據(jù)，更容易提高整體而言的數(shù)據(jù)的精準度。因此，可以不拘泥于個別數(shù)據(jù)的精確度，而迅速地進階到數(shù)據(jù)分析的步驟。（不過這種情況當然不包括人為的篡改等由于外部因素扭曲了數(shù)據(jù)的情況）(3.)不過分強調(diào)因果關(guān)系企業(yè)在考慮服務(wù)方針時，會綜合考慮現(xiàn)狀、問題、改善措施、實施后果等要素之間的相互關(guān)系，在此基礎(chǔ)上建立假設(shè)。但是大數(shù)據(jù)能夠通過觀察海量的數(shù)據(jù)，發(fā)現(xiàn)人所注意不到的相互關(guān)聯(lián)。7. 怎樣使用并行計算的方法（模型）實現(xiàn)并行數(shù)據(jù)的處理與分析？面向大數(shù)據(jù)處理的并行計算模型及性能優(yōu)化：（ 1. ）p-DOT模型分析p-DOT

46、模型在設(shè)計時將 BPS模型作為基礎(chǔ)，模型的基本組成是一系列 iteration ，該模型主要由三個層次組成：首先， D-layer ，也就是數(shù)據(jù)層，整個系統(tǒng)的結(jié)構(gòu)呈現(xiàn)出分布式，各個數(shù)據(jù)節(jié)點上存儲數(shù)據(jù)集。其次， O-layer ，也就是計算層，假設(shè) q 為計算的一個階段，那么該階段內(nèi)的所有節(jié)點會同時進行獨立計算，所有節(jié)點只需要處理自己對應(yīng)的數(shù)據(jù)，這些數(shù)據(jù)中包括最初輸入的數(shù)據(jù)，也包括計算中生成的中間數(shù)據(jù)，這樣實現(xiàn)了并發(fā)計算，得到的中間結(jié)果直接存儲在模型中。最后， T-layer ，也就是通信層，在 q 這一階段內(nèi)，通信操作子會自動傳遞模型中的消息，傳遞過程遵循點對點的原則，因為 q

47、階段中的所有節(jié)點在經(jīng)過計算以后都會產(chǎn)生一個中間結(jié)果，在通信操作子的作用下，這些中間結(jié)果會被一一傳遞到 q1 階段內(nèi)。也就是說，一個階段的輸出數(shù)據(jù)會直接被作為下一個階段的輸入數(shù)據(jù)，如果不存在下一個階段或者是兩個相鄰階段之間不存在通信，則這些數(shù)據(jù)會被作為最終結(jié)果輸出并存儲。在并行計算模型下，應(yīng)用大數(shù)據(jù)和應(yīng)用高性能之間并不矛盾，因此并行計算模型具有普適性的特征，前者為后者提供模式支持，反過來，后者也為前者提供運算能力上的支持。另外，在并行計算模型下，系統(tǒng)的擴展性和容錯性明顯提升，在不改變?nèi)蝿?wù)效率的前提下，數(shù)據(jù)規(guī)模以及機器數(shù)量之間的關(guān)系就能夠描述出系統(tǒng)的擴展性，而即使系統(tǒng)中的一些組件出現(xiàn)故障

48、，系統(tǒng)整體運行也不會受到影響，體現(xiàn)出較好的容錯性。 p-DOT模型雖然是在 DOT模型的基礎(chǔ)上發(fā)展起來的，但是其絕對不會是后者的簡單擴展或者延伸，而是具備更加強大的功能：一是p-DOT模型可以涵蓋 DOT以及 BSP模型的處理范式，應(yīng)用范圍比較廣；二是將該模型作為依據(jù)能夠構(gòu)造出時間成本函數(shù)，如果在某個環(huán)境負載下大數(shù)據(jù)運算任務(wù)已經(jīng)確定，我們就可以根據(jù)該函數(shù)計算出整個運算過程所需要的機器數(shù)量（這里將最短運行時間作為計算標準）；三是該并行計算模型是可以擴展的，模型也自帶容錯功能，具有一定的普適性。（ 2. ）2.1 D-layer 的優(yōu)化要想實現(xiàn)容錯性，要對系統(tǒng)中的數(shù)據(jù)進行備份，因為操

49、作人員出現(xiàn)失誤或者是系統(tǒng)自身存在問題，數(shù)據(jù)有可能大面積丟失，這時備份數(shù)據(jù)就會發(fā)揮作用。一般情況下，系統(tǒng)中比較重要的數(shù)據(jù)會至少制作三個備份，這些備份數(shù)據(jù)會被存儲在不同場所，一旦系統(tǒng)數(shù)據(jù)層出現(xiàn)問題就會利用這些數(shù)據(jù)進行回存。對于數(shù)據(jù)復本可以這樣布局：一是每個數(shù)據(jù)塊中的每個復本只能存儲在對應(yīng)節(jié)點上；二是如果集群中機架數(shù)量比較多，每個機架中可以存儲一個數(shù)據(jù)塊中的一個復本或者是兩個復本。從以上布局策略中我們可以看出，數(shù)據(jù)復本的存儲與原始數(shù)據(jù)一樣，都是存儲在數(shù)據(jù)節(jié)點上，呈現(xiàn)出分散性存儲的特征，這種存儲方式是實現(xiàn)大數(shù)據(jù)容錯性的基礎(chǔ)。2.2O-layer的優(yōu)化隨著信息技術(shù)的發(fā)展以及工業(yè)規(guī)模的擴大

50、，人們對大數(shù)據(jù)任務(wù)性能提出了更高的要求，為了實現(xiàn)提高性能的目標，一般計算機程序會對系統(tǒng)的橫向擴展提供支持。隨著計算機多核技術(shù)的普及，系統(tǒng)的并行處理能力明顯增強，計算密度明顯提高，對多核硬件資源的利用效率明顯提升。傳統(tǒng)并行計算模型主要依靠進程間的通信，而優(yōu)化后的模型則主要依靠線程間的通信，由于后者明顯小于前者，因此在利用多核技術(shù)進行并行計算時，能夠在不增大通信開銷的基礎(chǔ)上明顯提升計算性能。2.3T-layer的優(yōu)化為了提升計算模型的通信性能，需要對大數(shù)據(jù)進行深度學習，具體原因如下：首先，無論使用哪種算法，都需要不斷更新模型，從分布式平臺的角度來說，每一次迭代都代表一次全局通信，

51、而一部分模型的迭代次數(shù)又非常多，同時模型中包含大量位移參數(shù)以及權(quán)重，例如模型 Alex Net 的基礎(chǔ)是卷積神經(jīng)網(wǎng)絡(luò)，其迭代次數(shù)可以達到 45 萬，耗費系統(tǒng)大量通信開銷。其次，如果分布式平臺上本身就有很多機器，那么迭代過程就需要將機器的運行或者計算作為基礎(chǔ)，就是說要想完成一次迭代，平臺上所有的機器都要逐一進行計算，計算完成以后還需要對參數(shù)進行同步。這種迭代模式容易受到短板效應(yīng)的制約，算法通信開銷并不取決于計算速度最快的機器，而是取決于最慢的機器。為了避免短板效應(yīng)，在對并行計算模型進行優(yōu)化時，可以采用同步策略，對于計算速度較慢的機器進行加速，提升迭代類任務(wù)的通信性能。8. 什么是

52、數(shù)據(jù)可視化？有哪些可視化方法？有哪些可視化工具？數(shù)據(jù)可視化技術(shù)包含以下幾個基本概念：借助于圖形化的手段，清晰、快捷有效的傳達與溝通信息。從用戶的角度，數(shù)據(jù)可視化可以讓用戶快速抓住要點信息，讓關(guān)鍵的數(shù)據(jù)點從人類的眼睛快速通往心靈深處。數(shù)據(jù)可視化一般會具備以下幾個特點：準確性、創(chuàng)新性和簡潔性。數(shù)據(jù)空間：是由 n 維屬性和 m個元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間；數(shù)據(jù)開發(fā)：是指利用一定的算法和工具對數(shù)據(jù)進行定量的推演和計算；數(shù)據(jù)分析：指對多維數(shù)據(jù)進行切片、塊、旋轉(zhuǎn)等動作剖析數(shù)據(jù)，從而能多角度多側(cè)面觀察數(shù)據(jù)；數(shù)據(jù)可視化：是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示，并利用數(shù)據(jù)分析和開

53、發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化已經(jīng)提出了許多方法，這些方法根據(jù)其可視化的原理不同可以劃分為基于幾何的技術(shù)、面向像素技術(shù)、基于圖標的技術(shù)、基于層次的技術(shù)、基于圖像的技術(shù)和分布式技術(shù)等等。常用的可視化的方法：（1）、面積 &尺寸可視化對同一類圖形（例如柱狀、圓環(huán)和蜘蛛圖等）的長度、高度或面積加以區(qū)別，來清晰的表達不同指標對應(yīng)的指標值之間的對比。這種方法會讓瀏覽者對數(shù)據(jù)及其之間的對比一目了然。制作這類數(shù)據(jù)可視化圖形時，要用數(shù)學公式計算，來表達準確的尺度和比例。例如：a: 天貓的店鋪動態(tài)評分 b: 聯(lián)邦預算圖 c: 公司黃頁 - 企業(yè)能力模型蜘蛛圖（ 2）、顏色可視化

54、通過顏色的深淺來表達指標值的強弱和大小，是數(shù)據(jù)可視化設(shè)計的常用方法，用戶一眼看上去便可整體的看出哪一部分指標的數(shù)據(jù)值更突出。例如： a: 點擊頻次熱力圖 b: 年度失業(yè)率統(tǒng)計 c: 手機用戶城市分布（3）、圖形可視化在我們設(shè)計指標及數(shù)據(jù)時，使用有對應(yīng)實際含義的圖形來結(jié)合呈現(xiàn)，會使數(shù)據(jù)圖表更加生動的被展現(xiàn)，更便于用戶理解圖表要表達的主題。例如：a: iOS 手機及平板分布 b: 人人網(wǎng)用戶的網(wǎng)購調(diào)查（4）、地域空間可視化當指標數(shù)據(jù)要表達的主題跟地域有關(guān)聯(lián)時，我們一般會選擇用地圖為大背景。這樣用戶可以直觀的了解整體的數(shù)據(jù)情況，同時也可以根據(jù)地理位置快速的定位到某一地區(qū)來查看詳細數(shù)據(jù)。（5）、概念可視化通過將抽象的指標數(shù)據(jù)轉(zhuǎn)換成我們熟悉的容易感知的數(shù)據(jù)時，

人人文庫> 全部分類> 行業(yè)資料

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析與可視化.doc

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)分析與可視化.doc

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔