第八章-數(shù)據(jù)分析基礎(chǔ)_第1頁
第八章-數(shù)據(jù)分析基礎(chǔ)_第2頁
第八章-數(shù)據(jù)分析基礎(chǔ)_第3頁
第八章-數(shù)據(jù)分析基礎(chǔ)_第4頁
第八章-數(shù)據(jù)分析基礎(chǔ)_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《信息管理概論》——第八章數(shù)據(jù)分析基礎(chǔ)

在大數(shù)據(jù)時代,讓數(shù)據(jù)說話已經(jīng)成為一項共識。但是,在實際應(yīng)用當中,不僅數(shù)據(jù)本身可能存在一定的片面性(比如,數(shù)據(jù)不完整,有噪音),而且不恰當?shù)臄?shù)據(jù)分析方法更會導(dǎo)致結(jié)果與事實的巨大偏差。因此,充分的了解數(shù)據(jù)和數(shù)據(jù)處理方法對數(shù)據(jù)分析處理極為重要。引言目

錄04

數(shù)據(jù)分析方法概述01

定性分析和定量分析02

數(shù)據(jù)類型03

數(shù)據(jù)分析方法分類05復(fù)雜數(shù)據(jù)處理06數(shù)據(jù)可視化Part1.定性分析與定量分析研究分析的目的在于揭露掩蓋在表象后面的本質(zhì)。01

定性分析-用數(shù)量語言描述02

定量分析-用數(shù)學(xué)語言描述03

定量分析與定性分析的關(guān)系定性研究有兩個不同的層次:一是沒有或缺乏數(shù)量分析的純定性研究,結(jié)論往往具有概括性和較濃的推測色彩;二是建立在定量分析的基礎(chǔ)上的、更高層次的定性研究。定性分析是對研究對象進行“質(zhì)”的方面的分析定性研究大多是采用參與觀察法和訪談法而獲得一手數(shù)據(jù),具體的方法主要有參與觀察、行動研究、歷史研究法等。01

定性分析-用數(shù)量語言描述02

定量分析-用數(shù)學(xué)語言描述03

定量分析與定性分析的關(guān)系定量分析是對社會現(xiàn)象的數(shù)量特征、數(shù)量關(guān)系與數(shù)量變化的分析,是依據(jù)統(tǒng)計數(shù)據(jù),建立數(shù)學(xué)模型,并用數(shù)學(xué)模型計算出分析對象的各項指標及其數(shù)值的一種方法,功能在于揭示和描述社會現(xiàn)象的相互作用和發(fā)展趨勢。01

定性分析-用數(shù)量語言描述02

定量分析-用數(shù)學(xué)語言描述03

定量分析與定性分析的關(guān)系定性分析與定量分析互為補充,相輔相成,定性是定量的依據(jù),定量是定性的具體化,二者結(jié)合起來靈活運用才能取得最佳效果。定量分析與定性分析方法一般都是通過比較對照來分析問題和說明問題。定量研究需要尋求一種數(shù)據(jù)定量表示的模型,并采用一些統(tǒng)計分析方法驗證模型假設(shè)。一般來說,定量研究之前常常都要以適當?shù)亩ㄐ匝芯繛殚_端,定性研究也經(jīng)常會用于解釋由定量分析所得的結(jié)果。定量分析相對于定性分析更加客觀,很大程度上排除了主觀因素的干擾Part2.數(shù)據(jù)類型進行數(shù)據(jù)分析的第一步是了解數(shù)據(jù)。只有在充分了解數(shù)據(jù)的基礎(chǔ)上才能夠選取合理的、有效的數(shù)據(jù)分析方法。01

定類數(shù)據(jù)02

定序數(shù)據(jù)03

定距數(shù)據(jù)04

定比數(shù)據(jù)定類變量的值只能把研究對象分類,也即只能決定研究對象是同類抑或是不同類,具有=與≠的數(shù)學(xué)性質(zhì)。每類之間的關(guān)系是平等的或并列的,沒有等級之分。設(shè)計定類變量的各個類別時,要注意:一是類與類之間要互相排;二是所有研究對象均有歸屬,不可遺漏。每類之間的關(guān)系是平等的或并列的,沒有等級之分。定類數(shù)據(jù):也可以稱為類別數(shù)據(jù)、列名數(shù)據(jù),根據(jù)定性的原則來區(qū)分總體各個案類別。在四種計量尺度(定類尺度、定序尺度、定距尺度、定比尺度)中是計量層次最低、最粗略的一種。它只能測度事物之間的類別差,對事物進行平行的分類和分組,其數(shù)據(jù)表現(xiàn)為“類別”,但各類之間無法進行比較。01

定類數(shù)據(jù)02

定序數(shù)據(jù)03

定距數(shù)據(jù)04

定比數(shù)據(jù)定序尺度,是對事物之間等級差別和順序差別的一種測度。它不僅可以測度類別差,還可以測度次序差。所以,相較定類尺度,更加精確。定序尺度并不能測量出類別之間的準確差值,只能比較大小,不能進行加、減、乘、除數(shù)學(xué)運算。定序數(shù)據(jù):也稱為順序數(shù)據(jù),是一種區(qū)別同一類別個案中等級次序的數(shù)據(jù)。定序數(shù)據(jù)可以體現(xiàn)次序關(guān)系,即能把研究對象排列高低或大小,具有>與<的數(shù)學(xué)特質(zhì);比定類數(shù)據(jù)的層次更高,因此也具有定類數(shù)據(jù)的特質(zhì),即區(qū)分類別(=,≠)。01

定類數(shù)據(jù)02

定序數(shù)據(jù)03

定距數(shù)據(jù)04

定比數(shù)據(jù)定距尺度:也可以稱為間隔尺度,它對事物能進行準確測度。定距尺度不僅能比較各類事物的優(yōu)劣,還能計算出事物之間差異的大小,所以其數(shù)據(jù)表現(xiàn)為“數(shù)值”。能將事物區(qū)分為不同類型并進行排序,而且可準確指出類別之間的差距是多少。定距尺度通常以自然或物理單位為計量尺度,因此測量結(jié)果往往表現(xiàn)為數(shù)值。計量結(jié)果可以進行加減運算(加減運算有意義)。“0”是測量尺度上的一個測量點,并不代表“沒有”。定距數(shù)據(jù):是由定距尺度計量形成的,具有間距特征的變量,表現(xiàn)為數(shù)值,有單位,沒有絕對零點,可以進行加、減運算以精確計算數(shù)據(jù),但不能做乘除運算。01

定類數(shù)據(jù)02

定序數(shù)據(jù)03

定距數(shù)據(jù)04

定比數(shù)據(jù)定比尺度:又稱比率尺度,由于定比尺度有絕對零點(定比尺度中的“0”表示沒有,或者是理論上的極限)。與定距尺度屬于同一層次,計量結(jié)果也表現(xiàn)為數(shù)值。具有其他三種計量尺度的全部特點外,還有可計算兩個測度值之間比值的特點?!?”表示“沒有”,即它有一固定的絕對“零點”,因此它可進行加、減、乘、除運算(而定距尺度只可進行加減運算)定比數(shù)據(jù):是由定比尺度計量形成的,表現(xiàn)為數(shù)值,可以進行加、減、乘、除運算。沒有負數(shù)。數(shù)據(jù)的最高級,既有測量單位,也有絕對零點。Part3.數(shù)據(jù)分析方法分類常用的數(shù)據(jù)分析方法可以概括為描述性分析和預(yù)測性分析兩種。01

描述性分析02預(yù)測性分析描述性統(tǒng)計分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布、以及一些基本的統(tǒng)計圖形。集中趨勢:在統(tǒng)計學(xué)中是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在。離散趨勢:離散趨勢的各測度值是對數(shù)據(jù)離散程度所做的描述,他反映各變量值遠離其中心值的程度,因此也稱為離中趨勢,可以從另一個側(cè)面說明了集中趨勢測度值的代表程度。01

描述性分析02預(yù)測性分析預(yù)測分析涵蓋了各種統(tǒng)計學(xué)技術(shù),包括利用預(yù)測模型、機器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)來分析當前及歷史數(shù)據(jù),從而對未來或其他不確定的事件進行預(yù)測。預(yù)測分析方法被廣泛的應(yīng)用于保險精算科學(xué)、市場營銷、金融服務(wù)、保險、電信、零售、旅行、保健、制藥、能力規(guī)劃及其他領(lǐng)域。Part4.數(shù)據(jù)分析方法概述了解數(shù)據(jù)分析方法和相對應(yīng)的特性,有助于在遇到實際的問題和數(shù)據(jù)的時候選擇合適的數(shù)據(jù)分析方法01

回歸分析02

監(jiān)督學(xué)習(xí)算法03

無監(jiān)督學(xué)習(xí)算法回歸分析是一種統(tǒng)計學(xué)的方法,回歸分析是一種測量兩個或多個現(xiàn)象之間的聯(lián)系的方法,回歸分析有助于理解當任何一個獨立的變量變化時,因變量隨著獨立的變量如何變化.只有一個自變量的方程成為一元回歸分析,具有多個自變量X1,X2,X3,…,Xn,成為n元線性回歸。回歸分析一般來說是對連續(xù)性變量的估計而不是分類中使用的離散型變量。線性回歸:通過學(xué)習(xí)一個線性模型盡可能準確地預(yù)測實值輸出標記邏輯回歸:一個二值分類器,通過sigmoid函數(shù),它的輸出值只有“0”和“1”01

回歸分析02

監(jiān)督學(xué)習(xí)算法03

無監(jiān)督學(xué)習(xí)算法監(jiān)督學(xué)習(xí)是一種利用有標簽的數(shù)據(jù)來訓(xùn)練模型,使模型達到正確的分類和預(yù)測效果SVM:用來對數(shù)據(jù)進行分類和回歸分析,一種二分類模型,含硬間隔支持向量機和軟間隔向量機LinearSVM:尋找訓(xùn)練樣本中間的劃分超平面,解決二分類問題核函數(shù):包括線性核,多項式核,高斯核,Sigmoid核KNN:用于分類和回歸的非參數(shù)的監(jiān)督學(xué)習(xí)方法貝葉斯分類:一種基于統(tǒng)計的分類算法決策樹:基于條件做決策,算法思想是由上而下,分而治之,遞歸的方法來構(gòu)建樹神經(jīng)網(wǎng)絡(luò):模擬人腦神經(jīng)元的數(shù)學(xué)基礎(chǔ)而建立起來的,由多層神經(jīng)元組成,神經(jīng)元之間互相連接01

回歸分析02

監(jiān)督學(xué)習(xí)算法03

無監(jiān)督學(xué)習(xí)算法無監(jiān)督學(xué)習(xí):對無標簽數(shù)據(jù)進行聚類和降維,常見的聚類和降維分別為K-means和PCAK-means:一種聚類算法,它將n個值劃

分為k個簇,實現(xiàn)聚類PCA:主成分分析,一種常見的降維方式,

可以對數(shù)據(jù)的主成分進行分析,

對特征進行降維二維數(shù)據(jù)壓縮至一維K-means分類示意圖Part5.復(fù)雜數(shù)據(jù)處理實際應(yīng)用當中,我們遇到的數(shù)據(jù)往往并沒有“準備好”。需要我們進行預(yù)處理,比如半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。01

知識管理的產(chǎn)生復(fù)雜數(shù)據(jù)介紹:結(jié)構(gòu)化數(shù)據(jù):指有組織的格式化的存儲庫(通常是數(shù)據(jù)庫)的數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù)的一種,它沒有關(guān)系數(shù)據(jù)庫或者其他形式的數(shù)據(jù)表相關(guān)聯(lián)的數(shù)據(jù)模型的正式結(jié)構(gòu),但包含標記或者其他標記來分隔語義元素。非結(jié)構(gòu)化數(shù)據(jù):比較起傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),沒有行和列這種具體的結(jié)構(gòu)。02

理論研究淵源常見非結(jié)構(gòu)化處理方法:文本處理數(shù)字圖像處理圖像數(shù)字化社交網(wǎng)絡(luò)分析02

理論研究淵源文本處理:對于文本常用自然語言處理(NaturalLanguageProcessing,NLP)和文本挖掘(文本分析)。文本挖掘(文本分析)是檢查大量文本資源以生成新信息,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),然后利用機器學(xué)習(xí)等方法來對文本進行進一步的分析。自然處理(NLP)算法是文本挖掘中使用最廣泛的技術(shù),利用NLP的方式可以識別相似的詞語概念。文本處理流程圖02

理論研究淵源數(shù)字圖像處理數(shù)字圖像處理流程圖02

理論研究淵源圖像數(shù)字化將圖像進行數(shù)字化是計算機處理圖像之前的基本步驟,通過取樣和量化將真實的圖像轉(zhuǎn)變?yōu)橛嬎銠C可以識別的數(shù)字形式。圖像經(jīng)過處理被表示為一個矩陣,矩陣的每一個元素稱為一個像素。02

理論研究淵源社交網(wǎng)絡(luò)分析社交網(wǎng)絡(luò)示例圖02

理論研究淵源常用社交網(wǎng)絡(luò)分析方法中心性分析:個體的中心度測量的是個體處于網(wǎng)絡(luò)中心的程度,反映了該點在網(wǎng)絡(luò)中的重要性,常用的中心性分析法:度中心性,接近中心性,中介中心性。凝聚子群分析:當網(wǎng)絡(luò)中某些點(一般指人)關(guān)系特別緊密,形成一個小團體,這樣的團體在社交網(wǎng)絡(luò)中成為凝聚子群,也叫做“小團體分析”。方法有:1.基于子圖可達性的方法,2.基于節(jié)點聚類的方法,3.基于圖分割等方法Part6.數(shù)據(jù)可視化數(shù)據(jù)可視化是運用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論