導(dǎo)言數(shù)據(jù)研究分析_第1頁
導(dǎo)言數(shù)據(jù)研究分析_第2頁
導(dǎo)言數(shù)據(jù)研究分析_第3頁
導(dǎo)言數(shù)據(jù)研究分析_第4頁
導(dǎo)言數(shù)據(jù)研究分析_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、導(dǎo)言數(shù)據(jù)研究分析Finding Whoa at Office 2.02緒緒 論論 數(shù)據(jù)分析是數(shù)理統(tǒng)計學(xué)數(shù)據(jù)分析是數(shù)理統(tǒng)計學(xué)3030多年來迅速多年來迅速發(fā)展起來的一個分支。特別在計算機非發(fā)展起來的一個分支。特別在計算機非常普及、各種統(tǒng)計分析軟件不斷推出的常普及、各種統(tǒng)計分析軟件不斷推出的今天,數(shù)據(jù)分析已廣泛地應(yīng)用到社會科今天,數(shù)據(jù)分析已廣泛地應(yīng)用到社會科學(xué)和自然科學(xué)的許多領(lǐng)域中。學(xué)和自然科學(xué)的許多領(lǐng)域中。Finding Whoa at Office 2.03 科學(xué)研究是一個反復(fù)學(xué)習(xí)的過程。科學(xué)研究是一個反復(fù)學(xué)習(xí)的過程。首先必須指定一些與某種社會現(xiàn)象或自首先必須指定一些與某種社會現(xiàn)象或自然現(xiàn)象有關(guān)

2、的解釋作為目標(biāo),然后通過然現(xiàn)象有關(guān)的解釋作為目標(biāo),然后通過收集數(shù)據(jù)和分析數(shù)據(jù)對這些目標(biāo)進行檢收集數(shù)據(jù)和分析數(shù)據(jù)對這些目標(biāo)進行檢驗驗。對通過實驗或觀察收集來的數(shù)據(jù)進對通過實驗或觀察收集來的數(shù)據(jù)進行分析之后,人們通常會對現(xiàn)象提出一行分析之后,人們通常會對現(xiàn)象提出一些些改進的解釋。改進的解釋。Finding Whoa at Office 2.04 在這個反復(fù)學(xué)習(xí)的全過程中,往在這個反復(fù)學(xué)習(xí)的全過程中,往往有些變量會增添到研究中,有些則往有些變量會增添到研究中,有些則會剔除。因此大多數(shù)現(xiàn)象的復(fù)雜性要會剔除。因此大多數(shù)現(xiàn)象的復(fù)雜性要求研究人員去收集許多不同變量的觀求研究人員去收集許多不同變量的觀測值。測

3、值。 數(shù)據(jù)分析的基本命題是從數(shù)據(jù)中挖數(shù)據(jù)分析的基本命題是從數(shù)據(jù)中挖掘盡可能多的有用信息,面對數(shù)據(jù),強掘盡可能多的有用信息,面對數(shù)據(jù),強調(diào)可解決什么樣的問題,如何解決。調(diào)可解決什么樣的問題,如何解決。 數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理論與方法,從中獲得有用的信息。論與方法,從中獲得有用的信息。Finding Whoa at Office 2.05數(shù)據(jù)分析研究的內(nèi)容和方法數(shù)據(jù)分析研究的內(nèi)容和方法1 1 簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)簡化數(shù)據(jù)結(jié)構(gòu)(降維問題) 將某些較復(fù)雜的數(shù)據(jù)結(jié)構(gòu)通過變將某些較復(fù)雜的數(shù)據(jù)結(jié)構(gòu)通過變量變換等方法使相互依賴的變量變成量變換等方法使相互依賴的變量變成

4、互不相關(guān)的;或把高維空間的數(shù)據(jù)投互不相關(guān)的;或把高維空間的數(shù)據(jù)投影到低維空間,使問題得到簡化而損影到低維空間,使問題得到簡化而損失的信息又不太多。失的信息又不太多。 如:主成分分析,因子分析,對如:主成分分析,因子分析,對應(yīng)分析等。應(yīng)分析等。Finding Whoa at Office 2.062 2分類與判別(歸類問題)分類與判別(歸類問題) 根據(jù)所測量的特征將一些根據(jù)所測量的特征將一些“相似的相似的”對象或變量分組。如:聚類分析。對象或變量分組。如:聚類分析。 另外,根據(jù)一些分類規(guī)則,將對象另外,根據(jù)一些分類規(guī)則,將對象歸入明確定義的各組。如:判別分析。歸入明確定義的各組。如:判別分析。F

5、inding Whoa at Office 2.073 3變量間依賴性的研究變量間依賴性的研究 (1 1)相互依賴關(guān)系:分析一個或幾)相互依賴關(guān)系:分析一個或幾個變量的變化是否依賴與另外一些變量個變量的變化是否依賴與另外一些變量的變化?如果是,建立變量間的定量關(guān)的變化?如果是,建立變量間的定量關(guān)系式,并用于預(yù)測和控制系式,并用于預(yù)測和控制回歸分析?;貧w分析。 (2 2)變量間的相互關(guān)系:分析兩組)變量間的相互關(guān)系:分析兩組變量間的相互關(guān)系變量間的相互關(guān)系典型相關(guān)分析。典型相關(guān)分析。金牛制造84 4多元數(shù)據(jù)的統(tǒng)計推斷多元數(shù)據(jù)的統(tǒng)計推斷 這是關(guān)于參數(shù)估計和假設(shè)檢驗的這是關(guān)于參數(shù)估計和假設(shè)檢驗的問題

6、。特別是多元正態(tài)分布的均值向問題。特別是多元正態(tài)分布的均值向量及協(xié)方差陣的估計和假設(shè)檢驗等問量及協(xié)方差陣的估計和假設(shè)檢驗等問題。題。金牛制造95. 5. 多元統(tǒng)計分析的理論基礎(chǔ)多元統(tǒng)計分析的理論基礎(chǔ) 多元統(tǒng)計分析的理論基礎(chǔ)包括多多元統(tǒng)計分析的理論基礎(chǔ)包括多維隨機向量及多維正態(tài)隨機向量,以維隨機向量及多維正態(tài)隨機向量,以及由此定義的各種多元統(tǒng)計量,推導(dǎo)及由此定義的各種多元統(tǒng)計量,推導(dǎo)它們的分布,研究它們的抽樣分布理它們的分布,研究它們的抽樣分布理論。論。 教學(xué)基本內(nèi)容教學(xué)基本內(nèi)容 數(shù)據(jù)描述性分析數(shù)據(jù)描述性分析 線性回歸分析線性回歸分析 方差分析方差分析 主成分分析與典型相關(guān)分析主成分分析與典型相

7、關(guān)分析 判別分析判別分析 聚類分析聚類分析 BayesBayes統(tǒng)計分析統(tǒng)計分析 數(shù)據(jù)分析是統(tǒng)計學(xué)理論與方法的綜合應(yīng)用,更數(shù)據(jù)分析是統(tǒng)計學(xué)理論與方法的綜合應(yīng)用,更注重解決實際問題的全過程。注重解決實際問題的全過程。金牛制造11 數(shù)據(jù)分析起源于數(shù)據(jù)分析起源于2020世紀(jì)初世紀(jì)初:1928:1928年威沙特年威沙特(Wishart(Wishart)發(fā)表的論文)發(fā)表的論文多元正態(tài)總體樣本多元正態(tài)總體樣本協(xié)方差陣的精確分布協(xié)方差陣的精確分布,可以說是數(shù)據(jù)分析,可以說是數(shù)據(jù)分析的開端。之后費希爾(的開端。之后費希爾(FisherFisher)、霍特林)、霍特林(HotellingHotelling)、羅

8、伊()、羅伊(Roy)Roy)、許寶祿等人、許寶祿等人做了一系列奠基性的工作,使數(shù)據(jù)分析在理做了一系列奠基性的工作,使數(shù)據(jù)分析在理論上得到迅速的發(fā)展,在許多領(lǐng)域中也有了論上得到迅速的發(fā)展,在許多領(lǐng)域中也有了實際應(yīng)用。實際應(yīng)用。 數(shù)據(jù)分析數(shù)據(jù)分析簡史簡史 由于用統(tǒng)計方法解決實際問題時需由于用統(tǒng)計方法解決實際問題時需要的計算量很大,使其發(fā)展受到影響,甚要的計算量很大,使其發(fā)展受到影響,甚至停滯了相當(dāng)長的時間。至停滯了相當(dāng)長的時間。2020世紀(jì)世紀(jì)5050年代中年代中期,隨著電子計算機的出現(xiàn)和發(fā)展,使得期,隨著電子計算機的出現(xiàn)和發(fā)展,使得數(shù)據(jù)分析在地質(zhì)、氣象、醫(yī)學(xué)、社會學(xué)等數(shù)據(jù)分析在地質(zhì)、氣象、醫(yī)學(xué)

9、、社會學(xué)等方面得到廣泛的應(yīng)用。方面得到廣泛的應(yīng)用。 6060年代通過應(yīng)用和實踐又完善和發(fā)年代通過應(yīng)用和實踐又完善和發(fā)展了理論,由于新理論、新方法的不展了理論,由于新理論、新方法的不斷出現(xiàn)又促使它的應(yīng)用范圍更加擴大。斷出現(xiàn)又促使它的應(yīng)用范圍更加擴大。7070年代初期在我國才受到各個領(lǐng)域的年代初期在我國才受到各個領(lǐng)域的極大關(guān)注,近極大關(guān)注,近3030年來我國在多元統(tǒng)計年來我國在多元統(tǒng)計分析的理論研究和應(yīng)用上也取得了很分析的理論研究和應(yīng)用上也取得了很多顯著成績,有些研究工作達到國際多顯著成績,有些研究工作達到國際先進水平先進水平! !簡化數(shù)據(jù)結(jié)構(gòu)簡化數(shù)據(jù)結(jié)構(gòu) 用一些進行放射冶療的癌癥患者的變量用一些

10、進行放射冶療的癌癥患者的變量數(shù)據(jù)構(gòu)造一個進行放射冶療的患者的簡單數(shù)據(jù)構(gòu)造一個進行放射冶療的患者的簡單測量法。測量法。 用許多國家和地區(qū)的徑賽運動記錄為用許多國家和地區(qū)的徑賽運動記錄為男女運動員建立一個成績標(biāo)準(zhǔn)。男女運動員建立一個成績標(biāo)準(zhǔn)。 由高精讀掃描儀獲得的多光譜圖像數(shù)由高精讀掃描儀獲得的多光譜圖像數(shù)據(jù)被簡化成一種形式,可被看作一個二維據(jù)被簡化成一種形式,可被看作一個二維的海岸線的圖案。的海岸線的圖案。 利用與產(chǎn)量及蛋白質(zhì)含量有關(guān)的幾個利用與產(chǎn)量及蛋白質(zhì)含量有關(guān)的幾個變量的數(shù)據(jù),建立一個選擇總體的標(biāo)準(zhǔn)以變量的數(shù)據(jù),建立一個選擇總體的標(biāo)準(zhǔn)以改善下幾代豆類植物。改善下幾代豆類植物。變量間的相互關(guān)

11、系變量間的相互關(guān)系 幾個變量的數(shù)據(jù)被用來識別令委托人幾個變量的數(shù)據(jù)被用來識別令委托人成功地雇用外來顧問的因素。成功地雇用外來顧問的因素。 對于創(chuàng)新以及商業(yè)環(huán)境和商業(yè)級別的對于創(chuàng)新以及商業(yè)環(huán)境和商業(yè)級別的有關(guān)變量的測量。使我們可以發(fā)現(xiàn)為什么有關(guān)變量的測量。使我們可以發(fā)現(xiàn)為什么一些公司實現(xiàn)了產(chǎn)品創(chuàng)新,而另一些公司一些公司實現(xiàn)了產(chǎn)品創(chuàng)新,而另一些公司卻沒有。卻沒有。 奧運會上十項全能運動員的運動數(shù)據(jù),奧運會上十項全能運動員的運動數(shù)據(jù),被用來確定十項全能項目取得成功的身體被用來確定十項全能項目取得成功的身體因素。因素。預(yù)預(yù) 測測 利用考試得分以及幾個高中成績變量與利用考試得分以及幾個高中成績變量與幾個大學(xué)成績變量之間的聯(lián)系,構(gòu)造用來預(yù)幾個大學(xué)成績變量之間的聯(lián)系,構(gòu)造用來預(yù)測在大學(xué)里成績

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論