統(tǒng)計學(xué)基本知識介紹_第1頁
統(tǒng)計學(xué)基本知識介紹_第2頁
統(tǒng)計學(xué)基本知識介紹_第3頁
統(tǒng)計學(xué)基本知識介紹_第4頁
統(tǒng)計學(xué)基本知識介紹_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于數(shù)據(jù)的經(jīng)營決策統(tǒng)計的基本介紹與應(yīng)用,沈東東,客戶關(guān)系管理中心,2015年3月。目錄,統(tǒng)計數(shù)據(jù)分析(挖掘)的主要方法有哪些及其一些應(yīng)用,如何開發(fā)統(tǒng)計書籍和軟件中常用的統(tǒng)計思維和質(zhì)量,什么是統(tǒng)計學(xué),第:部分?人類發(fā)現(xiàn)了統(tǒng)計學(xué),統(tǒng)計學(xué)改變了世界。 統(tǒng)計學(xué)的故事第一章標題(1)統(tǒng)計的定義(2)統(tǒng)計的起源(3)統(tǒng)計與其他學(xué)科的區(qū)別(4)統(tǒng)計模型(5)摘要:什么是統(tǒng)計學(xué)科,(1)統(tǒng)計的定義,定義:統(tǒng)計是一門研究隨機現(xiàn)象的方法論科學(xué),其特點是推理,“從部分到全部”貫穿于統(tǒng)計之中。具體來說,就是研究如何收集、整理和分析反映事物整體信息的數(shù)字數(shù)據(jù),并在此基礎(chǔ)上推斷其整體特征的原理和方法。此外,統(tǒng)計學(xué)也是一門收集、分類、分析和解釋統(tǒng)計數(shù)據(jù)的科學(xué)。這是一門理解方法論本質(zhì)的科學(xué)。其目的是探索數(shù)據(jù)內(nèi)在的定量規(guī)律,從而實現(xiàn)對客觀事物的科學(xué)理解。用統(tǒng)計學(xué)理解事物的步驟是:研究設(shè)計-抽樣調(diào)查-統(tǒng)計推斷-結(jié)論。在這里,研究設(shè)計是為調(diào)查和實驗研究制定計劃。抽樣調(diào)查是收集數(shù)據(jù)的過程,統(tǒng)計推斷是分析數(shù)據(jù)的過程。顯然,統(tǒng)計學(xué)的主要功能是推理,而推理方法是不完全歸納,因為它使用部分數(shù)據(jù)來推斷總體。(2)統(tǒng)計學(xué)的起源,兩個來源:概率論VS國情(1)概率論:在16世紀,概率論體系逐漸發(fā)展起來,它始于一場與擲骰子有關(guān)的賭博活動。雖然這種起源并不十分輝煌,需要加以驗證,但在歐洲興起和盛行的骰子賭博活動已經(jīng)引起了一群好奇的學(xué)者的注意。骰子贏得的點數(shù)直接決定了賭注的輸贏。因此,開始定量研究并定義概率的研究人員無法證明這一點。然而,一些著作的出版和問題的討論對概率統(tǒng)計的發(fā)展產(chǎn)生了重大影響。例如,卡爾達諾的機遇博弈,惠更斯的機遇的規(guī)律,伯努利的推測數(shù),著名的賭博問題,帕斯卡和費馬之間的交流,在此期間經(jīng)典的概率模型得到了極大的發(fā)展,概率、期望、二項式分布、中心極限定理等概念相繼提出。結(jié)論:賭博也是一把雙刃劍!事實上,它來自意大利語單詞“stato”,意思是“國家”和“形勢”,也就是后來的英語單詞“國家”。在17和18世紀,統(tǒng)計以國情的形式出現(xiàn)。長期以來,我一直在研究人口統(tǒng)計,尤其是男孩和女孩的比例。由于概率論和國情的結(jié)合,這也是統(tǒng)計學(xué)逐漸發(fā)展的開始。在此期間,一些重要的理論被發(fā)現(xiàn),如二項式分布和大數(shù)定律。結(jié)論:統(tǒng)計學(xué)來源于國家的實際應(yīng)用。從生物學(xué)角度來看,XX染色體和XY染色體的組合是隨機的,因此孕婦生男孩和女孩的概率是1/2。假設(shè)一對夫婦有兩個孩子,其中一個是男孩,問另一個是女孩的概率是多少?答:1/3B :1/2C :2/3D :3/4你知道答案嗎?(3)統(tǒng)計學(xué)與其他學(xué)科的異同,(1)統(tǒng)計學(xué)與概率論的異同:不是胡說八道:概率論是統(tǒng)計學(xué)的基礎(chǔ),統(tǒng)計學(xué)是概率論的發(fā)展。區(qū)別:概率論就像給你一個模型,你可以知道這個模型會產(chǎn)生什么樣的數(shù)據(jù);另一方面,統(tǒng)計學(xué)會給你一些數(shù)據(jù),這樣你就可以判斷產(chǎn)生了什么樣的模型。例如,概率論研究一個透明的盒子。你知道盒子的結(jié)構(gòu)(有幾個紅色的球和幾個白色的球,這就是所謂的分布函數(shù)),然后計算下一個被觸摸的球是紅色球的概率。統(tǒng)計面臨著一個黑箱。你只能看到每次是紅色的球還是白色的球被觸摸。然后你需要猜測黑盒的內(nèi)部結(jié)構(gòu),比如紅球和白球的比例。(參數(shù)估計)你能想到40%的紅色球和60%的白色球嗎?(假設(shè)檢驗),2。統(tǒng)計分析和數(shù)據(jù)挖掘的異同:(目前是一個熱門話題),什么是數(shù)據(jù)挖掘?(1)什么樣的學(xué)科:它是在多學(xué)科的基礎(chǔ)上發(fā)展起來的。包括數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)、數(shù)據(jù)可視化等一系列跨學(xué)科的結(jié)合。(2)它為什么發(fā)展?隨著數(shù)據(jù)庫技術(shù)的發(fā)展,數(shù)據(jù)的積累迅速擴大,導(dǎo)致簡單的查詢和統(tǒng)計已經(jīng)不能滿足企業(yè)(尤其是互聯(lián)網(wǎng)公司)的業(yè)務(wù)需求,迫切需要革命性的技術(shù)來挖掘數(shù)據(jù)背后的信息。(3)如何發(fā)展:隨著人工智能在計算機領(lǐng)域的巨大進步,它已經(jīng)進入機器學(xué)習(xí)階段。因此,人們將數(shù)據(jù)庫與機器學(xué)習(xí)相結(jié)合,使用數(shù)據(jù)庫管理系統(tǒng)存儲數(shù)據(jù),并使用計算機分析數(shù)據(jù),產(chǎn)生了一門新的學(xué)科:數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)??偠灾簲?shù)據(jù)挖掘是知識發(fā)現(xiàn)的核心部分。它指的是從數(shù)據(jù)集中自動提取隱藏在數(shù)據(jù)中的有用信息的過程。這些信息的表達形式有:規(guī)則、概念、規(guī)則和模式。統(tǒng)計分析和數(shù)據(jù)挖掘的異同點是相同的:(1)它們都分析和發(fā)現(xiàn)數(shù)據(jù)?!安还苁前棕堖€是黑貓,抓老鼠都是好貓?!痹趯崙?zhàn)中,分析和解決問題的首要考慮是思維,其次是與思維相匹配的分析和挖掘技術(shù)。(2)兩者的許多理論來源是同源的。統(tǒng)計分析中的多變量分析支持相當(dāng)大比例的數(shù)據(jù)挖掘技術(shù)。(3)越來越多的觀點認為數(shù)據(jù)挖掘是統(tǒng)計分析技術(shù)的延伸和發(fā)展,用于處理大規(guī)模數(shù)據(jù)的不同點(數(shù)十萬行,數(shù)百萬行數(shù)據(jù)):(1)“統(tǒng)計分析”得出的結(jié)論是人類智能活動的結(jié)果,“數(shù)據(jù)挖掘”得出的結(jié)論是機器從學(xué)習(xí)集(或訓(xùn)練集,樣本集)中發(fā)現(xiàn)的知識規(guī)則;(2)與更加注重理論和方法的統(tǒng)計分析相比,數(shù)據(jù)挖掘更強調(diào)應(yīng)用。畢竟,數(shù)據(jù)挖掘的目的是方便企業(yè)用戶的使用。(3)“統(tǒng)計分析”不能建立數(shù)學(xué)模型,需要人工建模,而“數(shù)據(jù)挖掘”直接完成數(shù)學(xué)建模。例如,傳統(tǒng)控制論建模的本質(zhì)是描述輸入變量和輸出變量之間的函數(shù)關(guān)系?!皵?shù)據(jù)挖掘”可以通過機器學(xué)習(xí)自動建立輸入和輸出之間的函數(shù)關(guān)系。根據(jù)KDD獲得的“規(guī)則”,給定一組輸入?yún)?shù),就可以獲得一組輸出。(4)統(tǒng)計模型,模型的作用:預(yù)測或理解產(chǎn)生數(shù)據(jù)的機制。如何找到模型:(1)對數(shù)據(jù)進行初步的探索性分析,使用圖表和各種統(tǒng)計數(shù)據(jù)(簡單的如期望、方差等)。)作為基本分析來了解數(shù)據(jù)的分布,并清理或轉(zhuǎn)換一些數(shù)據(jù)(缺失值、異常值等)。)如有必要;(2)根據(jù)具體業(yè)務(wù)需求選擇因變量(目標變量、響應(yīng)概率)和自變量(解釋變量),分析變量和變量之間的相關(guān)性、相關(guān)性、線性和共線性等各種關(guān)系;(3)選擇變量后,必須找到合適的模型和算法(現(xiàn)有模型或自己建立新模型);(4)比較和分析多個模型,選擇最合適的模型,并不斷優(yōu)化模型以解釋每個變量。(5)檢查模型是否健壯并對業(yè)務(wù)有幫助。一個好的模型應(yīng)該是模型能夠很好地適應(yīng)數(shù)據(jù),而不是讓數(shù)據(jù)適應(yīng)模型??傊?,統(tǒng)計學(xué)是什么樣的學(xué)科?1000名讀者眼中有1000個小村莊,1000名學(xué)者眼中有1000個統(tǒng)計視圖。數(shù)學(xué)?社會科學(xué)?自然科學(xué)的概率?我的觀點:數(shù)學(xué)不能被證偽,可以脫離現(xiàn)實,并且不是科學(xué)。應(yīng)用科學(xué)是科學(xué)的應(yīng)用,而不是科學(xué)本身,應(yīng)該算作工程。=統(tǒng)計學(xué)是應(yīng)用數(shù)學(xué)。如果我們想知道上帝在想什么,我們必須學(xué)習(xí)統(tǒng)計學(xué),因為統(tǒng)計學(xué)是用來衡量他的意志的。佛羅倫薩南丁格爾,現(xiàn)代護理的創(chuàng)始人,回歸分析,相關(guān)分析,主成分分析,聚類分析,參數(shù)估計和假設(shè)檢驗,(1)回歸分析,包括兩個主要內(nèi)容:多元線性回歸邏輯回歸,(1)回歸分析,和(1)多元線性回歸,描述因變量(y)如何隨著一組自變量的變化而變化()。其回歸公式(即回歸方程)是因變量和自變量之間關(guān)系的數(shù)據(jù)反映。多元線性回歸方程:當(dāng)p=1時,ps:是最簡單的一維線性回歸方程,即因變量由自變量解釋。自變量系數(shù)。:殘差,一般假設(shè)滿足正態(tài)分布,如何解釋因變量的變化:a .因自變量引起的系統(tǒng)變化(即可以用自變量解釋);隨機變化不能用獨立變量來解釋,而是由殘差引起的。(1)回歸分析(2)邏輯回歸:描述:與線性回歸相比,邏輯回歸在日常應(yīng)用和數(shù)據(jù)操作中起著更為頻繁的作用,因為該分析技術(shù)預(yù)測的因變量(y)是0到1之間的概率,所以它可以很好地回答預(yù)測和分類等更常見的“兩個之一”問題。(例如,“購買”或“不購買”的概率以及“失去”或“不失去”客戶的概率等。)邏輯回歸方程:其中:p(y=1)是響應(yīng)概率(即顧客購買的概率),p(y=0)是無響應(yīng)概率。其他變量的解釋類似于線性回歸。(2)關(guān)聯(lián)分析,描述:所謂的關(guān)聯(lián)分析,主要目的是發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式,一般來說,即兩個或多個變量之間的關(guān)系,在同一時間出現(xiàn)多次。應(yīng)用:關(guān)聯(lián)分析最經(jīng)典的案例是“購物籃分析”。通過分析顧客購物籃中物品的關(guān)聯(lián),可以挖掘顧客的購物習(xí)慣,從而幫助零售商更好地制定有針對性的營銷策略。(Apriori,D、A等使用的常見推薦算法。)生活中的一個常識是,當(dāng)一個男人去超市買尿布時,他會順便買一瓶啤酒。嬰兒尿布啤酒(支持度=10%,置信度=70%)以上公式顯示,10%(支持度)的顧客同時購買了嬰兒尿布和啤酒,而70%(置信度)的購買尿布的顧客也購買了啤酒。=X對y的支持:所有事物中包含的事物的百分比。衡量規(guī)則有用性的主要標準是,如果它太小,那只是一個意外。=X對y的信心:包含X和y的事物總數(shù)占包含X的事物總數(shù)的百分比。衡量的是規(guī)則的確定性或可預(yù)測性。(2)關(guān)聯(lián)分析,“啤酒和尿液”營銷案例:沃爾瑪超市在發(fā)現(xiàn)上述啤酒和尿液之間的關(guān)聯(lián)后,決定將兩者放在一起銷售,導(dǎo)致兩者的銷售額大幅增加。這是典型的“啤酒和尿液”營銷案例。(3)主成分分析描述:它屬于傳統(tǒng)統(tǒng)計分析技術(shù)的范疇。通過線性組合將多個原始變量組合成多個主成分,使得每個主成分成為原始變量的線性組合。這種轉(zhuǎn)換的目的,一方面是為了大大降低原始數(shù)據(jù)的維數(shù),同時在這個過程中發(fā)現(xiàn)原始數(shù)據(jù)的屬性之間的關(guān)系。其基本思想是試圖將具有一定相關(guān)性的大量原始指標(如n個指標)重新組合成一組新的獨立綜合指標(如m個指標,m一致性有效性.(5)參數(shù)估計和假設(shè)檢驗,(2)假設(shè)檢驗起源:女茶葉發(fā)明者:英國統(tǒng)計學(xué)家羅娜戴爾默菲舍,在統(tǒng)計史上有著突出的地位。費希爾認為:顯著性測試a .測試過程:準備8杯飲料,其中4杯先裝滿牛奶,另外4杯先裝滿牛奶,然后再裝滿茶。隨機排列,讓女士一個一個品嘗,然后讓她指出哪4杯是TM?b .推理過程:假設(shè)h的介紹:女人沒有辨別能力的假設(shè)含義:當(dāng)h正確時,女人只能隨意選擇8杯飲料中的4杯,所以有兩種選擇,只有一種是正確的。因此,如果女人真的正確選擇了所有這些,我們必須承認以下兩種情況之一:1。h不成立,也就是說,這個女人確實有鑒別能力;2.概率只有1/70的事件發(fā)生了。(5)參數(shù)估計和檢驗假設(shè)檢驗,上述第二種情況相當(dāng)于在一個有70個球的黑盒中隨機挑出一個球,然后只挑出一個預(yù)先指定的球,這是很不尋常的,因此我們有充分的理由承認第一種情況的可能性。換句話說,女人正確地挑選了所有四個杯子的結(jié)果是對假說h的一個重要證據(jù),因此,我們否認h。這樣的推理過程被稱為顯著性檢驗。參數(shù)估計和檢驗假設(shè)檢驗的主要思想是假設(shè)檢驗的基本原理是小概率事件原理,即觀察假設(shè)成立時小概率事件是否發(fā)生。如果一個小概率事件發(fā)生在一個實驗中,那么這個假設(shè)在一定的顯著性水平上是不可靠或無效的。如果一個小概率事件在測試中沒有發(fā)生,它只能表明沒有足夠的理由相信這個假設(shè)是錯誤的,但它也不能表明這個假設(shè)一定是正確的,因為不可能收集所有的證據(jù)來證明這個假設(shè)是正確的。顯著性水平:為了做出決定,通常會給出一個閾值。當(dāng)計算的概率(例如,在上述例子中為1/70)小于該閾值時,結(jié)果被認為是顯著的(提供了與原始假設(shè)h相反的顯著證據(jù))并導(dǎo)致h的否定,其中閾值被稱為顯著性水平。在統(tǒng)計學(xué)中,顯著性水平根據(jù)不同情況取不同的值,一般取0.01、0.05、0.1等水平。(5)參數(shù)估計和檢驗假設(shè)檢驗。由于假設(shè)檢驗是在一定的顯著性水平上獲得的,當(dāng)使用這種方法觀察事件并得出結(jié)論時,可能會出錯。主要有兩種類型的錯誤:如何培養(yǎng)數(shù)據(jù)分析師的思維和素質(zhì),每個人都很聰明,但經(jīng)常被誘導(dǎo)。宋代禪宗大師繆西的態(tài)度決定了所有基本方法論的28條原則都應(yīng)該是主客觀并重的,(1)態(tài)度決定一切,信念:堅信數(shù)據(jù)背后一定有值得提煉的規(guī)律和結(jié)論,并從辯證唯物主義的角度看待事物的本質(zhì)規(guī)律及其內(nèi)在聯(lián)系,認為一切事物都是普遍聯(lián)系的。信心:信念代表客觀存在的數(shù)據(jù),而信息代表數(shù)據(jù)分析師自己。人們越自信,他們就越理性地看待自己的優(yōu)勢和劣勢,并相互學(xué)習(xí)。信念:以商業(yè)和思維為信念,始終關(guān)注商業(yè)和思維,以分析技術(shù)為輔助手段。需要強調(diào)的是,分析思維的價值和重要性遠遠超過分析技術(shù)本身。(2)基本方法,做出假設(shè),明確分析的目的是統(tǒng)一標準分析中的數(shù)據(jù)口徑,明確比較的有效性和可比性。所有事物都是相互依存的。沒有比較,就沒有結(jié)論??纯蹿厔?。通過以往數(shù)據(jù)的分布和趨勢圖,我們可以發(fā)現(xiàn)事物的發(fā)展趨勢,辨別真假,找出現(xiàn)象背后的真正原因,并得出在真實數(shù)據(jù)關(guān)系下數(shù)據(jù)分析的最終產(chǎn)物。(3)28原則,28原則體現(xiàn)了矛盾理論的觀點,即要善于抓住主要矛盾和主要矛盾的方面,從而突出重點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論