




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)分析基礎(chǔ):相關(guān)性分析教學(xué)課件課程概述重要性相關(guān)性分析是數(shù)據(jù)科學(xué)核心技能目標(biāo)掌握分析方法與解釋技巧結(jié)構(gòu)第一部分:相關(guān)性分析基礎(chǔ)掌握核心概念理解相關(guān)性基本定義學(xué)習(xí)分析方法熟悉各種相關(guān)系數(shù)了解應(yīng)用場(chǎng)景什么是相關(guān)性?定義描述兩個(gè)變量間關(guān)系程度和方向的統(tǒng)計(jì)指標(biāo)相關(guān)≠因果相關(guān)性的類型正相關(guān)一個(gè)變量增加,另一個(gè)也增加負(fù)相關(guān)一個(gè)變量增加,另一個(gè)減小零相關(guān)相關(guān)系數(shù)定義衡量?jī)勺兞烤€性關(guān)系強(qiáng)度的數(shù)值指標(biāo)范圍通常在-1到+1之間常見類型皮爾遜相關(guān)系數(shù)定義測(cè)量線性相關(guān)程度的參數(shù)統(tǒng)計(jì)量公式r=Σ[(Xi-X?)(Yi-?)]/√[Σ(Xi-X?)2Σ(Yi-?)2]適用條件連續(xù)變量、線性關(guān)系、正態(tài)分布斯皮爾曼等級(jí)相關(guān)系數(shù)1定義測(cè)量?jī)勺兞康燃?jí)順序關(guān)系的非參數(shù)統(tǒng)計(jì)量2計(jì)算步驟將數(shù)據(jù)轉(zhuǎn)化為等級(jí),應(yīng)用公式計(jì)算3適用場(chǎng)景序數(shù)數(shù)據(jù)、非線性關(guān)系、非正態(tài)分布相關(guān)系數(shù)的解釋0-0.2極弱相關(guān)幾乎無關(guān)聯(lián)0.2-0.4弱相關(guān)關(guān)聯(lián)較弱0.4-0.6中等相關(guān)明顯關(guān)聯(lián)0.6-1.0強(qiáng)相關(guān)高度關(guān)聯(lián)第二部分:數(shù)據(jù)準(zhǔn)備與探索收集數(shù)據(jù)獲取高質(zhì)量原始數(shù)據(jù)清洗數(shù)據(jù)處理缺失值與異常值描述統(tǒng)計(jì)了解數(shù)據(jù)分布特征可視化探索直觀觀察變量關(guān)系數(shù)據(jù)收集數(shù)據(jù)質(zhì)量確保準(zhǔn)確性、完整性與代表性收集方法問卷調(diào)查、實(shí)驗(yàn)測(cè)量、觀察記錄、數(shù)據(jù)庫提取樣本考量合理樣本量與抽樣策略數(shù)據(jù)清洗缺失值處理刪除、均值替換或高級(jí)插補(bǔ)法異常值檢測(cè)箱線圖、Z分?jǐn)?shù)法或統(tǒng)計(jì)檢驗(yàn)數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化、對(duì)數(shù)轉(zhuǎn)換或歸一化描述性統(tǒng)計(jì)統(tǒng)計(jì)量含義用途均值數(shù)據(jù)平均水平集中趨勢(shì)中位數(shù)數(shù)據(jù)中心位置抗異常值標(biāo)準(zhǔn)差數(shù)據(jù)離散程度變異性度量數(shù)據(jù)可視化散點(diǎn)圖直觀展示兩變量關(guān)系和模式熱圖通過顏色強(qiáng)度表示多變量相關(guān)性相關(guān)矩陣綜合展示所有變量間關(guān)系正態(tài)性檢驗(yàn)Q-Q圖將數(shù)據(jù)分位數(shù)與理論正態(tài)分布比較點(diǎn)落在直線上表示符合正態(tài)分布偏離直線指示非正態(tài)性Shapiro-Wilk檢驗(yàn)統(tǒng)計(jì)測(cè)試數(shù)據(jù)是否來自正態(tài)分布p>0.05接受正態(tài)性假設(shè)p<0.05拒絕正態(tài)分布假設(shè)線性關(guān)系檢驗(yàn)確認(rèn)線性關(guān)系皮爾遜相關(guān)的必要前提散點(diǎn)圖分析觀察點(diǎn)的分布模式線性回歸初步擬合線性模型評(píng)估關(guān)系第三部分:皮爾遜相關(guān)系數(shù)分析理解基礎(chǔ)理論掌握皮爾遜系數(shù)原理與假設(shè)執(zhí)行計(jì)算過程手動(dòng)計(jì)算與軟件操作進(jìn)行假設(shè)檢驗(yàn)評(píng)估統(tǒng)計(jì)顯著性解釋分析結(jié)果正確理解相關(guān)意義皮爾遜相關(guān)系數(shù)計(jì)算1計(jì)算各變量均值X?和?2計(jì)算離差乘積(Xi-X?)(Yi-?)3計(jì)算離差平方和Σ(Xi-X?)2和Σ(Yi-?)24應(yīng)用相關(guān)公式代入數(shù)值得到r值皮爾遜相關(guān)系數(shù)的假設(shè)檢驗(yàn)1設(shè)立假設(shè)H?:ρ=0(無相關(guān))vsH?:ρ≠0(有相關(guān))2計(jì)算檢驗(yàn)統(tǒng)計(jì)量t=r√(n-2)/√(1-r2)3確定p值與設(shè)定顯著性水平α比較4做出決策p<α?xí)r拒絕原假設(shè)相關(guān)矩陣構(gòu)建矩陣計(jì)算所有變量間兩兩相關(guān)系數(shù)可視化呈現(xiàn)熱圖著色表示相關(guān)強(qiáng)度解釋關(guān)系識(shí)別變量間潛在聯(lián)系模式案例分析:身高與體重的相關(guān)性結(jié)果解讀相關(guān)系數(shù)大小r=0.78表示強(qiáng)正相關(guān)身高增加,體重也傾向于增加統(tǒng)計(jì)顯著性p<0.001表示高度顯著結(jié)果不太可能由隨機(jī)因素導(dǎo)致實(shí)際意義確認(rèn)身高體重存在穩(wěn)定關(guān)聯(lián)可用于預(yù)測(cè)或分類任務(wù)陷阱與注意事項(xiàng)非線性關(guān)系皮爾遜系數(shù)可能低估實(shí)際關(guān)系強(qiáng)度異常值影響少數(shù)極端值可顯著扭曲相關(guān)結(jié)果虛假相關(guān)無關(guān)變量可能因巧合呈現(xiàn)相關(guān)限制范圍樣本范圍限制會(huì)降低相關(guān)系數(shù)第四部分:斯皮爾曼等級(jí)相關(guān)系數(shù)分析等級(jí)轉(zhuǎn)化原始數(shù)據(jù)轉(zhuǎn)換為排名序列1計(jì)算過程應(yīng)用斯皮爾曼公式處理2檢驗(yàn)結(jié)果評(píng)估統(tǒng)計(jì)顯著性3解釋應(yīng)用正確理解結(jié)果含義4等級(jí)數(shù)據(jù)的處理1排序原始數(shù)據(jù)從小到大排列每個(gè)變量2分配等級(jí)值賦予相應(yīng)排名序號(hào)3處理并列情況計(jì)算平均等級(jí)值斯皮爾曼相關(guān)系數(shù)計(jì)算公式rs=1-(6Σd2)/(n(n2-1))手動(dòng)計(jì)算步驟排序、賦等級(jí)、計(jì)算差值、應(yīng)用公式SPSS操作分析→相關(guān)→雙變量→選擇斯皮爾曼斯皮爾曼相關(guān)系數(shù)的假設(shè)檢驗(yàn)假設(shè)設(shè)立H?:ρ=0vsH?:ρ≠0檢驗(yàn)統(tǒng)計(jì)量較大樣本可用t=rs√(n-2)/√(1-rs2)臨界值表小樣本查表確定臨界值計(jì)算值超過臨界值則拒絕原假設(shè)案例分析:學(xué)習(xí)時(shí)間與成績(jī)的相關(guān)性學(xué)習(xí)時(shí)間(小時(shí))考試成績(jī)結(jié)果解釋相關(guān)系數(shù)rs=0.89表示學(xué)習(xí)時(shí)間與成績(jī)高度正相關(guān)統(tǒng)計(jì)顯著性p=0.017低于0.05,關(guān)系統(tǒng)計(jì)顯著實(shí)際意義學(xué)習(xí)時(shí)間增加通常伴隨成績(jī)提高與皮爾遜相關(guān)系數(shù)的比較對(duì)比維度皮爾遜系數(shù)斯皮爾曼系數(shù)數(shù)據(jù)類型連續(xù)、等距或比率等級(jí)或有序分布要求雙變量正態(tài)無特定要求關(guān)系類型線性關(guān)系單調(diào)關(guān)系異常值敏感性較敏感較不敏感第五部分:其他相關(guān)性分析方法偏相關(guān)分析控制第三變量影響肯德爾系數(shù)適用于有并列等級(jí)點(diǎn)二列相關(guān)連續(xù)與二分變量關(guān)系多元相關(guān)分析復(fù)雜變量關(guān)系偏相關(guān)分析1控制混淆變量排除第三變量影響2揭示真實(shí)關(guān)系識(shí)別直接關(guān)聯(lián)程度3應(yīng)用場(chǎng)景復(fù)雜系統(tǒng)多變量關(guān)系研究肯德爾等級(jí)相關(guān)系數(shù)τ-a(Tau-a)不考慮并列情況計(jì)算所有可能對(duì)的一致性τ-b(Tau-b)考慮并列等級(jí)更適合有大量并列的數(shù)據(jù)適用條件小樣本大量并列等級(jí)序數(shù)變量點(diǎn)二列相關(guān)定義測(cè)量二分類變量與連續(xù)變量間關(guān)系計(jì)算二分變量編碼為0/1后應(yīng)用修正公式應(yīng)用性別與測(cè)試分?jǐn)?shù)、治療與恢復(fù)程度多元相關(guān)分析1234定義多個(gè)預(yù)測(cè)變量與一個(gè)結(jié)果變量的關(guān)系指標(biāo)多元相關(guān)系數(shù)R衡量整體相關(guān)程度解釋R2表示被解釋的方差比例應(yīng)用多因素影響研究,如多指標(biāo)預(yù)測(cè)模型典型相關(guān)分析基本原理分析兩組變量之間關(guān)系的多變量技術(shù)心理學(xué)應(yīng)用研究性格特質(zhì)與行為表現(xiàn)關(guān)系市場(chǎng)研究分析消費(fèi)者特征與購買行為關(guān)聯(lián)第六部分:相關(guān)性分析在SPSS中的實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備導(dǎo)入并預(yù)處理原始數(shù)據(jù)變量定義設(shè)置正確的測(cè)量水平運(yùn)行分析選擇合適的相關(guān)方法結(jié)果解讀正確理解輸出結(jié)果SPSS界面介紹數(shù)據(jù)視圖以電子表格形式顯示實(shí)際數(shù)據(jù)行代表個(gè)案,列代表變量變量視圖定義變量屬性設(shè)置名稱、類型、測(cè)量水平等主要菜單分析、圖形、數(shù)據(jù)轉(zhuǎn)換功能輸出查看器顯示結(jié)果數(shù)據(jù)導(dǎo)入和預(yù)處理導(dǎo)入數(shù)據(jù)文件→打開→數(shù)據(jù),支持Excel、CSV等格式定義變量切換至變量視圖,設(shè)置名稱和屬性數(shù)據(jù)篩選數(shù)據(jù)→選擇個(gè)案,設(shè)置篩選條件變量轉(zhuǎn)換轉(zhuǎn)換→計(jì)算變量,創(chuàng)建新變量描述性統(tǒng)計(jì)分析頻率分析分析→描述統(tǒng)計(jì)→頻率描述統(tǒng)計(jì)量分析→描述統(tǒng)計(jì)→描述探索性分析分析→描述統(tǒng)計(jì)→探索交叉表分析→描述統(tǒng)計(jì)→交叉表皮爾遜相關(guān)分析操作步驟1選擇菜單分析→相關(guān)→雙變量2選擇變量將需分析變量移至變量框3設(shè)置參數(shù)選擇"皮爾遜",設(shè)置顯著性檢驗(yàn)選項(xiàng)4運(yùn)行分析點(diǎn)擊"確定"獲取結(jié)果斯皮爾曼相關(guān)分析操作步驟數(shù)據(jù)準(zhǔn)備確保變量設(shè)置為有序或連續(xù)型操作路徑分析→相關(guān)→雙變量→選擇斯皮爾曼結(jié)果解讀查看系數(shù)值和顯著性水平注意事項(xiàng)無需檢查正態(tài)性,適用各類數(shù)據(jù)分布偏相關(guān)分析在SPSS中的實(shí)現(xiàn)菜單選擇分析→相關(guān)→偏相關(guān)變量設(shè)置指定主要變量和控制變量選項(xiàng)配置設(shè)置顯著性檢驗(yàn)和缺失值處理結(jié)果分析比較控制前后相關(guān)系數(shù)變化相關(guān)圖的繪制結(jié)果導(dǎo)出和報(bào)告生成結(jié)果復(fù)制右鍵輸出→復(fù)制至剪貼板導(dǎo)出格式文件→導(dǎo)出為Word/Excel/PDF格式調(diào)整雙擊表格/圖表進(jìn)行精細(xì)編輯報(bào)告生成結(jié)合文本說明制作完整報(bào)告第七部分:相關(guān)性分析在實(shí)際研究中的應(yīng)用理解相關(guān)原理掌握理論基礎(chǔ)熟悉分析工具靈活運(yùn)用軟件操作實(shí)踐應(yīng)用案例學(xué)習(xí)領(lǐng)域應(yīng)用技巧市場(chǎng)研究案例滿意度評(píng)分購買意愿評(píng)分醫(yī)學(xué)研究案例研究設(shè)計(jì)橫斷面調(diào)查收集年齡與血壓數(shù)據(jù)500名不同年齡段參與者分析方法皮爾遜相關(guān)分析評(píng)估線性關(guān)系控制BMI的偏相關(guān)分析結(jié)果解釋年齡與收縮壓r=0.68,顯著正相關(guān)控制BMI后相關(guān)降至r=0.52教育領(lǐng)域案例0.72內(nèi)在動(dòng)機(jī)與成績(jī)相關(guān)系數(shù)強(qiáng)正相關(guān),p<0.0010.56外在動(dòng)機(jī)與成績(jī)相關(guān)系數(shù)中等正相關(guān),p<0.010.64學(xué)習(xí)態(tài)度與成績(jī)相關(guān)系數(shù)中強(qiáng)正相關(guān),p<0.001金融數(shù)據(jù)分析股票A股票B股票C社會(huì)科學(xué)研究教育水平與犯罪率呈顯著負(fù)相關(guān)(r=-0.65)收入水平與犯罪率呈中度負(fù)相關(guān)(r=-0.48)人口密度與犯罪率呈弱正相關(guān)(r=0.32)失業(yè)率與犯罪率呈中強(qiáng)正相關(guān)(r=0.59)第八部分:相關(guān)性分析的進(jìn)階話題非線性相關(guān)復(fù)雜曲線關(guān)系分析時(shí)間滯后相關(guān)考慮時(shí)間延遲效應(yīng)樣本量影響評(píng)估統(tǒng)計(jì)功效機(jī)器學(xué)習(xí)應(yīng)用特征工程的相關(guān)性非線性相關(guān)性檢測(cè)方法散點(diǎn)圖檢視殘差分析變換技術(shù)常見類型二次關(guān)系對(duì)數(shù)關(guān)系U形關(guān)系處理策略數(shù)據(jù)轉(zhuǎn)換(對(duì)數(shù)、平方)非參數(shù)方法非線性回歸時(shí)間滯后相關(guān)性概念一變量當(dāng)前值與另一變量未來值的關(guān)系意義揭示時(shí)間序列數(shù)據(jù)中因果關(guān)系線索技巧滯后期確定、平穩(wěn)性檢驗(yàn)、交叉相關(guān)分析樣本量對(duì)相關(guān)分析的影響樣本量統(tǒng)計(jì)功效相關(guān)性vs因果關(guān)系相關(guān)性變量間統(tǒng)計(jì)關(guān)聯(lián),無方向性不表明一個(gè)導(dǎo)致另一個(gè)因果關(guān)系變量間作用-反應(yīng)關(guān)系變量X改變導(dǎo)致變量Y改變常見誤區(qū)混淆相關(guān)與因果忽略潛在第三變量因果推斷需要實(shí)驗(yàn)設(shè)計(jì)隨機(jī)分配與對(duì)照組機(jī)器學(xué)習(xí)中的相關(guān)性分析特征選擇篩選高相關(guān)變量提升模型性能多重共線性處理預(yù)測(cè)變量間高度相關(guān)問題降維技術(shù)基于相關(guān)性的主成分分析4特征工程利用相關(guān)性創(chuàng)建新特征大數(shù)據(jù)環(huán)境下的相關(guān)性分析高性能計(jì)算分布式系
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國普通改性PVC密封條數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2031年中國紙箱裝訂扁絲行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年中國無芯輪數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025年湖南省岳陽市中考二模地理試卷及答案
- 2025年中國斜式雙錐混料機(jī)市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國數(shù)字式倒車?yán)走_(dá)數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 2025-2030年中國中高壓輸配電行業(yè)發(fā)展動(dòng)態(tài)及投資戰(zhàn)略研究預(yù)測(cè)研究報(bào)告
- 2025至2031年中國罐裝熏衣草茶行業(yè)投資前景及策略咨詢研究報(bào)告
- 肇慶市實(shí)驗(yàn)中學(xué)高中歷史三:第課漢字與書法教案
- 商家?guī)ж浿鞑ズ贤瑓f(xié)議
- 2025年新高考語文模擬考試試卷(五)
- 實(shí)習(xí)生補(bǔ)充協(xié)議范例模板
- 2025年高考數(shù)學(xué)基礎(chǔ)知識(shí)篇(核心知識(shí)背記手冊(cè))
- 藥品經(jīng)營質(zhì)量管理規(guī)范
- 專項(xiàng)24-正多邊形與圓-重難點(diǎn)題型
- 通信工程勘察設(shè)計(jì)管理辦法
- 數(shù)據(jù)庫原理及應(yīng)用教程(第5版) (微課版)課件 第4章 關(guān)系型數(shù)據(jù)庫理論
- (完整文本版)日文履歷書(文本テンプレート)
- 天津市建設(shè)工程安全生產(chǎn)標(biāo)準(zhǔn)化項(xiàng)目季度自評(píng)表
- DL∕T 1210-2013 火力發(fā)電廠自動(dòng)發(fā)電控制性能測(cè)試驗(yàn)收規(guī)程
- 110kV變電站專項(xiàng)電氣試驗(yàn)及調(diào)試方案
評(píng)論
0/150
提交評(píng)論