版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)采集與預(yù)處理主講教師:龍霄漢《大數(shù)據(jù)導(dǎo)論》課程Introductiontobigdata數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述011數(shù)據(jù)預(yù)處理概述數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)轉(zhuǎn)換階段主要數(shù)據(jù)進(jìn)行采樣處理、類型轉(zhuǎn)換、歸一化。采樣是從特定的概率分布中抽取樣本點(diǎn)的過程。采樣在大數(shù)據(jù)分析中有非常重要的應(yīng)用:將復(fù)雜分布簡化為離散的樣本點(diǎn);用重采樣可以對樣本集進(jìn)行調(diào)整以更好地進(jìn)行調(diào)整并適應(yīng)后期的模型學(xué)習(xí);用于隨機(jī)模擬以進(jìn)行復(fù)雜模型的近似求解或推理。采樣的一個(gè)重要作用是處理不均衡數(shù)據(jù)集。最簡單的處理不均衡樣本集的方法是隨機(jī)采樣。采樣一般分為過采樣(Over-sampling)和欠采樣(Under-sampling)。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)類型可以簡單劃分為數(shù)值型和非數(shù)值型。數(shù)值型有連續(xù)型和離散型。非數(shù)值型有類別型和非類別型,其中類別型特征中如果類別存在排序問題為定序型,若不存在排序問題則為定類型,非類別型是字符串型。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在數(shù)據(jù)描述階段,我們可以根據(jù)需要計(jì)算統(tǒng)計(jì)量和對數(shù)據(jù)進(jìn)行可視化。數(shù)據(jù)的一般性描述有mean,median,mode,variance.mean是均值;median是中位數(shù),取數(shù)據(jù)排序后在中間位置的值,避免因?yàn)闃O端離群點(diǎn)影響客觀評價(jià);mode是出現(xiàn)頻率最高的元素,其實(shí)用的比較少;variance是方差,由于衡量數(shù)據(jù)集與其均值的偏離。數(shù)據(jù)之間的相關(guān)性可以使用Pearsoncorrelationcoefficient和Pearsonchi-square進(jìn)行度量。前者適用與有metricdata的情況,后者適用于分類統(tǒng)計(jì)的情況。數(shù)據(jù)預(yù)處理概述數(shù)據(jù)可視化一維數(shù)據(jù)圓餅圖,柱狀圖;二維數(shù)據(jù)散點(diǎn)圖;三維數(shù)據(jù)用三維坐標(biāo)呈現(xiàn);高維數(shù)據(jù)需要先做轉(zhuǎn)換或映射,比如用matlab的BoxPlots,也可以用平行坐標(biāo)呈現(xiàn)。可使用工具有很多,如matlab和Geph。圖片來自互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理概述在大數(shù)據(jù)分析中,數(shù)據(jù)可以被表示為向量的形式進(jìn)行訓(xùn)練,但是在對高維向量進(jìn)行處理和分析時(shí),會極大消耗系統(tǒng)資源,甚至產(chǎn)生維度災(zāi)難。因此,使用低維度的向量來表示高維度的向量就十分必要。特征抽取或降維即使用低緯度向量表示高維度向量的方法。特征抽取是主要有主成分分析(PrincipalComponentAnalysis,PCA)和線性判別分析(LinearDiscriminantAnalysis,LDA)兩種方式。兩者相同之處為均假設(shè)數(shù)據(jù)服從高斯分布,都使用了矩陣分解的思想。兩者不同之處為PCA是無監(jiān)督的算法,對降低后的維度無限制,其目標(biāo)為投影方差最大;LDA是有監(jiān)督的算法,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年度研學(xué)旅游行業(yè)國際交流與合作框架合同3篇
- 2025年擔(dān)保反擔(dān)保合同的擔(dān)保責(zé)任
- 物流倉庫運(yùn)作報(bào)價(jià)方案
- 常州市期末高三數(shù)學(xué)試卷
- 二零二五年度航空航天錄用合同范本4篇
- 比較藝術(shù)學(xué)視域下四川竹編藝術(shù)的傳承與創(chuàng)新
- “空無生妙有”-《道德經(jīng)》中空符號的意義生成與符用啟示研究
- 2025年度酒店對客住宿安全保障免責(zé)協(xié)議
- 二零二五年度私人房屋出售與配套設(shè)施完善合同
- 二零二五年度初創(chuàng)企業(yè)股權(quán)分配框架合同
- 青島版二年級下冊三位數(shù)加減三位數(shù)豎式計(jì)算題200道及答案
- GB/T 12723-2024單位產(chǎn)品能源消耗限額編制通則
- GB/T 16288-2024塑料制品的標(biāo)志
- 麻風(fēng)病防治知識課件
- 干部職級晉升積分制管理辦法
- TSG ZF003-2011《爆破片裝置安全技術(shù)監(jiān)察規(guī)程》
- 2024年代理記賬工作總結(jié)6篇
- 電氣工程預(yù)算實(shí)例:清單與計(jì)價(jià)樣本
- VOC廢氣治理工程中電化學(xué)氧化技術(shù)的研究與應(yīng)用
- 煤礦機(jī)電設(shè)備培訓(xùn)課件
- 高考寫作指導(dǎo)議論文標(biāo)準(zhǔn)語段寫作課件32張
評論
0/150
提交評論