


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)中的數(shù)據(jù)預處理技術分析摘要:隨著信息技術的飛速發(fā)展,大數(shù)據(jù)技術也快速發(fā)展并且應用越來越廣泛。信息技術的飛速發(fā)展為數(shù)據(jù)的收集和分析提供了強大的技術基礎,并且隨著數(shù)學與計算機科學的交匯,大數(shù)據(jù)技術的應用價值越來越大。本文根據(jù)大數(shù)據(jù)技術的數(shù)據(jù)預處理要求,簡要論述了大數(shù)據(jù)的預處理技術。分析結果表明,對數(shù)據(jù)進行預處理,可以更準確的獲得有價值的數(shù)據(jù)。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)預處理;技術;分析
一、大數(shù)據(jù)技術
1.概念
大數(shù)據(jù)技術,是指一種在不使用傳統(tǒng)隨機理論進行數(shù)據(jù)分析的情況下對數(shù)據(jù)進行集成分析和處理的方法,主要是在數(shù)據(jù)處理方面面臨挑戰(zhàn)。由于實際的生產(chǎn)和壽命,會生成并存儲大量數(shù)據(jù),這些數(shù)據(jù)可以表征該過程。您會看到使用科學合理的數(shù)據(jù)處理方法時,會挖掘它們的唯一值并將其用于優(yōu)化??刂坪蜎Q策制定并加深數(shù)據(jù)的價值。大數(shù)據(jù)由于其樣本量大,準確性高和出色的科學質(zhì)量而受到人們的歡迎。同時,大數(shù)據(jù)處理技術具有高速,多樣化,高價值和可靠性。
2.大數(shù)據(jù)技術的處理流程
根據(jù)現(xiàn)有的一般大數(shù)據(jù)處理技術。第一步是數(shù)據(jù)的收集,這是大數(shù)據(jù)的數(shù)據(jù)來源,并且主要依靠信息技術(例如傳感器網(wǎng)絡)來實現(xiàn)數(shù)據(jù)收集。下一步是預處理數(shù)據(jù),但是由于實際收集的數(shù)據(jù)存在噪音,冗余等問題,因此需要對其進行預處理以進行計算和分析,這也是本文的重點。第三步是存儲正常檢索的數(shù)據(jù)矩陣。第四步是數(shù)值分析,它是利用數(shù)據(jù)值分析的特定模型。第五步是顯示結果,以簡單易懂的形式將數(shù)據(jù)展示出來。從整個大數(shù)據(jù)處理過程的角度來看,數(shù)據(jù)預處理技術的水平?jīng)Q定了數(shù)據(jù)的可靠性和完整性,并在后續(xù)數(shù)據(jù)分析中起著重要作用。預處理過程中使用了許多數(shù)學計算模式。接下來,我們重點介紹相關數(shù)學轉換和大數(shù)據(jù)預處理的數(shù)學分析方法。
二、數(shù)據(jù)預處理技術分析
1.需求分析
在數(shù)據(jù)采集的過程中會出現(xiàn)一些問題,例如測量采集設備的精度不足,數(shù)據(jù)傳輸過程中的環(huán)境干擾,數(shù)據(jù)中的環(huán)境噪聲以及對手動輸入數(shù)據(jù)的篡改,會形成不需要的或者錯誤的數(shù)據(jù)。這些原始數(shù)據(jù)存在以下問題集:(1)混亂。數(shù)據(jù)僅存儲在數(shù)據(jù)集中,缺乏統(tǒng)一的定量和轉換標準,因此無法進行數(shù)據(jù)的定量視覺分析。(2)重復。數(shù)據(jù)具有多個相同的物理描述和特征,尤其是在分析數(shù)據(jù)的方向上存在重復,這構成了數(shù)據(jù)重復和冗余數(shù)據(jù)的累積。這對樣品的分析是有害的。例如,如果輸入數(shù)據(jù),則多次輸入同一實體將導致重復數(shù)據(jù)。(3)模糊。實驗模型或實際系統(tǒng)設計必定會存在一些漏洞和缺陷,從而使其物理特性不清楚或混亂。(4)丟失。發(fā)送或記錄數(shù)據(jù)時發(fā)生錯誤,并且數(shù)據(jù)丟失。由于數(shù)據(jù)集的復雜性,數(shù)據(jù)的準確性和有效性極大地影響了挖掘學習的準確性和有效性。因此,對數(shù)據(jù)進行預處理成為一項重要的預分析任務。有很多預處理數(shù)據(jù)的方法,包括清除數(shù)據(jù),選擇數(shù)據(jù)和轉換數(shù)據(jù)。
2.數(shù)據(jù)清洗
由于各種問題,實際收集的數(shù)據(jù)無法直接用于價值分析。這些不確定的數(shù)據(jù)會嚴重影響大數(shù)據(jù)數(shù)據(jù)分析的準確性,并且在關鍵情況下會失去分析結果的實際意義。出于某些目的需要進行預處理。數(shù)據(jù)清理主要處理不合規(guī)的數(shù)據(jù),例如重復數(shù)據(jù)項,噪聲數(shù)據(jù)項和丟失的數(shù)據(jù)項。數(shù)據(jù)重復會導致數(shù)據(jù)挖掘模型發(fā)生變化,應予以消除,但是檢測重復數(shù)據(jù)的有效方法包括使用基于排序/合并原理的基本鄰接排序算法。在實際的生產(chǎn)和生活中,數(shù)據(jù)不可避免地會有很多漏洞。這是在現(xiàn)實世界中生成的數(shù)據(jù)集的特征,只有某些算法才能補償該錯誤。一般的缺失值預處理方法為:(1)直接刪除空白數(shù)據(jù)項。該方法的優(yōu)點是明顯,高效且技術含量較低。但是,對于樣本量不夠大的數(shù)據(jù)集,會出現(xiàn)較大的偏差。(2)使用填充技術來填充缺失值。由于直接刪除空值可能會對數(shù)據(jù)造成不可挽回的損害,因此我們使用填充算法來完成數(shù)據(jù),但不容易產(chǎn)生偏差。統(tǒng)計方法:標準正態(tài)分布表明,可以使用數(shù)據(jù)的算術平均值代替空缺值。這是最簡單,最常用的方法。分類法:面對大數(shù)據(jù)集時,您可以先對其分類,然后再分析和檢查小數(shù)據(jù)集。分類方法對于樣本訓練具有很好的容忍性,但往往會過度學習。我們將需要設置更多的測試樣本,并使用更多的算法進行檢測和挖掘,因此在此不再贅述。
3.數(shù)據(jù)選樣
數(shù)據(jù)選擇分為簡單隨機選擇和分層樣本選擇。這是數(shù)學中的典型統(tǒng)計問題。其中,簡單隨機樣本選擇不包括替換樣本選擇和替換樣本選擇。簡單的隨機樣本選擇算法易于實現(xiàn)??梢越Y合使用排列和概率知識以及中學編程知識來進行操作。通過分層樣本選擇獲得的數(shù)據(jù)子集適用于數(shù)據(jù)挖掘。
4.數(shù)據(jù)變換
數(shù)據(jù)轉換的目的是將數(shù)據(jù)轉換為特定挖掘所需的格式。通常需要將其與實際數(shù)據(jù)挖掘算法結合起來以執(zhí)行特定的數(shù)據(jù)轉換。通常,它可以分為簡單功能轉換和統(tǒng)一標準轉換。數(shù)據(jù)轉換的重點是將難以表達和計算的原始不規(guī)則性轉換為規(guī)范化的可分析數(shù)據(jù),從而消除了由于收集和存儲數(shù)據(jù)而造成的缺陷。嘗試消除數(shù)據(jù)轉換的基礎是簡單的功能轉換,它通過特定的數(shù)學排列方式對數(shù)據(jù)進行排列,以采用曲線擬合方法。更復雜的算法也可以使用不同的復雜算法,例如Z分數(shù)歸一化算法,以使數(shù)據(jù)轉換更加準確和科學。此外,在使用數(shù)據(jù)之前,您需要合并數(shù)據(jù),合并配置有不同數(shù)據(jù)源的數(shù)據(jù)集以刪除冗余數(shù)據(jù),將兩個或多個上述數(shù)據(jù)集合并到同一數(shù)據(jù)集中。一種處理不正確的空位值的清潔技術,以使所獲取的數(shù)據(jù)集更加科學和準確。
結束語
目前大多數(shù)技術都是基于某些特定數(shù)學類型的典型問題。通過本文的分析可以看出,實際收集到的數(shù)據(jù)受外部環(huán)境的影響很大,因此數(shù)據(jù)是變化的,難以保證數(shù)據(jù)的質(zhì)量。同時,由于不同行業(yè)對數(shù)據(jù)的要求不同,有必要結合具體應用采用科學合理的數(shù)據(jù)預處理方法。因此,通過對數(shù)據(jù)的預處理,可以去除數(shù)據(jù)中的冗余或者錯誤的數(shù)據(jù),得到更有價值的數(shù)據(jù)。
參考文獻:
[1]孔欽,葉長青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預處理方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論