數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時代的應(yīng)用探究_第1頁
數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時代的應(yīng)用探究_第2頁
數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時代的應(yīng)用探究_第3頁
數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時代的應(yīng)用探究_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時代的應(yīng)用探究數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時代的應(yīng)用探究如今,互聯(lián)網(wǎng)的開展速度之快是我們無法預(yù)計的,用戶可以通過互聯(lián)網(wǎng)來搜索到一切想要理解的信息,將秀才不出門便知天下事這句古語的核心意義發(fā)揮的淋漓盡致。但由于eb缺少一定的智能性,以致于用戶只可以依靠導(dǎo)航來對信息進(jìn)展挑選,這樣一來就會讓搜索結(jié)果的準(zhǔn)確性以及針對性大大降低。而伴隨著數(shù)據(jù)挖掘技術(shù)的參加,讓網(wǎng)站對系統(tǒng)性能和用戶愛好的分析才能大大增加,從而有效地進(jìn)步了用戶的使用滿意度。1根本概念介紹數(shù)據(jù)挖掘的出現(xiàn)時間為20世紀(jì)的80年代,它作為一門剛剛興起的學(xué)科來說還尚未得到人們的廣泛認(rèn)可和使用。假設(shè)從技術(shù)的層面對其進(jìn)展分析,數(shù)據(jù)挖掘所針對

2、的是一些較為復(fù)雜且無規(guī)律的數(shù)據(jù)群體;而從商業(yè)的角度來說,數(shù)據(jù)挖掘所指的那么是在偌大的數(shù)據(jù)庫中精準(zhǔn)的將一些有規(guī)律的信息進(jìn)展轉(zhuǎn)換和分析,并在其中將一些對商業(yè)決策有幫助的信息提取出來。2數(shù)據(jù)挖掘技術(shù)的根本分析方法數(shù)據(jù)挖掘工作中最為重要的一個環(huán)節(jié)就是對數(shù)據(jù)進(jìn)展分析,只有選擇一些科學(xué)且有效的計算方式才可以將數(shù)據(jù)的挖掘工作正確的完成。其中,目前較為常用的分析方法有三種,即聚類分析法、分類和預(yù)測法以及關(guān)聯(lián)分析法,下面筆者就對其分別進(jìn)展詳細(xì)的介紹。2.1聚類分析聚類分析的主要工作就是將物理對象與抽象對象的整合進(jìn)展分類,并同時對由一樣或者相似的對象所組成的分類進(jìn)展更加深化的分析,而聚類分析的最終目的就是使用詳細(xì)

3、的方法來將數(shù)據(jù)進(jìn)展有效的分類。古語說的不錯,物以類聚,人以群分,聚類分析法正是通過對事物之間的規(guī)律進(jìn)展分析,從而可以對各個領(lǐng)域進(jìn)展智能化學(xué)習(xí)。聚類分析可以被分成兩種方式,即硬聚類和模糊聚類。其中,硬聚類所代表的是將分析對象劃分到最為相近的類別當(dāng)中,而模糊聚類那么是通過取值范圍的大小來對分析對象進(jìn)展劃分,并且一個對象有可能出現(xiàn)多個類別。2.2分類和預(yù)測分類是對無排序規(guī)律的標(biāo)號進(jìn)展分類,而預(yù)測那么是將連續(xù)值的函數(shù)模型進(jìn)展預(yù)測。其中,分類對于數(shù)據(jù)挖掘技術(shù)來說是非常重要的一個根底,通過分類可以將數(shù)據(jù)集的特性正確的表現(xiàn)出來,從而將各個類別的屬性進(jìn)展相對應(yīng)的劃分。如今比較常見的計算方法為決策樹、粗糙集、貝

4、葉斯、遺傳算法等等。2.3關(guān)聯(lián)分析相信大家都理解蝴蝶效應(yīng),在自然界中發(fā)生的任何一次微小的變動都極有可能連帶出另一個事件的發(fā)生,而關(guān)聯(lián)分析那么是遵循這個規(guī)律所完成的。事物同事物之間是具有一定的依賴性和關(guān)聯(lián)性的,基于此種情況,我們就有時機(jī)對其中的規(guī)律性進(jìn)展有效的預(yù)測。舉例說明,曾經(jīng)知名度非常高的購物籃事件就是通過此種關(guān)聯(lián)分析法來進(jìn)展完成的。其中,通過對顧客購物籃中物品的管理規(guī)律進(jìn)展分析,從而將顧客的購置特點(diǎn)和購置習(xí)慣進(jìn)展初步的掌握,最后根據(jù)這些數(shù)據(jù)再將日常的營銷方案和營銷策略制定出來。理論證明,此種關(guān)聯(lián)分析法是非常有效果的。3數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理所指的是對網(wǎng)絡(luò)日志中的相關(guān)數(shù)據(jù)進(jìn)展二次加工,在加

5、工的過程當(dāng)中需要對數(shù)據(jù)的原始性進(jìn)展有效的保存。其中的挖掘算法所代表的是將數(shù)據(jù)的構(gòu)造以及規(guī)那么有效的選取出來。其中詳細(xì)的系統(tǒng)構(gòu)造如下:eb日志數(shù)據(jù)預(yù)處理確定挖掘算法數(shù)據(jù)挖掘形式。對日志進(jìn)展數(shù)據(jù)挖掘之前需要對相關(guān)的數(shù)據(jù)進(jìn)展優(yōu)先處理,其中包括數(shù)據(jù)的增加和減少、用戶的識別工作、會話內(nèi)容的識別工作以及途徑的補(bǔ)充工作等等。3.1數(shù)據(jù)的縮減首先來理解一下eb日志常見的數(shù)據(jù)格式:用戶的訪問日期和訪問時間、IP地址、方法、指定頁面的URL、字節(jié)數(shù)量、網(wǎng)頁狀態(tài)、代理頁面的URL等等。由于eb的日志挖掘工作僅僅針對用戶的行為形式較為關(guān)注,對一些沒有顯示懇求的界面就非常容易被忽略。例如帶有后綴名為jpg、jpeg、g

6、if等。在此根底之上在對余下的挑選記錄中將相關(guān)的項(xiàng)進(jìn)展選取和挖掘。3.2用戶識別在用戶的系統(tǒng)中通常都會設(shè)置防火墻,所以在eb日志中所產(chǎn)生的記錄極有可能是不真實(shí)的。這就會使用戶識別工作變得異常的復(fù)雜和繁瑣,使用啟發(fā)式規(guī)那么那么可以讓用戶的識別工作有效的完成。規(guī)那么一:假設(shè)用戶的IP一樣,假設(shè)代理閱讀器的操作系統(tǒng)出現(xiàn)了變化,那么代表其屬于不同的用戶。規(guī)那么二:假設(shè)用戶的IP一樣,假設(shè)當(dāng)下的鏈接頁面同已經(jīng)閱讀過的鏈接頁面沒有任何的關(guān)系,那么代表用戶是不同的。3.3會話識別會話識別的最終目的是可以將用戶的訪問記錄進(jìn)展劃分,從而形成多個單獨(dú)的會話,并以此來作為不同的用戶單位。其中,假設(shè)歷經(jīng)時間超過了事先的限定范圍,那么會默認(rèn)認(rèn)為一個新的會話已經(jīng)開始。3.4途徑補(bǔ)充假設(shè)想要到達(dá)減少網(wǎng)絡(luò)傳輸量的目的,目前大部分的閱讀器都會采取對剛剛訪問的頁面進(jìn)展緩存的做法。其中,假設(shè)用戶在頁面中給出了返回指令,系統(tǒng)將會顯示出緩存頁面。由于eb的效勞器無法對用戶的訪問頁面有效的進(jìn)展確定,對PstLG表中的refer進(jìn)展檢查將可以完成對頁面確實(shí)定工作。假設(shè)用戶的訪問歷史中包含了多個當(dāng)前頁面的鏈接,將優(yōu)先選擇懇求時間最接近的的頁面。4結(jié)語互聯(lián)網(wǎng)已經(jīng)逐漸的在人們的生活中占據(jù)了主導(dǎo)的地位,為了可以讓用戶有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論