Web數(shù)據(jù)研究與應(yīng)用論文關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的論文_第1頁
Web數(shù)據(jù)研究與應(yīng)用論文關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的論文_第2頁
Web數(shù)據(jù)研究與應(yīng)用論文關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的論文_第3頁
Web數(shù)據(jù)研究與應(yīng)用論文關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的論文_第4頁
Web數(shù)據(jù)研究與應(yīng)用論文關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的論文_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Word-6-Web數(shù)據(jù)研究與應(yīng)用論文關(guān)于大數(shù)據(jù)技術(shù)與應(yīng)用的論文1知如何能夠投其所好,為用戶實(shí)現(xiàn)主動推舉,供應(yīng)共性化服務(wù);

這些都是電子商務(wù)成敗的關(guān)鍵問題。在這種新型的商務(wù)模式下,如何對網(wǎng)絡(luò)上大量的信息進(jìn)行有效組織利用,關(guān)心海量數(shù)據(jù)的擁有者們找出真正有價值的信息和學(xué)問,以指導(dǎo)他們的商業(yè)決策行為,成為電子商務(wù)經(jīng)營者關(guān)注的問題??焖龠M(jìn)展的基于Web的數(shù)據(jù)挖掘技術(shù),為解決電子商務(wù)所面臨的問題供應(yīng)了有效途徑。

2Web數(shù)據(jù)挖掘

2.1Web數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中提取人們事先不知道的、潛在有用的信息和學(xué)問的非平凡過程。

Web數(shù)據(jù)挖掘(WebMining)是從Web文檔和Web活動中抽取感愛好的、潛在的有用模式和隱蔽的信息,是數(shù)據(jù)庫、數(shù)據(jù)挖掘、人工智能、信息檢索、自然語言理解等技術(shù)的綜合應(yīng)用,是在肯定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)覺有用的學(xué)問來關(guān)心人們從中提取學(xué)問。Web數(shù)據(jù)挖掘可以分為Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining)三類。Web內(nèi)容挖掘是指從文檔內(nèi)容或其描述中抽取學(xué)問的過程,又可以分為基于文本的挖掘和基于多媒體的挖掘兩種。Web文本挖掘可以對Web上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析等。Web結(jié)構(gòu)挖掘是指從Web組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)學(xué)問。通過對Web結(jié)構(gòu)的挖掘,可以用來指導(dǎo)對頁面進(jìn)行分類和聚類,找到權(quán)威頁面,從而提高檢索的性能,同時還可以用來指導(dǎo)網(wǎng)頁采集工作,提高采集效率。Web使用記錄挖掘是指從服務(wù)器端記錄的客戶訪問日志或從客戶的掃瞄信息中抽取感愛好的模式。

基于Web的數(shù)據(jù)挖掘技術(shù)的消失不僅為商家做出正確的商業(yè)決策供應(yīng)了強(qiáng)有力的工具,也為商家更加深化地了解客戶需求信息和購物行為的特征供應(yīng)了可能性。

2.2電子商務(wù)中Web數(shù)據(jù)挖掘的步驟

電子商務(wù)中Web數(shù)據(jù)挖掘的步驟如下:

①明確數(shù)據(jù)挖掘的對象—業(yè)務(wù)對象,確定商業(yè)應(yīng)用主題,不能盲目地進(jìn)行挖掘;

②將與業(yè)務(wù)對象的各類原始數(shù)據(jù)收集起來作為挖掘的數(shù)據(jù)源泉;

③對收集的數(shù)據(jù)進(jìn)行預(yù)處理,一般包括數(shù)據(jù)凈化、用戶識別、會話識別、路徑補(bǔ)充、事務(wù)識別和格式化等階段,以提高挖掘效率,剔除無用、無關(guān)信息并對信息進(jìn)行必要的整理。

④依據(jù)需要解決的問題建立合適的數(shù)據(jù)挖掘模型,然后利用已知數(shù)據(jù)對模型進(jìn)行訓(xùn)練和測試,并應(yīng)用該模型得到挖掘結(jié)果;

⑤利用可視化技術(shù),驗(yàn)證、解釋挖掘的結(jié)果,并據(jù)此做出決策或豐富學(xué)問,即進(jìn)行模式分析與應(yīng)用。

在整個Web數(shù)據(jù)挖掘的過程中,被明確的業(yè)務(wù)對象是挖掘過程的基礎(chǔ),它驅(qū)動整個Web數(shù)據(jù)挖掘的全過程;

同時,也是檢驗(yàn)挖掘結(jié)果和引導(dǎo)分析人員完成挖掘的依據(jù)。

2.3電子商務(wù)中Web數(shù)據(jù)挖掘的數(shù)據(jù)源

在電子商務(wù)中,可以用來作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,而且類型眾多,總結(jié)起來有以下幾種類型的數(shù)據(jù)可用于Web數(shù)據(jù)挖掘技術(shù)產(chǎn)生各種學(xué)問模式。

①服務(wù)器數(shù)據(jù)。客戶訪問站點(diǎn)時會在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲在服務(wù)器上。一般包括serverslogs、errorlogs、cookieslogs等。

②查詢數(shù)據(jù)。它是電子商務(wù)站點(diǎn)在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對于再現(xiàn)存儲的客戶或許會搜尋一些產(chǎn)品或某些廣告信息,這些查詢信息就是通過cookie或是登記信息連接到服務(wù)器的訪問日志上。

③在線市場數(shù)據(jù)。這類數(shù)據(jù)主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫里存儲的有關(guān)電子商務(wù)站點(diǎn)信息、用戶購買信息、商品信息等數(shù)據(jù)。

④Web頁面。主要是指HTML和XML頁面的內(nèi)容,包括文本、圖片、語音、圖像等。

⑤Web頁面超級鏈接關(guān)系。主要是指頁面之間存在的超級鏈接關(guān)系,這也是一種重要的資源。

⑥客戶登記信息??蛻舻怯浶畔⑹侵缚蛻敉ㄟ^Web頁輸入的、要提交給服務(wù)器的相關(guān)用戶信息,這些信息通常是關(guān)于用戶的人口特征。在Web的數(shù)據(jù)挖掘中,客戶登記信息需要和訪問日志集成,以提高數(shù)據(jù)挖掘的精確?????度,使之能更進(jìn)一步的了解客戶。

2.4Web數(shù)據(jù)挖掘能夠獵取的學(xué)問模式

運(yùn)用Web數(shù)據(jù)挖掘技術(shù)能夠?qū)φ军c(diǎn)上的各種數(shù)據(jù)源進(jìn)行挖掘,找到相關(guān)的一些學(xué)問模式,以指導(dǎo)站點(diǎn)人員更好地運(yùn)作站點(diǎn)和向客戶供應(yīng)更好的服務(wù)。一般運(yùn)用Web數(shù)據(jù)挖掘可以在站點(diǎn)上挖掘出來的學(xué)問模式有以下幾個:

①路徑分析。它可以被用于判定在一個Web站點(diǎn)中最頻繁訪問的路徑。通過路徑分析,可以得到重要的頁面,可以改進(jìn)頁面及網(wǎng)站結(jié)構(gòu)的設(shè)計(jì)。

②關(guān)聯(lián)規(guī)章的發(fā)覺。在電子商務(wù)中關(guān)聯(lián)規(guī)章的發(fā)覺可以找到客戶對網(wǎng)站上各種文件之間訪問的相互關(guān)系,可以找到用戶訪問的頁面與頁面之間的相關(guān)性和購買商品間的相關(guān)性。利用這些相關(guān)性,可以更好的組織站點(diǎn)的內(nèi)容,實(shí)施有效的市場策略,增加交叉銷售量,同時還可以削減用戶過濾信息的負(fù)擔(dān)。

③序列模式的發(fā)覺。序列模式的發(fā)覺就是在時間戳有序的事務(wù)集中,找到那些“一些項(xiàng)跟隨另一項(xiàng)”的內(nèi)部事務(wù)模式。它能夠便于進(jìn)行電子商務(wù)的組織猜測客戶的訪問模式,對客戶開展有針對性的廣告服務(wù)。通過系列模式的發(fā)覺,能夠在服務(wù)器方選擇有針對性地頁面,以滿意訪問者的特定要求。

④分類和猜測。分類發(fā)覺就是給出識別一個特別群體的公共屬性的描述,這個描述可以用來分類新的項(xiàng)。分類的目的是通過構(gòu)造分類模型或分類器,把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個,以便用于猜測;

也就是利用歷史數(shù)據(jù)記錄自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對將來數(shù)據(jù)進(jìn)行猜測,進(jìn)行適合某一類客戶的商務(wù)活動。

⑤聚類分析。聚類分析可以從Web訪問信息數(shù)據(jù)中聚集出具有相像特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng)能夠便于開發(fā)和執(zhí)行將來的市場策略。這種市場策略包括自動給一個特定的顧客聚類發(fā)送銷售郵件、為屬于某一個顧客聚類中的顧客推舉特定的商品等。對電子商務(wù)來說,客戶聚類可以對市場細(xì)分理論供應(yīng)有力的支持。通過對聚類客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶供應(yīng)共性化的服務(wù)。

⑥特別檢測。特別檢測是對分析對象的少數(shù)的、極端的特例的描述,以揭示內(nèi)在的緣由,從而減小經(jīng)營的風(fēng)險。特別檢測在電子商務(wù)中的應(yīng)用可以體現(xiàn)在信用卡欺詐甄別、發(fā)覺特別客戶和網(wǎng)絡(luò)入侵檢測等方面。

Web數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)自存在的,而是在挖掘過程中相互聯(lián)系,發(fā)揮作用。

3Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用

3.1數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用

與傳統(tǒng)商務(wù)活動相比,電子商務(wù)具有更多的虛擬和不確定的因素:如客戶購買的心理、動機(jī)、力量、欲望等。Web數(shù)據(jù)挖掘要解決的問題就是如何從零散的無規(guī)章的網(wǎng)絡(luò)數(shù)據(jù)中找到有用的和有規(guī)章的數(shù)據(jù)和學(xué)問,基本方法之一就是進(jìn)行數(shù)據(jù)抽取,以期對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如方差值等統(tǒng)計(jì)值或用直方圖等圖形方式表示,從數(shù)據(jù)泛化的角度爭論數(shù)據(jù)總結(jié),把最原始、基本的信息數(shù)據(jù)從低層次抽象到高層次,以便于企業(yè)決策。

3.2基于Web數(shù)據(jù)挖掘的智能化搜尋引擎

電子商務(wù)企業(yè)在活動過程中面臨的問題之一是如何通過Internet全面、精確?????、準(zhǔn)時地收集到企業(yè)內(nèi)、外部的環(huán)境信息,尤其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論