版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
商務(wù)站點信息統(tǒng)計方法
本文討論了一些站點分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉庫的相關(guān)理論知識。并對站點日志數(shù)據(jù)進行了實例分析,并指出了站點分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來新的革命,從而也影響著人們的生活?;ヂ?lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線發(fā)布。
電子商務(wù)就是網(wǎng)上實行各種商務(wù)活動的總包裝,種種所謂電子商務(wù)解決方案,實際上就是實現(xiàn)各種網(wǎng)上商務(wù)活動的硬件與軟件系統(tǒng)。它將影響到每一個人、每一個企業(yè)。電子商務(wù)的主體是我們每一個人、每一個企業(yè),電子商務(wù)發(fā)展的過程就是對人們的生活、企業(yè)的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機。
電子商務(wù)站點用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點用戶行為分析就可為網(wǎng)站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業(yè)廣告點擊情況總括、產(chǎn)品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。
在電子商務(wù)早期階段時,Web站點數(shù)據(jù)流分析通常是在主頁上安裝計數(shù)器以及在一個外部日志文件上運行簡單的統(tǒng)計程序記錄點擊率。但是,簡單的點擊計數(shù)既不準(zhǔn)確也遠(yuǎn)未達(dá)到營銷目的所需的詳細(xì)程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務(wù)器的訪問日志。每當(dāng)用戶在站點上請求一個網(wǎng)頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網(wǎng)頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報告。
二、站點信息統(tǒng)計方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計算機網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進行抽取。而有時,盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點:
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時部分?jǐn)?shù)據(jù)根本無結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴(yán)格的分類策略來保護數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時可被忽略,同時數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計模型和數(shù)學(xué)模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統(tǒng)計分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價值的信息。
知識發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤?。它是分析Web頁面數(shù)據(jù)的重要方法。知識發(fā)現(xiàn)與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過依賴性分析,商店認(rèn)為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時間為依據(jù),找出一個共享一些公共類別的群體,它稱為無監(jiān)督學(xué)習(xí)。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準(zhǔn)過程,可確定能否按商品價格和其它標(biāo)準(zhǔn)把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學(xué)習(xí)、校正預(yù)測的模型,提高預(yù)測結(jié)果的準(zhǔn)確性。
4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個商品交易數(shù)據(jù)庫,一條記錄表示用戶一次購買的商品種類,每個屬性代表一種商品,每個屬性都是布爾類型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}→{D}[2%][60%],規(guī)則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數(shù)的2%而購買A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。數(shù)據(jù)只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對決策有幫助的關(guān)聯(lián)規(guī)則,相對于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱為定量關(guān)聯(lián)規(guī)則。
另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問題。由于數(shù)據(jù)倉庫中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度棉紗行業(yè)質(zhì)量標(biāo)準(zhǔn)制定與實施合同4篇
- 2025版年會現(xiàn)場攝影攝像服務(wù)合同范本4篇
- 二零二五年度棉花病蟲害防治與防治藥物供應(yīng)合同4篇
- 二零二五年度新能源汽車動力電池研發(fā)合作合同
- 2025年度農(nóng)家樂景區(qū)旅游咨詢與導(dǎo)覽服務(wù)合同協(xié)議
- 二零二五年度美容院美容設(shè)備維護保養(yǎng)及備件供應(yīng)合同4篇
- 二零二五年度美甲店互聯(lián)網(wǎng)營銷與電商平臺合作合同4篇
- 二零二五年度南寧市體育場館設(shè)施租賃合同及賽事組織協(xié)議3篇
- 2025年度個人二手車居間銷售合同示范文本2篇
- 二零二五年帳篷租賃及活動策劃服務(wù)合同3篇
- 完整版秸稈炭化成型綜合利用項目可行性研究報告
- 油氣行業(yè)人才需求預(yù)測-洞察分析
- 《數(shù)據(jù)采集技術(shù)》課件-Scrapy 框架的基本操作
- (2024)河南省公務(wù)員考試《行測》真題及答案解析
- 2025年河北省單招語文模擬測試二(原卷版)
- 工作計劃 2025年度醫(yī)院工作計劃
- 高一化學(xué)《活潑的金屬單質(zhì)-鈉》分層練習(xí)含答案解析
- DB34∕T 4010-2021 水利工程外觀質(zhì)量評定規(guī)程
- 2024年內(nèi)蒙古中考英語試卷五套合卷附答案
- 2024年電工(高級)證考試題庫及答案
- 2024年全國各地中考試題分類匯編:古詩詞閱讀
評論
0/150
提交評論