企業(yè)實(shí)踐報告-_第1頁
企業(yè)實(shí)踐報告-_第2頁
企業(yè)實(shí)踐報告-_第3頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.企業(yè)實(shí)踐報告( 2017- 2018年度第1學(xué)期)數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用專業(yè)物聯(lián)網(wǎng)工程學(xué)生姓名班級學(xué)號指導(dǎo)教師完成日期2017.12.6. v.目 錄目錄21 概述31.1 企業(yè)實(shí)踐目的31.2 企業(yè)實(shí)踐內(nèi)容與要求31.3 相關(guān)開發(fā)技術(shù)與開發(fā)環(huán)境搭建32 系統(tǒng)需求分析42.1 系統(tǒng)目標(biāo)42.2 系統(tǒng)功能需求43 系統(tǒng)概要設(shè)計(jì)53.1 系統(tǒng)的功能模塊劃分53.2 系統(tǒng)流程54 系統(tǒng)詳細(xì)設(shè)計(jì)64.1 模塊流程65 代碼調(diào)試75.1 遇到的問題及其解決方法76 軟件運(yùn)行與測試86.1 軟件運(yùn)行流程86.2 軟件測試87 小結(jié)10. v.1 概 述1.1 企業(yè)實(shí)踐目的1為了將自己所學(xué)知識運(yùn)用在實(shí)

2、踐中,在實(shí)踐中鞏固自己的知識,調(diào)節(jié)理論與實(shí)踐之間的關(guān)系,培養(yǎng)實(shí)際工作能力和分析能力,以達(dá)到學(xué)以致用的目的。2獲得更多與自己專業(yè)相關(guān)的知識,擴(kuò)寬知識面,增加社會閱歷。3接觸更多的人,在實(shí)踐中鍛煉膽量,提升自己的溝通能力和其他社交能力。4培養(yǎng)更好的職業(yè)道德,樹立好正確的職業(yè)道德觀1.2 企業(yè)實(shí)踐內(nèi)容與要求這幾年伴隨移動互聯(lián)網(wǎng)的轉(zhuǎn)型發(fā)展,傳統(tǒng)的貿(mào)易下經(jīng)歷一次重大的變革,電子商務(wù)顯示出巨大的市場價值和發(fā)展?jié)摿?。電子商?wù)是商業(yè)領(lǐng)域的一種新興商務(wù)模式,它是以網(wǎng)絡(luò)為平臺、現(xiàn)代信息技術(shù)為手段、以經(jīng)濟(jì)效益為中心的現(xiàn)代化商業(yè)運(yùn)轉(zhuǎn)模式,其最終目標(biāo)是實(shí)現(xiàn)商務(wù)活動的網(wǎng)絡(luò)化、自動化與智能化。這幾年中國互聯(lián)網(wǎng)迎來了理性數(shù)據(jù)

3、驅(qū)動和價值回歸之年。于是,在這個數(shù)據(jù)爆炸卻又用戶增量趨于飽和的時代,如何借助智能數(shù)據(jù)挖掘、商務(wù)智能等大數(shù)據(jù)技術(shù),充分利用數(shù)據(jù)價值解決現(xiàn)實(shí)問題、制定企業(yè)日常決策,在現(xiàn)有流量基礎(chǔ)上真正實(shí)現(xiàn)“存量掘金”成為了企業(yè)亟需解決的的重要命題。數(shù)據(jù)分析的目的:一方面是發(fā)現(xiàn)問題,并且找到問題的根源,最終通過切實(shí)可行的辦法解決存在的問題;另一方面,基于以往的數(shù)據(jù)分析,總結(jié)發(fā)展趨勢,為網(wǎng)絡(luò)營銷決策提供支持。1.3 相關(guān)開發(fā)技術(shù)與開發(fā)環(huán)境搭建Python的安裝主要介紹了電子商務(wù)及關(guān)聯(lián)規(guī)則中的經(jīng)典算法Apriofi算法,以及Apriofi算法的代碼和執(zhí)行過程,指出了Apriori算法的瓶頸和改進(jìn)方法。隨著數(shù)據(jù)庫管理系統(tǒng)

4、的廣泛應(yīng)用,各個領(lǐng)域的數(shù)據(jù)和信息量急劇增加,為了更好地利用這些數(shù)據(jù),就要對這些數(shù)據(jù)進(jìn)行更深層次的分析,從中挖掘出有價值的數(shù)據(jù)信息。由于缺乏挖掘數(shù)據(jù)背后隱藏知識的技術(shù),導(dǎo)致了數(shù)據(jù)爆炸。于是,人們嘗試用成熟的數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機(jī)器學(xué)習(xí)的方法來分析數(shù)據(jù),這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)的產(chǎn)生,并且成為人工智能和數(shù)據(jù)庫應(yīng)用等領(lǐng)域近年來的研究熱點(diǎn)。歷史上,從數(shù)據(jù)中發(fā)現(xiàn)模式的提法很多,如知識發(fā)現(xiàn)、知識提取、信息收割、數(shù)據(jù)采集等等。在數(shù)據(jù)庫領(lǐng)域一般稱為數(shù)據(jù)挖掘,而在機(jī)器學(xué)習(xí)領(lǐng)域則更多地稱作知識發(fā)現(xiàn)。數(shù)據(jù)挖掘是隨著數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一種全新的信息技術(shù)。2 系統(tǒng)需求分析2.1 系統(tǒng)目標(biāo)電子商

5、務(wù)是信息和知識經(jīng)濟(jì)時代的寵兒,充滿無限商機(jī)。在電子商務(wù)時代,企業(yè)競爭成功的關(guān)鍵是要了解客戶、與客戶保持穩(wěn)固的關(guān)系。利用數(shù)據(jù)挖掘技術(shù)幫助企業(yè)進(jìn)行動態(tài)分析和調(diào)整分析在挑戰(zhàn)中就有可能獲勝。本文對面向電子商務(wù)的數(shù)據(jù)挖掘技術(shù)進(jìn)行研究和分析。2.2 系統(tǒng)功能需求電子商務(wù)的大數(shù)據(jù)數(shù)據(jù)挖掘的研究融合了多個不同學(xué)科領(lǐng)域的技術(shù)與成果,使目前的數(shù)據(jù)挖掘出現(xiàn)多種多樣的技術(shù)。利用這些技術(shù)方法可以檢查那些異常形式的數(shù)據(jù),利用各種統(tǒng)計(jì)模型和數(shù)學(xué)模型對這些數(shù)據(jù)進(jìn)行解釋,找出隱藏在這些數(shù)據(jù)背后的市場規(guī)律和商業(yè)機(jī)會1718。3 系統(tǒng)概要設(shè)計(jì)3.1 系統(tǒng)的功能模塊劃分3.2 系統(tǒng)流程1數(shù)據(jù)層。數(shù)據(jù)挖掘的對象是數(shù)據(jù)。為了便于挖掘,各

6、種來源的數(shù)據(jù)經(jīng)過預(yù)處理(據(jù)的清洗、數(shù)據(jù)的集成、數(shù)據(jù)的過濾等)以后,都將存于一個統(tǒng)一模式的數(shù)據(jù)庫或者數(shù)倉庫內(nèi)。這個模式的設(shè)計(jì)綜合考慮挖掘任務(wù)、實(shí)施算法、數(shù)據(jù)的特點(diǎn)等各種因素,可以挖掘能夠最優(yōu)化。2數(shù)據(jù)挖掘引擎。數(shù)據(jù)挖掘引擎內(nèi)集成了數(shù)據(jù)挖掘的算法。它根據(jù)知識庫、挖掘據(jù)庫或者數(shù)據(jù)倉庫中的數(shù)據(jù)得到許多模式,然后對這些模式進(jìn)行評估、篩選,最終可以到有意義的且用戶感興趣的模式。3用戶界面。用戶界面是人機(jī)交互的界面。用戶界面將這些模式用直觀的且易于戶理解的方式表現(xiàn)給用戶。另外,用戶可以(有時也必須)通過用戶界面指導(dǎo)模式評估挖掘引擎、數(shù)據(jù)的組織模式。4 系統(tǒng)詳細(xì)設(shè)計(jì)4.1 模塊流程數(shù)據(jù)挖掘是一個多步驟的處理過

7、程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的可實(shí)用的信息,并使用這些信息做出決策或豐富知識。這個過程是交互和迭代的,其中多過程需要用戶的參與。數(shù)據(jù)挖掘過程主要包括四個步驟如圖2-2所示:問題定義/確定業(yè)務(wù)對象、數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘、結(jié)果表達(dá)和分析。雖然我們把各個步驟按順序排列,但數(shù)據(jù)挖掘過程并不是性的。要取得好的結(jié)果就要不斷反復(fù)和重復(fù)這些步驟。圖2-2數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個步驟1問題定義清晰地定義業(yè)務(wù)問題和認(rèn)清數(shù)據(jù)挖掘的目標(biāo)是進(jìn)行數(shù)據(jù)挖掘的第一步,也是最重要步。要想充分發(fā)揮數(shù)據(jù)挖掘的價值,首要的條件是要對用戶的目標(biāo)有一個清晰明確的定義因此,在挖掘之前要明確業(yè)務(wù)的目標(biāo)和需求。2數(shù)據(jù)準(zhǔn)備確定

8、好挖掘目標(biāo)后,就要開始為挖掘準(zhǔn)備相關(guān)的數(shù)據(jù)。準(zhǔn)備數(shù)據(jù)就是根據(jù)挖掘需求集資料,并建立可挖掘的數(shù)據(jù)庫。準(zhǔn)備數(shù)據(jù)所花費(fèi)的時間在整個數(shù)據(jù)挖掘過程中是最多的這一階段主要分為兩步:第一步根據(jù)挖掘目標(biāo)建立合理的數(shù)據(jù)庫模式即數(shù)據(jù)選?。欢绞菍?shù)據(jù)進(jìn)行預(yù)處理。根據(jù)用戶的挖掘目標(biāo),搜索所有與業(yè)務(wù)對象相關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從數(shù)據(jù)中提取與挖掘相關(guān)的數(shù)據(jù)。它與對數(shù)據(jù)進(jìn)行采樣和選擇預(yù)測變量是有區(qū)別的,這里只是略的除去一些冗余或無關(guān)的數(shù)據(jù)。為了進(jìn)一步的分析數(shù)據(jù),提高挖掘效率,去除無用或關(guān)的信息,整理不完整的、含噪聲的和不一致的信息,確定將要進(jìn)行的挖掘操作的類型我們必須對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理就是對選取出的數(shù)據(jù)進(jìn)行

9、加工,把這些不完整的、含噪聲的和不一致的據(jù)轉(zhuǎn)化為完整的、不含噪聲的和一致的數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等階段。5 代碼調(diào)試5.1 遇到的問題及其解決方法 plainview plaincopy1. 偽代碼描述:2.  / 找出頻繁 1 項(xiàng)集3.      L1 =find_frequent_1-itemsets(D);   4.      For(k=2;Lk-1 !=nu

10、ll;k+)  5. / 產(chǎn)生候選,并剪枝6.         Ck =apriori_gen(Lk-1 );   7. / 掃描 D 進(jìn)行候選計(jì)數(shù)8.         For each 事務(wù)t  in D   9.   

11、0;         Ct =subset(Ck,t); / 得到 t 的子集10. For each 候選 c 屬于 Ct  11.                 c.count+;  12.  

12、         13.         /返回候選項(xiàng)集中不小于最小支持度的項(xiàng)集14.         Lk =c 屬于 Ck | c.count>=min_sup  15.   16. Return L= 所有的頻繁集;17. 第一

13、步:連接(join)18. Procedure apriori_gen (Lk-1 :frequent(k-1)-itemsets)  19.       For each 項(xiàng)集 l1 屬于 Lk-1  20.          For each 項(xiàng)集 l2 屬于 Lk-1

14、60; 21.             If( (l1 1=l2 1)&&( l1 2=l2 2)&& && (l1 k-2=l2 k-2)&&(l1 k-1<l2 k-1) )   22. then  23. 

15、0;                   c = l1 連接 l2    / 連接步:產(chǎn)生候選24.                   /

16、若k-1項(xiàng)集中已經(jīng)存在子集c則進(jìn)行剪枝25.                    if has_infrequent_subset(c, Lk-1 ) then  26.               

17、0;        delete c; / 剪枝步:刪除非頻繁候選27.                    else add c to Ck;  28.        

18、;              29.           Return Ck;  30. 第二步:剪枝(prune)31.  Procedure has_infrequent_sub (c:candidate k-itemset; Lk-1 :frequent(k-1)

19、-itemsets)  32.          For each (k-1)-subset s of c  33.             If s 不屬于 Lk-1 then  34.     &

20、#160;          Return true;  35.         Return false;  6 軟件運(yùn)行與測試6.1 軟件運(yùn)行流程6.2 軟件測試分析不只是對數(shù)據(jù)的簡單統(tǒng)計(jì)描述,應(yīng)該是從表面的數(shù)據(jù)中找到問題的本質(zhì),然后需要針對的確定的主題進(jìn)行歸納和總結(jié)。常用的分析方法有以下幾種:1.趨勢分析:將實(shí)際達(dá)到的結(jié)果,與不同時期報表中同類指標(biāo)的歷

21、史數(shù)據(jù)進(jìn)行比較 ,從而確定變化趨勢和變化規(guī)律的一種分析方法;具體的分析方法包括定比和環(huán)比兩種方法,定比是以某一時期為基數(shù),其他各期均與該期的基數(shù)進(jìn)行比較;而環(huán)比是分別以上一時期為基數(shù),下一時期與上一時期的基數(shù)進(jìn)行比較;2.對比分析:把兩個相互聯(lián)系的指標(biāo)數(shù)據(jù)進(jìn)行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào);在對比分析中,選擇合適的對比標(biāo)準(zhǔn)是十分關(guān)鍵的步驟,選擇的合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結(jié)論; 3.關(guān)聯(lián)分析:如果兩個或多個事物之間存在一定的關(guān)聯(lián),那么其中一個事物就能通過其他事物進(jìn)行預(yù)測;它的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系;4.因果分析:因果分析是為了確定引起某一現(xiàn)象變化原因的分析,主要解決“為什么”的問題;因果分析就是在研究對象的先行情況中,把作為它的原因的現(xiàn)象與其他非原因的現(xiàn)象區(qū)別開來,或者是在研究對象的后行情況中,把作為它的結(jié)果的現(xiàn)象與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論