數(shù)據挖掘報告_第1頁
數(shù)據挖掘報告_第2頁
數(shù)據挖掘報告_第3頁
數(shù)據挖掘報告_第4頁
數(shù)據挖掘報告_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于電商網站商品數(shù)據的數(shù)據分析與挖掘1.電子商務和數(shù)據挖掘介紹1.1

電子商務

電子商務是指個人或公司通過Internet網絡,采用數(shù)字化電子方式進行商務數(shù)據交換和開展商務業(yè)務活動?,F(xiàn)在國內已有網上商情廣告、電子票據交換、網上訂購,網上支付結算等多個類型的電子商務形式。電子商務正以其低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。電子商務是指以Internet網絡為載體、運用數(shù)字化電子方式開展的商務活動。隨著網絡技術和數(shù)據庫技術的飛速發(fā)展,電子商務正顯示越來越強大的生命力。電子商務的發(fā)展促使公司內部收集了大量的數(shù)據,并且迫切需要將這些數(shù)據轉換成有用的信息和知識,為公司發(fā)明更多潛在的利潤。運用數(shù)據挖掘技術能夠有效地協(xié)助公司分析從網上獲取的大量數(shù)據,發(fā)現(xiàn)隱藏在其后的規(guī)律性,提取出有效信息,進而指導公司調節(jié)營銷方略,給客戶提供動態(tài)的個性化的高效率服務1.2

數(shù)據挖掘技術數(shù)據挖掘(Data

Mining),又稱數(shù)據庫中的知識(Knowledge

Discovery

in

Database,

KDD),是從大量的、不完全的、有噪聲的、含糊的和隨機的數(shù)據中,提取隱含在其中的、人們事先不懂得的,但又是潛在有用的信息和知識的過程。數(shù)據挖掘是一門廣義的交叉學科,它匯聚了不同領域特別是數(shù)據庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的知識。數(shù)據挖掘技術從一開始就是面對應用領域,它不僅是面對特定數(shù)據庫的簡樸檢索查詢調用,并且,要對數(shù)據進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指定實際問題的求解,企圖發(fā)現(xiàn)事件間的互有關聯(lián),甚至運用已有的數(shù)據對將來的活動進行預測。數(shù)據挖掘技術在金融、保險、電信、大型超市等積累有大量數(shù)據的電子商務行業(yè)有著廣泛的應用,如信用分析、風險分析、欺詐檢查、顧客聚類分析、消費者習慣分析等。而電子商務中的數(shù)據挖掘即Web挖掘,是運用數(shù)據挖掘技術從www的資源(即Web文檔)和行為(即We服務)中自動發(fā)現(xiàn)并提取感愛好的、有用的模式和隱含的信息,它是一項綜合技術涉及到Internet技術學、人工智能、、信息學、學等多個領域。1.3.

數(shù)據挖掘過程挖掘數(shù)據過程能夠分為3個環(huán)節(jié):數(shù)據預解決、模式發(fā)現(xiàn)、模式分析。1.3.1

數(shù)據預解決

實際系統(tǒng)中的數(shù)據普通都含有不完全性、冗余性和含糊性。因此,數(shù)據挖掘普通不對原始數(shù)據進行挖掘,要通過預解決提供精確、簡潔的數(shù)據。預解決重要完畢下列工作:涉及合并數(shù)據,將多個文獻或多個數(shù)據庫中的數(shù)據進行合并解決;選擇數(shù)據,提取出適合分析的數(shù)據集合;數(shù)據清洗、過濾,剔除某些無關統(tǒng)計,將文獻、圖形、圖像及多媒體等文獻轉換成可便于數(shù)據挖掘的格式等。

1.

3.

2

模式發(fā)現(xiàn)

模式發(fā)現(xiàn)階段就是運用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最后能夠理解的信息和知識。可用于Web的挖掘技術有途徑選擇、關聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等等。

1.

3.

3

模式分析

模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感愛好的規(guī)則和模式。通過技術手段,對得到的模式進行數(shù)據分析,得出故意義的結論。慣用的技術手段有:關聯(lián)規(guī)則、分類、聚類、序列模式等。

電子商務是當代信息技術發(fā)展的必然成果,也是將來商業(yè)運作模式的必然選擇。運用數(shù)據挖掘技術來分析大量的數(shù)據,能夠挖掘出商品的消費規(guī)律與客戶的訪問模式,協(xié)助公司制訂有效的營銷方略,充足發(fā)揮公司的獨特優(yōu)勢,增進管理創(chuàng)新和技術創(chuàng)新,提高公司競爭力。

隨著電子商務發(fā)展的勢頭越來越強勁,

面對電子商務的數(shù)據挖掘將是一種非常有前景的領域。它能自動預測客戶的消費趨勢、市場走向,指導公司建設個性化智能網站,帶來巨大的商業(yè)利潤,可覺得公司創(chuàng)立新的商業(yè)增加點。但是在面對電子商務的數(shù)據挖掘中也存在諸多問題急需解決,例如如何將服務器的日志數(shù)據轉化成適合某種數(shù)據挖掘技術的數(shù)據格式,如何解決分布性、異構性數(shù)據源的挖掘,如何控制整個Web上知識發(fā)現(xiàn)過程等。隨著硬件環(huán)境、挖掘算法的進一步研究及應用經驗的積累,數(shù)據挖掘技術及在電子商務中的應用必將獲得長足的進展。2.數(shù)據挖掘2.1數(shù)據挖掘重要內容對于10種品牌的衛(wèi)生巾的屬性、價格、包裝等性能與其銷量的關系。10種衛(wèi)生巾分別為:555、ABC、高潔絲、護舒寶、潔婷、樂而雅、米婭、七度空間、蘇菲、怡麗2.2數(shù)據來源天貓超市2.3數(shù)據挖掘工具1.八爪魚采集器八爪魚采集器是深圳視界信息技術有限公司研發(fā)的一款業(yè)界領先的網頁采集軟件,含有使用簡樸,功效強大等諸多優(yōu)點。八爪魚數(shù)據采集系統(tǒng)以完全自主研發(fā)的分布式云計算平臺為核心,能夠在很短的時間內,輕松從多個不同的網站或者網頁獲取大量的規(guī)范化數(shù)據,協(xié)助任何需要從網頁獲取信息的客戶實現(xiàn)數(shù)據自動化采集,編輯,規(guī)范化,擺脫對人工搜索及收集數(shù)據的依賴,從而減少獲取信息的成本,提高效率。使用八爪魚能夠非常容易的從任何網頁精確采集你需要的數(shù)據,生成自定義的、規(guī)整的數(shù)據格式。八爪魚數(shù)據采集系統(tǒng)能做的涉及但并不局限于下列內容:1.金融數(shù)據,如季報,年報,財務報告,涉及每日最新凈值自動采集;2.各大新聞門戶網站實時監(jiān)控,自動更新及上傳最新公布的新聞;3.監(jiān)控競爭對手最新信息,涉及商品價格及庫存;4.監(jiān)控各大社交網站,博客,自動抓取公司產品的有關評論;5.收集最新最全的職場招聘信息;6.監(jiān)控各大地產有關網站,采集新居二手房最新行情;7.采集各大汽車網站具體的新車二手車信息;8.發(fā)現(xiàn)和收集潛在客戶信息;9.采集行業(yè)網站的產品目錄及產品信息;10.在各大電商平臺之間同時商品信息,做到在一種平臺公布,其它平臺自動更新。由于其強大的功效,因此我們小組選擇使用八爪魚采集器對衛(wèi)生巾的有關屬性進行采集。即使其功效強大,但是八爪魚采集器對于網速的規(guī)定較高,若網速太慢,采集數(shù)據的速度就會很慢,采集的時間就需要更多。RostRost是一款強大的文字分析軟件,這款論文檢測軟件由武漢大學信息管理學院出版科學系教師沈陽副專家所研發(fā),此軟件能夠對導入的文檔進行分詞、詞頻分析、流量、相似程度等的功效性分析,還能夠對文本進行解決,涉及字段抽取、基于文字特性的行抽取、文本替代與增補等,能夠對聊天分析、全網分析、網站分析、瀏覽分析、微博分析、期刊分析等,此軟件能夠將分析完的成果直接以PDF、DOC、PPT、XLS、TXT等形式輸出,其每檢測400字需要6秒鐘,因此如果需要檢測字數(shù)較多的文本,就需要等一定時間。3.MicrosoftExcelMicrosoftExcel是微軟公司的辦公軟件Microsoftoffice的組件之一,是由Microsoft為Windows和AppleMacintosh操作系統(tǒng)的電腦而編寫和運行的一款試算表軟件。其功效十分強大,能夠對數(shù)據進行清洗、透視等2.4數(shù)據挖掘必要性和可行性1.數(shù)據挖掘必要性隨著21世紀的到來,越來越多的人傾向于網上購物,網上購物是當今的重要趨勢,本次數(shù)據挖掘是基于京東超市對于衛(wèi)生巾的其價格、各方面屬性對其銷售量的影響。本次數(shù)據挖掘是針對女性每月的必用品衛(wèi)生巾的有關數(shù)據進行挖掘,這對于女性朋友來說一種很重要也很必要的一種挖掘,通過本次數(shù)據挖掘可覺得女性朋友提供一種適合其本身的衛(wèi)生巾組合套裝。2.數(shù)據挖掘可行性挖掘技術上,我們通過一學期的學習對于有關的軟件有所理解,網絡上對于多個數(shù)據挖掘工具的具體操作的視頻也是不勝枚舉,學校圖書館對于有關軟件操作的書也諸多,因此我們在技術上是完全能夠實現(xiàn)數(shù)據挖掘的整個過程。在人員上,我們小組總共5個人,對于收集數(shù)據來源為天貓超市這樣一種不是特別大的網站的數(shù)據信息來說,5個人是完全足夠的,同時尚有老師的指導,因此在人員上也是能夠實現(xiàn)基于天貓超市的排名前十的衛(wèi)生巾品牌及其銷量的數(shù)據挖掘的。2.5數(shù)據挖掘具體過程2.5.1過程描述首先是數(shù)據預解決,我們運用八爪魚對網頁上的有關屬性進行采集,采集的屬性涉及:標題、價格、產地、包郵與否、規(guī)格、其功效、客戶對商品的評價的指數(shù)(與否與商品相符)月銷量、好評度、這些指標,由于對有關軟件運用的不是特別成熟,因此造成有部分數(shù)據缺失。但這對于我們的數(shù)據分析五影響,缺失的數(shù)據也正是我們需要將其進行清洗過濾的部分數(shù)據。另首先是模式發(fā)現(xiàn)階段,我們采用關聯(lián)分析和分類規(guī)則對有關數(shù)據進行再解決,從而得出含有較高精確性和關聯(lián)性的數(shù)據。最后模式分析階段,我們運用Rost和Excel工具對有關數(shù)據進行解決,最后得出有關含有規(guī)律性和高價值的數(shù)據信息。2.5.1過程操作1.八爪魚用八爪魚對護舒寶有關數(shù)據進行采集過程,如圖:首先,命名任務名、任務組,并輸入網址:另首先,對天貓超市的網頁的第一種商品的有關屬性進行抓取,并設立循環(huán)抓取,在本網頁的全部商品與第一種商品同樣的屬性都會被抓取下來,抓取過程如圖:在次,設立工作流程,并修改有關字段的字段名,如圖:最后,進行數(shù)據抓取階段,只需要等待幾分鐘數(shù)據就能抓取完畢,如圖:上述即是對數(shù)據的抓取過程,10個品牌均是循環(huán)以上操作,最后以Excel表格的形式導出即可。導出的數(shù)據只是數(shù)據源,數(shù)據沒有任何規(guī)律和價值,需要對有關數(shù)據進行進一步的分析和提煉。2.ROST第二個是用rost對導出的excel表格中的文字部分進行分析,過程以下:首先是對將表格中的中文部分添加到記事本中,如圖:第二步,由于我們同ROST的目的是對詞頻的統(tǒng)計,用來統(tǒng)計在商品售賣中售賣材質、長短、香味等特殊屬性對消費者的吸引程度,因此必須將上述部分的標題進行分詞解決,解決后以下圖:最后,進行詞頻統(tǒng)計,將輸出分詞后的txt導入到ROST,進行詞頻統(tǒng)計,如圖:由詞頻統(tǒng)計能夠看出ABC品牌的衛(wèi)生巾在日用、超薄、和純棉的屬性是被顧客高度重視的,超長、涼爽、迷你等屬性顧客關注度不是特別高,因此在后來的經營中,能夠對ABC品牌的衛(wèi)生巾含有日用、超薄、純棉等屬性的大量囤貨,對于超長、涼爽、迷你等屬性應考慮其銷售熱度。Excel最后是運用excel對導出的數(shù)據進行分析,比較每一種商品的本身屬性與其銷售量的關系。如圖:高潔絲的價格(X)與收藏(Y)的關系由上圖能夠看出,當價格為25.9元28片時是銷量最多的一種價格,往后的趨勢基本就是價格越高,銷售量月越低。尚有一種可能的影響因素是商品是以組合的形式銷售,背面價格越貴,表達組合裝越多,女性對于衛(wèi)生巾的使用不必要囤貨太多,由于衛(wèi)生巾也是有保質期,普通女性沒有囤大量衛(wèi)生巾的習慣,因此組合中衛(wèi)生巾量太大,即使是進行促銷,但是銷售量不一定好。因此這給商家的的建議就是,不用搞促銷時就采用大包裝量多的組合裝,這樣并不能提高銷售量,而是應當推出適合的少數(shù)量的組合裝。如圖:高潔絲的銷量與收藏的關系由上圖能夠看出,高潔絲的月銷售量與收藏的線基本重疊,成正有關的關系,收藏的越多,其銷售量越高。這個數(shù)據對于消費者來說是購置商品的一種可信的信息,在購置商品的時候普通銷售量與收藏量成正比,如是發(fā)現(xiàn)收藏量極少,但是銷售量很高這很可能存在刷單現(xiàn)象,消費者應當含有一定的辨識能力。如圖:高潔絲的銷售與評價的關系如圖:高潔絲價格和銷量圖由上圖能夠看出價格9.9的時候

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論