數(shù)據(jù)挖掘-畢業(yè)論文.docx_第1頁
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第2頁
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第3頁
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第4頁
數(shù)據(jù)挖掘-畢業(yè)論文.docx_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

論文封面畢業(yè)論文(設(shè)計(jì))題目:學(xué)生姓名:_學(xué) 號:_專業(yè)班級:XXXXXX專業(yè) 09?班 指導(dǎo)教師:_職稱_指導(dǎo)教師:_職稱_起止時間: 2013.92014.5誠 信 聲 明我聲明,所呈交的畢業(yè)設(shè)計(jì)作品和論文是本人經(jīng)過近四年的基礎(chǔ)課程與專業(yè)課程學(xué)習(xí)的基礎(chǔ)上,在指導(dǎo)老師的指導(dǎo)下,經(jīng)過幾個月集中的畢業(yè)設(shè)計(jì)學(xué)習(xí)、實(shí)踐和努力工作所取得的成果。據(jù)本人查證,除了文中特別加以標(biāo)注和致謝的地方外,設(shè)計(jì)作品和論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果。我承諾,設(shè)計(jì)作品和論文中的所有內(nèi)容均真實(shí)、可信。學(xué)生簽名: 簽名日期:2014年月 日一級標(biāo)題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距計(jì)算機(jī)與信息學(xué)院本科畢業(yè)論文(設(shè)計(jì))選題審批表畢業(yè)設(shè)計(jì)(論文)題目指 導(dǎo) 教 師職 稱指 導(dǎo) 教 師職 稱題 目 來 源(科學(xué)研究項(xiàng)目、教學(xué)改革項(xiàng)目名稱或企事業(yè)合作單位名稱)選題的依據(jù): (題目背景及可行性分析,要求具體指出該課題所對應(yīng)的相應(yīng)知識點(diǎn)) 150字左右教研室審核意見教研室主任簽字: 2013年9月15日系審批意見系主任簽字: 2013年9月20日四號宋體字,加粗,單倍行間距。計(jì)算機(jī)與信息學(xué)院一級標(biāo)題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距本科畢業(yè)論文(設(shè)計(jì))任務(wù)書題目:天貓用戶對其品牌的行為分析1主要內(nèi)容及基本要求任務(wù)書要求填滿兩頁,行間距可根據(jù)字?jǐn)?shù)調(diào)整,一定要使頁面飽滿,不要出現(xiàn)半頁紙的現(xiàn)象。1、圖書館及上網(wǎng)搜集相關(guān)數(shù)據(jù)挖掘的書籍文獻(xiàn)作為研究參考及一些思路的借鑒;2、從聚類和關(guān)聯(lián)分析幾個方面探索天貓用戶購物數(shù)據(jù)的信息,先用excel做簡單的初步分析,再用sas做進(jìn)一步的數(shù)據(jù)挖掘工作及檢驗(yàn)結(jié)果,以及寫下每個研究階段過程中的日志;3、得出一個具有意義的結(jié)論,在18w條數(shù)據(jù)中挖掘出有用的信息,并做出簡要的分析和解釋。2進(jìn)度計(jì)劃2014年11月初,完成在上述內(nèi)容要求中的數(shù)據(jù)搜集及開題報(bào)告;2014年12月初,重點(diǎn)參考相關(guān)文獻(xiàn),初步擬定論文框架;2014年12月底之前完成論文初稿;2015年2月底之前完成外文翻譯和文獻(xiàn)綜述;2015年3月-2015年5月,完善作品,修改論文;2015年5月初-2013年5月中旬,論文打?。?015年5月30 日以前答辯完畢并提交所有電子材料。3主要參考文獻(xiàn)1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)購物行為的分析D.云南:云南大學(xué),2011.5.1. 2毛國君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學(xué),2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究J.管理工程學(xué)報(bào),2004(03):1015.4毛國君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學(xué)出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗北京:人民郵電出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J 北京:機(jī)械工業(yè)出版社,2009,09(12):1721-1741.指導(dǎo)教師簽名:_ 2013年9月29日學(xué) 生 簽 名:_2013年9月30日(此表為教師填寫,內(nèi)容打印,簽名必須手寫。學(xué)生要保存好該任務(wù)書,與開題報(bào)告一同上交指導(dǎo)教師,以備裝訂。)40裝訂 線 浙江萬里學(xué)院 畢業(yè)論文(設(shè)計(jì))報(bào)告紙計(jì)算機(jī)與信息學(xué)院一級標(biāo)題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距凡是學(xué)生所寫東西的頁面,必須有此頁眉。四號宋體字,加粗,單倍行間距。本科畢業(yè)論文(設(shè)計(jì))開題報(bào)告論文中文題目天貓用戶對其品牌的行為分析論文英文題目Analysis Tmall users to its brand behavior學(xué)生姓名沈哲培專業(yè)班級信息與計(jì)算科學(xué)專業(yè)112班1 題的背景和意義阿里巴巴是中國最大和世界第二大網(wǎng)絡(luò)公司,并在2014年9月9日赴美上市,馬云凈財(cái)富達(dá)219美元成為中國大陸首富,在2013年的雙十一節(jié)日中,1小時67億,6小時不到突破100億;13小時實(shí)現(xiàn)191億,追平去年成績;21小時達(dá)到300億,超過阿里巴巴官方預(yù)期,在2014年的雙十一再創(chuàng)新高,達(dá)到了571億元,如此大的交易數(shù)據(jù)正是我們研究分析的最好對象。阿里巴巴如此大的交易,肯定會有不小的回頭客,而我們做數(shù)據(jù)挖掘可以挖掘潛在客戶,以及做出一定的預(yù)測,在一定的時期或者時間段,進(jìn)行及時的促銷活動,挽留住潛在客戶,挖掘出新的客戶,并在其中分析出他們的購物規(guī)律,偏好,需求并根據(jù)這個做出相應(yīng)的預(yù)測,使得未來的利益達(dá)到更大化,也更加從容的應(yīng)對客戶需求的變化。針對品牌企業(yè),通過對用戶行為監(jiān)測獲得的數(shù)據(jù)進(jìn)行分析,可以讓企業(yè)更加詳細(xì)、清楚地了解用戶的行為習(xí)慣,從而找出網(wǎng)站、推廣渠道等企業(yè)營銷環(huán)境存在的問題,有助于企業(yè)發(fā)掘高轉(zhuǎn)化率頁面,讓企業(yè)的營銷更加精準(zhǔn)、有效,提高業(yè)務(wù)轉(zhuǎn)化率,從而提升企業(yè)的廣告收益。小標(biāo)題是小四號加粗宋體字,表格內(nèi)文字要求:小四號仿宋體,首行縮進(jìn)2字符。2 題基本內(nèi)容,擬解決的主要問題課題基本內(nèi)容是:通過對用戶行為監(jiān)測獲得的數(shù)據(jù)進(jìn)行分析,可以讓企業(yè)更加詳細(xì)、清楚地了解用戶的行為習(xí)慣,從而找出網(wǎng)站、推廣渠道等企業(yè)營銷環(huán)境存在的問題,有助于企業(yè)發(fā)掘高轉(zhuǎn)化率頁面,讓企業(yè)的營銷更加精準(zhǔn)、有效,提高業(yè)務(wù)轉(zhuǎn)化率,從而提升企業(yè)的廣告收益。擬解決的主要問題:前期主要通過excel等統(tǒng)計(jì)分析軟件,對源數(shù)據(jù)進(jìn)行初步的統(tǒng)計(jì)及分析,去除一些不必要的數(shù)據(jù)項(xiàng),對有關(guān)聯(lián)的數(shù)據(jù)項(xiàng)進(jìn)行簡單的分析他們的幾何關(guān)系,之后主要通過sas軟件進(jìn)行數(shù)據(jù)挖掘分析,數(shù)據(jù)導(dǎo)入,關(guān)聯(lián)分析,建立模型,分析預(yù)測,得出結(jié)論,主要解決的問題就是針對于天貓官方的,分析用戶購物的心理及相應(yīng)規(guī)律后,可以快速的反應(yīng)出每位客戶的需求,我們就可以根據(jù)這些需求,相對應(yīng)的插入相關(guān)的購物鏈接(類似廣告性質(zhì)),達(dá)到利益更大化。開題報(bào)告字?jǐn)?shù)不少2000字,行間距可根據(jù)字?jǐn)?shù)調(diào)整,一定要使頁面飽滿,不要出現(xiàn)半頁紙的現(xiàn)象。寫作方法參見附錄。3 題研究方法及技術(shù)路線課題研究方法:1、圖書館及上網(wǎng)搜集相關(guān)數(shù)據(jù)挖掘的書籍文獻(xiàn)作為研究參考及一些思路的借鑒;2、從聚類和關(guān)聯(lián)分析幾個方面探索天貓用戶購物數(shù)據(jù)的信息,先用excel做簡單的初步分析,再用sas做進(jìn)一步的數(shù)據(jù)挖掘工作及檢驗(yàn)結(jié)果,以及寫下每個研究階段過程中的日志;3、得出一個具有意義的結(jié)論,在18萬條數(shù)據(jù)中挖掘出有用的信息,并做出簡要的分析和解釋。技術(shù)路線:通過對數(shù)據(jù)的研究,我們可以找到數(shù)據(jù)之間的聯(lián)系。比如,我們可以通過用戶ID和對品牌ID之間的關(guān)系,可以預(yù)測用戶下次會不會購買這個品牌的東西。通過對淘寶海量的數(shù)據(jù)研究,可以挖掘其中的一些關(guān)聯(lián),從而使我們對用戶推送一些更有針對性的廣告,使用戶在淘寶上更方便的找到自己想要的商品。同樣,也能使商家更方便的找到自己的用戶。這樣能使用戶和商家之間更有效率。4.研究的總體安排和進(jìn)度計(jì)劃小標(biāo)題加粗仿宋體小四號。總體安排:我寫的論文題目是天貓用戶對其品牌的行為分析所以在空余時間去收集相關(guān)資料,并努力完善論文,在專業(yè)中積極跟上全班的總體論文進(jìn)度,積極與輔導(dǎo)員及相關(guān)輔導(dǎo)老師溝通,不拖拉,在規(guī)定時間完成相應(yīng)的任務(wù),并在最后交上讓老師滿意的作品。進(jìn)度計(jì)劃:2014年11月初,完成在上述內(nèi)容要求中的數(shù)據(jù)搜集及開題報(bào)告;2014年12月初,重點(diǎn)參考相關(guān)文獻(xiàn),初步擬定論文框架;2014年12月底之前完成論文初稿;2015年2月底之前完成外文翻譯和文獻(xiàn)綜述;2015年3月-2015年5月,完善作品,修改論文;2015年5月初-2013年5月中旬,論文打??;2015年5月30 日以前答辯完畢并提交所有電子材料。5.主要參考文獻(xiàn)不少于10個,具體要求同文獻(xiàn)綜述。1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)購物行為的分析D.云南:云南大學(xué),2011.5.1. 2毛國君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學(xué),2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究J.管理工程學(xué)報(bào),2004(03):1015.4毛國君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學(xué)出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗.北京:人民郵電出版社,2010.12.10.6David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J.北京:機(jī)械工業(yè)出版社,2009,09(12):1721-1741.7李嶶,李宛州.基于數(shù)據(jù)倉庫技術(shù)的進(jìn)銷存系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)J.2001(10):93-948Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù)M.機(jī)械工業(yè)出版社2001,8 9W.H.Inmon.數(shù)據(jù)倉庫M.機(jī)械工業(yè)出版社2000,510林字等編著.數(shù)據(jù)倉庫原理與實(shí)踐M.北京:人民郵電出版社,200311張春陽,周繼恩,劉貴全,蔡慶生.基于數(shù)據(jù)倉庫的決策支持系統(tǒng)的構(gòu)建,計(jì)算機(jī)工程J.2002(4):249-25212陳德軍,盛翊智,陳綿云.基于數(shù)據(jù)倉庫的OLAP在DSS中的應(yīng)用研究J.2003(1):30-3113朱明,數(shù)據(jù)挖掘M.合肥:中國科技大學(xué)出版社2002,514 陳京民等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)M.北京:電子工業(yè)出版社,2002.15 陳文偉等.數(shù)據(jù)挖掘技術(shù)M.北京:北京工業(yè)大學(xué)出版社,2002.指導(dǎo)教師意見指導(dǎo)教師簽名: 2013年 11月 1日系(教研室)評議意見系(教研室)主任簽名: 2013年 11月 2 日注:開題報(bào)告內(nèi)容可以打印,但導(dǎo)師和系(教研室)意見及簽名必須手寫。計(jì)算機(jī)與信息學(xué)院四號宋體字,加粗,單倍行間距。一級標(biāo)題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距本科畢業(yè)論文(設(shè)計(jì))文獻(xiàn)綜述 四號宋體字,加粗,1.5倍行間距,段前段后各0.5行間距。淺談數(shù)據(jù)挖掘0前言隨著網(wǎng)絡(luò)的迅猛發(fā)展,依托于網(wǎng)絡(luò)的網(wǎng)絡(luò)購物做為一種新型的消費(fèi)方式脫穎而出,在全國乃至全球范圍內(nèi)都在迅猛的發(fā)展。網(wǎng)絡(luò)購物行業(yè)也越來越得到更多人的關(guān)注,與此同時,各種研究方法、數(shù)據(jù)分析方法也被運(yùn)用到了關(guān)于網(wǎng)絡(luò)購物的研究當(dāng)中。數(shù)據(jù)挖掘技術(shù)作為一種新的數(shù)據(jù)分析方法逐步應(yīng)用到網(wǎng)絡(luò)購物的分析中,獲取數(shù)據(jù)、抽取規(guī)律、預(yù)測趨勢、建立模式,這對促進(jìn)網(wǎng)絡(luò)購物行業(yè)的健康、有序發(fā)展是十分有益的。本研究使用數(shù)據(jù)挖掘的方法,借助SAS工具,以阿里巴巴大數(shù)據(jù)競賽的真實(shí)數(shù)據(jù)為基礎(chǔ),對天貓用戶購物行為進(jìn)行了研究分析。1什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。在較淺的層次上,它利用現(xiàn)有數(shù)據(jù)庫管理系統(tǒng)的查詢、檢索及數(shù)據(jù)挖掘功能,與多維分析、統(tǒng)計(jì)分析方法相結(jié)合,進(jìn)行聯(lián)機(jī)運(yùn)算分析處理,從而得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)的一個有商業(yè)意義的結(jié)果,這個結(jié)果可以出售給需要的賣家,這就是所謂的大數(shù)據(jù)分析。在深層次上,則從數(shù)據(jù)庫中發(fā)現(xiàn)前所未有的、隱含的知識。例如:在大街上川流不息的車流量,在普通人眼里,當(dāng)你通過一個十字路口時,可能會看到除了塞車就是車禍,亦或者沒有事的安全通行,沒有其他的信息可能會有,如果是一個數(shù)據(jù)挖掘人員就會發(fā)現(xiàn)其中的數(shù)據(jù)信息,一小時會有橫向會有多少車流量,豎向會有多少車流量,這樣可以得到一組數(shù)據(jù),通過數(shù)據(jù)挖掘分析后得到更有的結(jié)果,十字路口的紅綠燈就可以根據(jù)車流量設(shè)置時間長短。而從另一個角度,如果在十字路口進(jìn)行路線測繪的話,就可以得到類似地圖的數(shù)據(jù),手機(jī)中的導(dǎo)航軟件就是通過這樣實(shí)現(xiàn)的,所以我們生活中數(shù)據(jù)挖掘無處不在,只是在我們不認(rèn)識數(shù)據(jù)挖掘時,不會去發(fā)現(xiàn)。2數(shù)據(jù)挖掘的任務(wù) 數(shù)據(jù)挖掘的兩個高層目標(biāo)是建立模型和預(yù)測。前者指用一些變量或數(shù)據(jù)庫的若干已知字段通過相應(yīng)的數(shù)據(jù)挖掘分析軟件,以及某些情況下需要實(shí)地考察,再結(jié)合團(tuán)隊(duì)間的分析,結(jié)合數(shù)據(jù)挖掘的相應(yīng)模塊導(dǎo)出一個比較合理性、可行性、具有預(yù)測性的模型,而后者是建立在前面的分析好后,通常,預(yù)測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)測。從這種意義上說,預(yù)測的目的就是對未來未知變量的預(yù)測,這種預(yù)測需要時間來驗(yàn)證,所以他需要更加具體化的分析出一些較為能大眾接受的信息,分析出相應(yīng)的規(guī)律,總結(jié)出相關(guān)的報(bào)告,來確認(rèn)驗(yàn)證這一預(yù)測。 3數(shù)據(jù)挖掘的特點(diǎn) 數(shù)據(jù)挖掘技術(shù)具有以下特點(diǎn):(1)數(shù)據(jù)挖掘基本分為3步驟:數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示。 (2)數(shù)據(jù)的主要分析方法有:關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。(3)需要處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級,甚至更大,所以數(shù)據(jù)挖掘常被較為“大數(shù)據(jù)挖掘”。 (4)在許多些應(yīng)用(如商業(yè)投資等)中,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時提供決策支持。(5)數(shù)據(jù)挖掘往往需要把一些無規(guī)律,大數(shù)量級的,含有偏離點(diǎn)的(因特殊因素而導(dǎo)致的不正常的數(shù)值),在有效的時間內(nèi)轉(zhuǎn)換成有規(guī)律,無瑕疵的,主要預(yù)測動向的模型。(6)在某種角度上,數(shù)據(jù)挖掘也是可以與用戶知識庫交互,從用戶的數(shù)據(jù)中尋找規(guī)律,并且規(guī)律是可視化的。4 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘的步驟會隨不同領(lǐng)域的應(yīng)用可能有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會有各自的特性和使用步驟,所以首先需要明確業(yè)務(wù)對象清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)同樣是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會得到理想的結(jié)果的。(1)數(shù)據(jù)的準(zhǔn)備與選擇。搜索所有與研究對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。(例:在中國統(tǒng)計(jì)局官網(wǎng)上就可以搜索到往年的與國家經(jīng)濟(jì)有關(guān)的數(shù)據(jù)資料)官方的數(shù)據(jù)也較為真實(shí)可靠,具有挖掘價值。(2)數(shù)據(jù)的預(yù)處理。主要是分析并提高數(shù)據(jù)的質(zhì)量,排除一些因某些特殊因素而引起的特殊值,會影響整個數(shù)據(jù)組的最后預(yù)測效果。 (3)模型的建立。通過數(shù)據(jù)挖掘軟件(例如:SAS)將數(shù)據(jù)轉(zhuǎn)換成一個分析模型,這個分析模型是針對挖掘算法建立的,建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。(4)數(shù)據(jù)的預(yù)測。建立模型之后,在模型上會有一些本來用于分析的數(shù)據(jù),也會有未來的一些經(jīng)過分析后預(yù)測的數(shù)據(jù),通過這些數(shù)據(jù),我們就可以知道一些即將發(fā)生的現(xiàn)象或者問題,并對其進(jìn)行提前預(yù)防,或其他措施。(5)數(shù)據(jù)預(yù)測的結(jié)論整理。數(shù)據(jù)挖掘這項(xiàng)任務(wù)的工作者,往往不是最后的執(zhí)行者,所以我們需要將預(yù)測的結(jié)果整理成一份通俗易懂的報(bào)告,最好附上圖表,讓上司或領(lǐng)導(dǎo)更易理解,這也是十分關(guān)鍵的一步,一個好的結(jié)論沒有表述好,可能就會被拋棄。5天貓用戶數(shù)據(jù)挖掘的分析及作用 數(shù)據(jù)挖掘如果運(yùn)用到天貓、淘寶上,那么他就目的只有一個就是盈利。我們都知道雙十一網(wǎng)購狂歡節(jié),今年2014年1分鐘就交易額突破了1億,如此巨大的交易額,不光需要他龐大的用戶量,還需要就是分析他們的需求信息。天貓用戶那么多,首先一點(diǎn)就是需要明確每一個用戶需要買什么東西,這就是我們數(shù)據(jù)挖掘需要做的,在我們上網(wǎng)點(diǎn)擊的過程,其實(shí)就是他們數(shù)據(jù)采集的過程,他們通過你點(diǎn)擊瀏覽的網(wǎng)站就預(yù)測你的喜好及可能還會去點(diǎn)擊的網(wǎng)站,并在一個欄目對你播放相對應(yīng)的廣告,促使你更有欲望去購買這些東西。 6數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域及前景 與國外相比,國內(nèi)對DMKD的研究稍晚,1993年國家自然科學(xué)基金首次開始支持對該領(lǐng)域的研究項(xiàng)目。近年來發(fā)展迅速,進(jìn)行的大多數(shù)研究項(xiàng)目是由政府資助進(jìn)行的,如國家自然科學(xué)基金、863計(jì)劃、“九五”計(jì)劃等。所涉及的研究領(lǐng)域很多,一般集中于學(xué)習(xí)算法的研究、數(shù)據(jù)挖掘的實(shí)際應(yīng)用以及有關(guān)數(shù)據(jù)挖掘理論方面的研究。國內(nèi)從事數(shù)據(jù)挖掘研究的機(jī)構(gòu)主要在大學(xué),也有部分在研究所或公司。當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。 5 結(jié)論 數(shù)據(jù)挖掘技術(shù)是一個讓你從無知到有知的探索,商業(yè)利益的強(qiáng)大驅(qū)動力將會不停地促進(jìn)它的發(fā)展,每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入,他也將變得更加具有交互性、可視性。 參考文獻(xiàn)1彭劍芳.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)購物行為的分析D.云南:云南大學(xué),2011.5.1. 2毛國君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究D.北京:北京工業(yè)大學(xué),2003.5.1.3李菁菁,邵培基,黃亦瀟,等.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究J.管理工程學(xué)報(bào),2004(03):1015.4毛國君,等.數(shù)據(jù)挖掘原理與算法M.北京:清華大學(xué)出版社,2005.5Pang-Ning Tan,Michael Steinbach,Vipin Kum.數(shù)據(jù)挖掘?qū)д揗北京:人民郵電出版社,2010.12.106David Hand,Helkki Mannila,Padhraic Smyth. 數(shù)據(jù)挖掘原理J 北京:機(jī)械工業(yè)出版社,2009,09(12):1721-1741.7陳京民,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)M.北京:電子工業(yè)出版社,2002.8陳文偉,等.數(shù)據(jù)挖掘技術(shù)M.北京:北京工業(yè)大學(xué)出版社,2002.9史忠植.知識發(fā)現(xiàn)D. 北京:清華大學(xué)出版社,2002 10蔡元龍.模式識別D.西安:西北電訊工程學(xué)院出版社,1986.6通過系統(tǒng)地查閱與所選課題相關(guān)的國內(nèi)外文獻(xiàn),進(jìn)行收集、整理和加工,從而制定的綜合性敘述和評價的文章(見P42)。字?jǐn)?shù):20003000字。五號宋體字,1.5倍行間距,除了參考文獻(xiàn)是頂格以外,其余都是首行縮進(jìn)2字符。參考文獻(xiàn)不少于10個,具體要求同P19正文一致。計(jì)算機(jī)與信息學(xué)院一級標(biāo)題:三號宋體,居中,加粗,1.5倍行間距,段前后0.5行間距凡是學(xué)生所寫東西的頁面,必須有此頁眉。四號宋體字,加粗,單倍行間距。本科畢業(yè)論文(設(shè)計(jì))外文文獻(xiàn)翻譯外文文獻(xiàn)譯文數(shù)據(jù)挖掘2應(yīng)用領(lǐng)域數(shù)據(jù)挖掘是廣泛用于一系列科學(xué)學(xué)科和業(yè)務(wù)場景。一些值得注意的例子:管理、機(jī)器學(xué)習(xí)貝葉斯-伊恩推理、知識獲得專家系統(tǒng)、模糊邏輯、神經(jīng)網(wǎng)絡(luò)和遺傳算法。在日常業(yè)務(wù)場景的例子:包括航空公司、數(shù)據(jù)庫營銷面板數(shù)據(jù)的研究和創(chuàng)造,基于定制的貿(mào)易出版物為數(shù)百種不同的用戶數(shù)據(jù)用戶組。Piatetsky-Shapiro與相關(guān)學(xué)術(shù)人員在99年提供一個詳細(xì)的進(jìn)一步的使用領(lǐng)域的概述。是另一個國際米蘭毛利分析美國東部時間在數(shù)據(jù)挖掘領(lǐng)域的研究?,F(xiàn)代成本會計(jì)的幫助下軟件公司可以對個人所得稅進(jìn)行多維分析物品。由于大量引用(e.g.產(chǎn)品客戶托馬、銷售渠道、區(qū)域)和需要的對象的數(shù)量檢查控制器需要方法自動識別數(shù)據(jù)模式。在這種情況下,這些模式的組合屬性值(e . g?!癉IY商店”和“力量訓(xùn)練”)以及(e . g .毛利率)措施。一個公司,開發(fā)數(shù)據(jù)挖掘程序必須也考慮到大量數(shù)據(jù)參與。即使在一個中型公司是很常見的,成百上千項(xiàng)流入每月?lián)p益表?;诎咐耐评?CBR)是其中之一數(shù)據(jù)最小的有趣的例子荷蘭國際集團(tuán)(ING)和機(jī)器學(xué)習(xí)在一起。CBR組件嘗試跟蹤當(dāng)前問題的問題已經(jīng)解決了過去。幫助桌子,協(xié)助澄清的問題客戶有購買產(chǎn)品,是一個實(shí)際的使用類型的過程。盡管一些公司使用幫助臺支持他們的電信電話熱線,其他人給他們定制-人通過遠(yuǎn)程數(shù)據(jù)的直接訪問轉(zhuǎn)移。可以非常價值數(shù)據(jù)挖掘在這種情況下,因?yàn)樗柟叹奂诔汕先f的信息關(guān)鍵的發(fā)現(xiàn)個人歷史病例老年男性。這種方法的優(yōu)點(diǎn)是較短的過程,尋找先例可以用來回答當(dāng)前客戶的問題。3方法有許多不同類型的方法分析和分類數(shù)據(jù)。一些常見的方法包括聚類分析、貝葉斯推理和歸納學(xué)習(xí)??梢允褂镁垲惙治龌跀?shù)值以及措施概念聚類的形式。數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)天生是非常不同的,當(dāng)然這些都很常見的:因?yàn)榉治龇椒?識別和分析模式,是系統(tǒng)的核心。因?yàn)檩斎肟梢园ńM件原始數(shù)據(jù)等信息數(shù)據(jù)字典、知識的使用場景中,或縮小用戶條目搜索過程。因?yàn)檩敵霭l(fā)現(xiàn)措施,規(guī)則或信息在一個適當(dāng)?shù)男问匠尸F(xiàn)給用戶,納入系統(tǒng)作為新知識或集成成一個專家系統(tǒng)。3.1聚類分析不論在其傳統(tǒng)的形式還是概念聚類,聚類分析試圖分裂或合并一組數(shù)字基于誤碼率的對象組接近這些對象之間的存在。集群分組以便有大的對象之間的相似之處類以及大型之間的異同不同的類的對象。3.1.1傳統(tǒng)聚類分析不管的縮放級別對象變量,有多種方法衡量相似性和區(qū)別的距離?;镜睦影W幾里得(即平方根總平方差異)和曼哈頓差異(即絕對的總和個體差異變量)。在我們可以檢查指標(biāo),名義以及不同數(shù)據(jù)集的混合距離測量。當(dāng)對象有不同的類型的屬性,例如,考夫曼和Rousseeuw推薦計(jì)算個人名義的差異為0屬性值是相同的,和不同的是不同的。指標(biāo)變量,我們第一次需要建立之間的區(qū)別對象的值。然后我們標(biāo)準(zhǔn)化把他們的最大區(qū)別。結(jié)果是一個0和之間的差異。然后我們計(jì)算總差異兩個對象之間的向量的總和個體差異(考夫曼和Rousseeuw 990)。我們可以使用這種類型的測量(最終延長individ的重量性屬性)集群生產(chǎn)總值(gdp)數(shù)據(jù)集邊際分析。這些包含名義屬性(如產(chǎn)品、客戶、地區(qū))以及數(shù)值(收入或措施毛利率)。有一個普遍的分化在劃分和層次之間分類方法。簡而言之,合適的婚姻對象一對迭代方法試圖最小化一個給定的初始分配的異質(zhì)性表示“狀態(tài)”的對象到集群。分層方法,這幾乎是重要的,采取一種完全不同的方法。最初,每一個對象都位于自己的俱樂部怪獸。然而,對象,然后結(jié)合先后,因此只有最小程度的同質(zhì)性是迷失在每一個步驟。我們可以很容易地生成的層次結(jié)構(gòu)嵌套的集群在一個所謂的系統(tǒng)樹圖。3.3歸納學(xué)習(xí)讓我們假設(shè)有一個給定的一組對象(即一個訓(xùn)練集)類。歸納學(xué)習(xí)試圖定義一個規(guī)則,基于其組織一個新對象屬性到一個現(xiàn)有的類。一個常見的方法是可視化作為一個決策樹學(xué)習(xí)規(guī)則。樹葉而樹的代表類主要降低分支機(jī)構(gòu)代表測試分別檢查一個屬性值。每個測試接收的可能的結(jié)果自己的分公司,反過來,導(dǎo)致到另一個分支或熊一片葉子。的ID算法,一個著名的例子這種方法,從這一段開始訓(xùn)練集,我們可以在幾個迭代建立一個樹與0000集對象和50屬性。ID子結(jié)果把剩下的對象的訓(xùn)練集,如果分類不正確,算法將重啟一個訓(xùn)練集的擴(kuò)展部分的對象是不正確的分類(昆蘭986)。銀行,例如,可以使用一個方法構(gòu)建和維護(hù)這樣一個專業(yè)的系統(tǒng)檢查的信用評級個人客戶。如果一個訓(xùn)練集包含一個大客戶群體高或低信用評級,該算法可以使用規(guī)則來評估未來的貸款申請,銀行員工可以處理在系統(tǒng)中。4關(guān)鍵因素以下部分概述了一些與數(shù)據(jù)挖掘相關(guān)的問題。在我們認(rèn)為,這些關(guān)鍵因素的成功將為未來打下堅(jiān)實(shí)的基礎(chǔ)研究和發(fā)展。4.1算法的效率關(guān)于數(shù)據(jù)挖掘的效率算法,我們應(yīng)該考慮以下方面。jCalculation時期是一個關(guān)鍵因素。如果算法的計(jì)算時間增長速度比線性依賴關(guān)系的平方數(shù)的數(shù)據(jù)記錄搜索,我們可以假設(shè)他們不會適合更大應(yīng)用程序。我們可以提高計(jì)算時間通過限制搜索區(qū)域通過用戶輸入或減少通過有針對性的搜索數(shù)據(jù)量(如基于用戶)選擇和壓縮。最近的進(jìn)展顯示,算法的計(jì)算時間將變得不那么相關(guān)了由于技術(shù)發(fā)展(e . g .更快的過程-傳感器、并行計(jì)算機(jī))。因?yàn)樗惴ū仨氉銐蚪烟幚聿煌暾?或有缺陷的數(shù)據(jù)。這里的問題是有缺陷的數(shù)據(jù)產(chǎn)生明顯的模式。如果一個銷售區(qū)域有不小心遺忘了計(jì)劃收入的一系列文章,該系統(tǒng)應(yīng)診斷極高budget-actual方差。然而,系統(tǒng)不應(yīng)該呈現(xiàn)這些類型的語句的一部分正常的分析結(jié)果,而是檢測真實(shí)性檢查和報(bào)告在一個單獨(dú)的不完整的部分報(bào)告。1、字?jǐn)?shù)要求:2000漢字,可以是2篇文檔。2、五號宋體字,首行縮進(jìn)2字,1.5倍行間距。外文文獻(xiàn)原文Data Mining四號宋體,加粗,居中。一定要指明出處,作者名。翻譯的外文文獻(xiàn)應(yīng)主要選自學(xué)術(shù)期刊、學(xué)術(shù)會議的文章、有關(guān)著作及其他相關(guān)材料,應(yīng)與畢業(yè)論文(設(shè)計(jì))主題相關(guān),由指導(dǎo)教師對外文文獻(xiàn)的選擇把關(guān),可直接復(fù)印。格式要求:(1)打印稿:五號羅馬字體(Times New Roman),首行縮進(jìn)4英文字符,1.5倍行間距。(2)復(fù)印稿:用A4紙復(fù)印,要清晰,并留出裝訂線。2 Usage scenariosData mining is widely used in a range of scientific disciplines and business scenarios. Some noteworthy examples include findings in the areas of database management, machine learning, Bayesian inference, knowledge gain for expert systems, fuzzy logic, neural networks, and genetic algorithms.Examples in everyday business scenarios include database marketing for airlines,panel data research as well as the creation of customized trade publications based on subscriber data for hundreds of different user groups. Frawley and Piatetsky-Shapiro (Frawley et al. 99) offer a detailed overview of further areas of usage.Gross margin analysis is another interesting field of research in data mining.With the help of modern cost accounting software, companies can perform multidimensional analysis on individual income items. Fig. 2 lists a few sample questions related to this topic. Due to the numer-ous reference objects (e. g. products, customers, sales channels, regions) and the resulting number of objects that need to be examined, controllers require methods that automatically identify data patterns.In this case, these patterns are a combination of attribute values (e. g. “DIY stores” and “power drills” in Fig. 1) as well as measures (e. g. gross margin). A company that develops a data mining program must also consider the large volumes of data involved. Even in a midsize company, for example, it is common that several hundred-thousand items flow into a monthly income statement.Case Based Reasoning (CBR) is one interesting example of how data mining and machine learning could work together. CBR components attempt to trace current questions to problems that have already been solved in the past. Help desks, which assist in clarifying the questions a customer has about purchased products, are one practical usage of this type of procedure. While some companies use help desks to support their telephone hotlines, others give their customers direct access through a remote data transfer. Data mining can be very valuable in this context because it consolidates the information gathered in thousands of individual historical cases into key findings. The advantage of this procedure is the shorter process of searching for precedents which can be used to answer the current customers question.3 MethodsThere are many different types of methods to analyze and classify data. Some common methods include cluster analysis,Bayesian inference as well as inductive learning. Cluster analysis can be used based on numerical measures as well as in the form of conceptual clustering.The structures of data mining systems are very different by nature. The following configuration, however, is very common:jThe analysis method, which identifies and analyzes patterns, forms the core of the system.jThe input can include components such as raw data, information from adata dictionary, knowledge of the usage scenario, or user entries to narrow the search process.jThe output encompasses the found measures, rules or information which are presented to the user in an appropriate form, incorporated into the system as new knowledge or integrated into an expert system.3.1 Cluster analysisWhether in its traditional form or as conceptual clustering, cluster analysis attempts to divide or combine a set number of objects into groups based on the proximity that exists among these objects.The clusters are grouped so that there are large similarities among the objects of a class as well as large dissimilarities among the objects of different classes.3.1.1 Traditional cluster analysisRegardless of the scaling level of the object variables, there are multiple ways to measure the similarity and difference of the proximity. Basic examples include the Euclidean (i. e. the square root of the total squared difference) and Manhattan differences (i. e. the sum of the absolute differences of individual variables). In general, we can examine metric, nominal as well as mixed data sets by varying the proximity measure.When objects have different types of attributes, for example, Kaufman and Rousseeuw recommend calculating a difference of 0 for the individual nominal attributes when the values are the same,and a difference of when they are different. In the case of metric variables, we first need to establish the difference among the object values.To standardize them we then divide them by the maximum difference.The result is a difference between 0 and.We then calculate the total difference between two object vectors as the sum of the individual differences (Kaufman and Rousseeuw 990).We can use this type of measure (eventually extended by the weight of an individual attribute) to cluster data sets in grossmargin analysis. These contain nominal attributes (e. g. product, customer, region)as well as numerical measures (revenues or gross margin).There is a general differentiation between the partitional and hierarchical classification methods. Simply put, partitional methods try to iteratively minimize the heterogeneity of a given initial allotment of objects into clusters. Hierarchical methods, which are practically significant,take a completely different approach. Initially, each object is located in its own cluster. The objects, however, are then combined successively so that only the smallest level of homogeneity is lost in each step.We can easily present the resulting hierar- chy of nested clusters in a so-called dendrogram.3.1.2 Conceptual clusteringAs described above, traditional forms of cluster analysis can identify groups of similar objects but cannot describe these classes beyond a simple list of the individual objects. The objective of many usage scenarios, however, is to characterize the existing structures that are buried among the volumes of data. Instead of representing object classes through simply listing their objects, conceptual clusters intentionally describe them using terms which classify the individual objects through rules. A group of these rules forms a so-called concept.A basic example of a concept is a program that automatically and logically links individual attribute values. Advanced systems can even establish concepts and concept hierarchies with classification rules.The different concepts in partitional methods of conceptual clustering compete with each other. Ultimately, we have to choose the clustering concept that best meets the performance criteria for a specific method. Some performance criteria include the simplicity of the concept (based on the number of attributes involved) or the discriminatory power (as the number of variables that have values do not overlap beyond the different object classes.)Similar to traditional cluster analysis, there are also hierarchical techniques that form classification trees in a topdown approach. As described

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論