天池競賽題目數(shù)據(jù)分析_第1頁
天池競賽題目數(shù)據(jù)分析_第2頁
天池競賽題目數(shù)據(jù)分析_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、天池競賽題目數(shù)據(jù)分析一、表格用戶歷史行為表:user_bought_history1. 排序:時間起I匕排序一確宦所給數(shù)據(jù)包含的年份和季度;單個用戶購買排序一粗略的商品組合聚類,與達人數(shù)據(jù)搭配對比;商品排序(默認)-基本確左商品季度(最早購買日期為上市季度.購買集中季度)1585376 12 2014=09037861561 12 2014092011060852 12 2014=102311042247 12 201409199012005 12 2014=101712161339 12 201409033200706 12 20110903159108 12 201410251388689

2、 122014:0903292880812 2014=09034227373 12201409036568757 122014=1025656875712 20141024:8907214 182014122212635398 18 2014=12018117695 18201501261260548 182014=09011260548 182014=10179768573 182014:101910254555 18 2014=11116181866 18 201504028903870108 201501315846339 108201501295846339 1082015012841

3、63500 108201501316053362 108201501302699489 338137088, 189853, 181931, 92435, 140701, 11054, 208642,195405, 18294, 148830, 137354, 4 0127,186483, 390642699499 108192326, 189853, 181931, 210627, 40254, 195405, 116180, 213313, 18294, 29668, 186483, 1 63323, 1540572699584 396 105471, 98913, 133927, 923

4、44, 31923, 52550, 69355,160017,114129, 373672699614 221148148, 2736, 218532, 11054, 137354,154613, 77052, 53472, 18294, 148830, 25155, 19540 5, 189853, 44665, 183169, 114129, 194072699659131035, 144584, 124434, 123661, 166025, 172875, 8490% 91068, 40718, 208635, 127424, 4 0161, 1407012699669 3962030

5、91, 134982, 218736, 23594, 91068, 140701, 161744,188128, 43341, 280492699684 220200256, 197801, 25984, 116175, 65189, 194310, 106661, 97761, 186114, 145333, 170589,1 52800, 146986由1確定的商品季度標簽,先選一個季度,對分詞進行頻率分析,頻率最髙的為季度標簽。搭配套餐數(shù)據(jù):dimjashionmatchsets276 988316迦弱僉277 29958772292671:2319384;914424;269042%2

6、78778629, 711593, 2165438, 367611;2080143, 1789772, 203052, 1883280; 1298276, 3073448,2008912; 3054711, 149601,2039113, 2361815;2702055, 2803484,689561, 1421971“278 2707113逐嫩gg; 2971515卩2802140480, 957731, 2853993245; 1402563, 373076, 3260839, 2392097;2427625,115460, 1124289; 776893:3231616; 19042&

7、136291,2169784279 3135973 迦65%280 906600;2圾丄Q3Q281 2234261:丄79435&282 2584999;731223心283 175379;2Q13439 卜對可替換商品的分詞進行頻率分析,頻率最高的可能為衣服分類分詞(大衣,短袖,帽子, 短褲等)一與商品類目有一泄對應;選一部分數(shù)據(jù),可替換商品分詞頻率分析確龍岀topN的 分詞,然后在搭配集合里對topN的分詞頻率分析,重合度高的為可搭配商品的分詞。然后 在可搭配商品的分詞中尋找規(guī)律。二、建模1.因子分析-因子分析可在許多變量中找岀隱藏的具有代表性的因子。將相同本質(zhì)的變量歸 入一個因子,可減

8、少變量的數(shù)目,還可檢驗變量間關系的假設。主要目的是用來描述隱藏在 一組測量到的變量中的一些更基本的但又無法直接測量到的隱性變雖:。因子分析的方法有 兩類。一類是探索性因子分析,列一類是驗證性因子分析。探索性因子分析不事先假左因子 與測度項之間的關系,而讓數(shù)據(jù)自己說話”。主成分分析是其中的典型方法。驗證性因子 分析假定因子與測度項的關系是部分知道的,即哪個測度項對應于哪個因子,雖然我們尚且 不知道具體的系數(shù)。2. 判別分析-當?shù)玫揭粋€新的樣品數(shù)據(jù),要確左該樣品屬于已知類型中哪一類,這類問題 屬于判別分析問題。解決問題:已知某種事物有幾種類型,現(xiàn)在從各種類型中各取一個樣本, 由這些樣本設計出一套標準,使得從這種事物中任取一個樣本,可以按這套標準判別它的類 型。3. 聚類分析-聚類所要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的 一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。4. 典型相關分析一為了研究兩組變量XI , X2,Xp和Yl , Y2 ,,Yq之間 的相關關系,采用類似于主成分分析的方法,在兩組變量中,分別選取若干有代表性的變量 組成有代表性的綜合指標,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論