大數(shù)據(jù)分析項(xiàng)目_第1頁(yè)
大數(shù)據(jù)分析項(xiàng)目_第2頁(yè)
大數(shù)據(jù)分析項(xiàng)目_第3頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、公司簡(jiǎn)介:智友是一個(gè)年輕的文化品牌,旗下有多個(gè)互聯(lián)網(wǎng)產(chǎn)品線,覆蓋生活方式、音樂(lè)、創(chuàng)意,時(shí)尚等多個(gè)領(lǐng)域。致力發(fā)展為最大的年輕人文化出版與發(fā)行渠道,挖掘文化領(lǐng)域的年輕力量。旗下產(chǎn)品音樂(lè)軟件“xxx”是時(shí)下最流行的音樂(lè)App,首創(chuàng)彈幕評(píng)論交友,獨(dú)特3D音樂(lè)顛覆你的聽(tīng)覺(jué)體驗(yàn)。上線短短數(shù)月就受到了百萬(wàn)音樂(lè)發(fā)燒友的喜愛(ài)和追捧,蘋果商店音樂(lè)免費(fèi)榜長(zhǎng)期穩(wěn)居前五。公司業(yè)務(wù):1. 發(fā)現(xiàn)你不知道的好聽(tīng)音樂(lè)、3D立體聲音(雨聲、場(chǎng)景立體特效聲)、趣味聲音。2. 首創(chuàng)聲音/音樂(lè)彈幕評(píng)論,讓你感覺(jué)不再是一個(gè)人聽(tīng)歌!從未有過(guò)的聽(tīng)覺(jué)社交體驗(yàn)。3. 隨時(shí)隨地錄下生活中的精彩,錄音變聲、拍照變形統(tǒng)統(tǒng)有。4. 制作酷炫的有聲表情,

2、和朋友聊天顯得更萌萌噠。5. 遇見(jiàn)音樂(lè)/聲音大咖,輕松結(jié)識(shí)跟你喜歡同一首歌/音頻的朋友。6. 根據(jù)你的聽(tīng)歌風(fēng)格定制屬于你的首頁(yè)歌曲和推薦歌曲。7. 根據(jù)歌曲收聽(tīng)量排出每種歌曲類型的熱門歌曲。8. 用戶錄制白己的MV和歌曲上傳到ech。讓更多的音樂(lè)愛(ài)好者認(rèn)識(shí)你。9. 用戶社區(qū),好友圈,看看你的朋友都在聊什么聽(tīng)什么。項(xiàng)目需求:1. 用戶畫像,根據(jù)聽(tīng)歌風(fēng)格,每天在線時(shí)間,用戶收藏了哪些歌曲,總是跳過(guò)播放哪些歌曲,來(lái)給用戶打標(biāo)簽。2. 每天對(duì)新上線的音樂(lè)進(jìn)行分類統(tǒng)計(jì),每類歌曲新增數(shù)。3. 每天根據(jù)用戶標(biāo)簽推薦他喜歡的top10歌曲。4. 實(shí)時(shí)統(tǒng)計(jì)用戶上傳的音樂(lè),MV的數(shù)量。5. 每十分鐘對(duì)用戶上傳的音

3、樂(lè),MV的收聽(tīng)和點(diǎn)擊率情況進(jìn)行分析統(tǒng)計(jì)。6. 每天對(duì)用戶上傳的音樂(lè)進(jìn)行分類化和收聽(tīng)點(diǎn)擊率排名。7. 每天更新統(tǒng)計(jì)注冊(cè)用戶數(shù)和會(huì)員用戶數(shù)。8. 統(tǒng)計(jì)端APP,android,ios占比度。9. 統(tǒng)計(jì)用戶聽(tīng)歌的方向性和潮流性,來(lái)決定公司需要引進(jìn)哪些類型的歌曲。10. 用戶圈,統(tǒng)計(jì)用戶圈中討論最多的熱詞發(fā)現(xiàn)和你口味相同的朋友并推薦給你。項(xiàng)目架構(gòu):1. 從客戶端APP,PC,網(wǎng)頁(yè)中收集用戶信息,聽(tīng)歌信息,上傳的歌曲。2. 通過(guò)kafka推送給mr或spark清洗。3. 重用kafka作為緩存,緩存把數(shù)據(jù)存儲(chǔ)到HDFS。4. 通過(guò)hive進(jìn)行分析計(jì)算。5. 計(jì)算結(jié)果保存到hbase和mysql中。6.

4、HBase中的數(shù)據(jù)可以做用戶推薦,熱度排行,mysql可以共用戶查看個(gè)人資料和好友信息,等級(jí)等。kafka,,HUF時(shí)-布式存情rfMR/bpark潔冼hl代信工ITIY5QJ熱度排1T用戶指衛(wèi)戶畫伉需求設(shè)計(jì):1. 從埋點(diǎn)日志導(dǎo)出用戶聽(tīng)歌信息,用spark清洗出用戶聽(tīng)了哪些歌曲,收藏了哪些歌曲,整理出用戶喜好的歌曲是哪些風(fēng)格,把這些風(fēng)格寫到mysql用戶信息表相關(guān)聯(lián)的用戶歌曲風(fēng)格表里。2. 用HIVE對(duì)HDFS上的每天上線的歌曲做分類統(tǒng)計(jì)每類新增數(shù)量。3. 從mysql查看用戶的喜好歌曲標(biāo)簽,然后在歌曲庫(kù)中找到對(duì)應(yīng)的分類歌曲推薦給用戶。4. 利用spark把用戶上傳的歌曲從HDFS上導(dǎo)入進(jìn)來(lái)進(jìn)

5、行一個(gè)求和操作,把結(jié)果直接導(dǎo)入hbase中。5. 從mysql中的用戶注冊(cè)表中通過(guò)注冊(cè)時(shí)間過(guò)濾出今天注冊(cè)的用戶,然后進(jìn)行求和操作,在今天注冊(cè)的用戶中按照字段“會(huì)員”條件查找會(huì)員用戶求和。設(shè)計(jì)實(shí)現(xiàn):統(tǒng)計(jì)每類新增歌曲數(shù)量從HDFS里導(dǎo)入hive每天分類好的歌曲每日新增歌曲數(shù)量表字段中文名字段英文名字段類型Id編號(hào)IntsongName歌曲名Stringsingername歌手名StringStyle曲風(fēng)StringDate時(shí)間String演員,薛之謙,流行,2016-3-20告白氣球,周杰倫流行,2016-3-20成都,趙雷流行,016-3-20espanacani,andrerieu古典,201

6、6-3-20小桃紅,湯旭,民謠,2016-3-20everything,wrld,嘻哈,2016-3-20wake,free,搖滾,2016-3-20長(zhǎng)安長(zhǎng)安,鄭鈞,搖滾,2016-3-209,loveisakiller,vixen搖滾,2016-3-2010,Iremember,dokken搖滾,2016-3-20在HIVA下建一個(gè)歌曲表Createtablemusic_160320(idint,songNamestring,stylestring,singerNamestring,datestring)rowformatdelimitedfieldsterminatedby,;Loadda

7、tainpathNewMusic/music_160320/music.txtintotablemusic_160320;Hiveselectstyle,count(*)frommusic_160320groupbystyle;結(jié)果為Stylecount流行,3古典,1民謠,1嘻哈,1搖滾,42.分析APP埋點(diǎn)信息Json數(shù)據(jù)結(jié)構(gòu)()imei”:864874020839760”,phonetype”:huaweip6”,phonesystem”:Android6.0”,user_name”:周一懵然狀”,like_music”:我是不是該安靜的走開(kāi),真的愛(ài)你,灰色軌跡”imei:8648740

8、20839761,phonetype”:huaweip6”,phonesystem”:Android6.0”,user_name”:bigbaby”,like_music”:Laserlife,簡(jiǎn)單愛(ài),演員,最冷的一天(imei:864874020839762,phonetype:huaweip6,phonesystem:Android6.0,user_name:1993058,like_music:最好的我,北國(guó),少年游”(imei:864874020839764,phonetype:huaweip6,phonesystem”:Android6.0”,user_name”:/J、于一”,li

9、ke_music”:imagine,respect,heyjude(imei:864874020839765,phonetype:huaweip6,phonesystem:Android6.0,user_name:thewho,like_music:misty,youreyes,alliwant用spark清洗:Varmeidian=sqlContext.jsonFile(hdfs:/jun110:9000/user/spark/meidian.json)Varqingxi=meidian.select(”user_name”,”like_music”qingxi.save(hdfs:/jun

10、110:9000/user/spark/qingxi”,json)json轉(zhuǎn)化成CSV格式的文件:周一懵然狀,我是不是該安靜的走開(kāi),真的愛(ài)你,灰色軌跡Bigbaby,Laserlife簡(jiǎn)單愛(ài),演員,最冷的一天1993058,最好的我,北國(guó),少年游小于一,imagine,respect,heyjudethewho,misty,youreyes,alliwant9從歌曲庫(kù)中匹配出歌曲的風(fēng)格類型User_nameLike_musicstyle周一懵然狀我正不正該安靜的止開(kāi)流行周一懵然狀真的愛(ài)你流行周一懵然狀灰軌跡流行BigbabyLaserlife搖滾Bigbaby簡(jiǎn)單愛(ài)流行Bigbaby演員流行b

11、igbaby取冷的天流行1993058最好的我流行1993058北國(guó)民謠1993058少年游民謠小于一imagine搖滾小于一Respect搖滾小于一Heyjude搖滾thewhomisty輕音樂(lè)thewhoYoureyes輕音樂(lè)thewhoAllIwant輕音樂(lè)導(dǎo)入hive進(jìn)行行轉(zhuǎn)列去除多余字段Hivecreatetableuser_style(user_namestring,music_namestring,stylestring)rowformatdelimitedfieldsterminatedby,;HiveLoaddatainpathuser/user_music.txtintot

12、ableuser_style;Hiveselectuser_name,concat_ws(,collect_set(stylei)E)enomtylegroupbyuser_name;用sqoop把結(jié)果導(dǎo)入mysqlUser_nameStyle周一懵然狀流行Bigbaby搖滾,流行1993058流行,民謠小于一搖滾Thewho輕音樂(lè)3.統(tǒng)計(jì)mysql用戶表里每天注冊(cè)用戶數(shù)User_namevarChar用戶名PasswdVarchar密碼Sexchar性別Register_datevarchar注冊(cè)時(shí)間Createtableuser(user_namevarchar(16),passwdvar

13、char(16),sexchar(2),register_datevarchar(20);MysqlSelect今日注冊(cè)數(shù)”,count(user_namefromuserwhereunix_timestamp(register_date)unix_timestamp()-1*24*60*60;結(jié)果:今日注冊(cè)數(shù)1230HBase性能優(yōu)化修改Linux最大文件數(shù)Linux系統(tǒng)最大可打開(kāi)文件數(shù)一般默認(rèn)的參數(shù)值是1024,如果你不進(jìn)行修改并發(fā)量上來(lái)的時(shí)候會(huì)出現(xiàn)“TooManyOpenFileS的錯(cuò)誤,導(dǎo)致整個(gè)HBase不可運(yùn)行查看:ulimit-a結(jié)果:openfiles(-n)1024臨時(shí)修改:u

14、limit-n4096持久修改:在文件最后加上:softnofile65535hardnofile65535softnproc65535hardnproc65535修改JVM配置修改文件中的配置參數(shù)HBASE_HEAPSIZE4000#HBaW的JVM堆的大小HBASE_OPTS-server-XX:+UseConcMarkSweepGCJV#GC選項(xiàng)參數(shù)解釋:-client,-server這兩個(gè)參數(shù)用于設(shè)置虛擬機(jī)使用何種運(yùn)行模式,client模式啟動(dòng)比較快,但運(yùn)行時(shí)性能和內(nèi)存管理效率不如server模式,通常用于客戶端應(yīng)用程序。相反,server模式啟動(dòng)比client慢,但可獲得更高的運(yùn)行性

15、能。1. -XX:+UseConcMarkSweepGC設(shè)置為并發(fā)收集修改HBase配置:3.1.默認(rèn)值:3分鐘180000ms,可以改成1分鐘說(shuō)明:RegionServer與Zookeeper間的連接超時(shí)時(shí)間。當(dāng)超時(shí)時(shí)間到后,ReigonServer會(huì)被Zookeeper從RS集群清單中移除,HMaster收到移除通知后,會(huì)對(duì)這臺(tái)server負(fù)責(zé)的regions重新balance,讓其他存活的RegionServer接管.調(diào)優(yōu):這個(gè)timeout決定了RegionServer是否能夠及時(shí)的failover。設(shè)置成1分鐘或更低,可以減少因等待超時(shí)而被延長(zhǎng)的failover時(shí)間。不過(guò)需要注意的是

16、,對(duì)于一些Online應(yīng)用,RegionServer從宕機(jī)到恢復(fù)時(shí)間本身就很短的網(wǎng)絡(luò)閃斷,crash等故障,運(yùn)維可快速介入,如果調(diào)低timeout時(shí)間,反而會(huì)得不償失。因?yàn)楫?dāng)ReigonServer被正式從RS集群中移除時(shí),HMaster就開(kāi)始做balance了讓其他RS根據(jù)故障機(jī)器記錄的WAL日志進(jìn)行恢復(fù)。當(dāng)故障的RS在人工介入恢復(fù)后,這個(gè)balance動(dòng)作是毫無(wú)意義的,反而會(huì)使負(fù)載不均勻,給RS帶來(lái)更多負(fù)擔(dān)。特別是那些固定分配regions的場(chǎng)景hbase.regionserver.handler.count默認(rèn)值:10說(shuō)明:RegionServer的請(qǐng)求處理IO線程數(shù)。調(diào)優(yōu):這個(gè)參數(shù)的調(diào)

17、優(yōu)與內(nèi)存息息相關(guān)。較少的IO線程,適用于處理單次請(qǐng)求內(nèi)存消耗較高的BigPUTS景大容量單次PUT或設(shè)置了較大cache的scan,均屬于BigPUT或ReigonServer的內(nèi)存比較緊張的場(chǎng)景。較多的IO線程,適用于單次請(qǐng)求內(nèi)存消耗低,TPS吞吐量要求非常高的場(chǎng)景。hbase.hregion.max.filesize默認(rèn)值:256M說(shuō)明:在當(dāng)前ReigonServer上單個(gè)Reigon的最大存儲(chǔ)空間,單個(gè)Region超過(guò)該值時(shí),這個(gè)Region會(huì)被白動(dòng)split成更小的region。調(diào)優(yōu):小region對(duì)split和compaction友好,因?yàn)椴鸱謗egion或compact小regio

18、n里的storefile速度很快,內(nèi)存占用低。缺點(diǎn)是split和compaction會(huì)彳艮頻繁。特別是數(shù)量較多的小region不停地split,compaction,會(huì)導(dǎo)致集群響應(yīng)時(shí)間波動(dòng)很大,region數(shù)量太多不僅給管理上帶來(lái)麻煩,甚至?xí)l(fā)一些Hbase的bug。一般512以下的都算小regiono大region,貝U不會(huì)經(jīng)常split和compaction,因?yàn)樽龃蝐ompact和split會(huì)產(chǎn)生較長(zhǎng)時(shí)間的停頓,對(duì)應(yīng)用的讀寫性能沖擊非常大。hfile.block.cache.size默認(rèn)值:說(shuō)明:storefile的讀緩存占用內(nèi)存的大小百分比,表示20%該值直接影響數(shù)據(jù)讀的性能。調(diào)優(yōu):當(dāng)然是越大越好,如果寫比讀少很多,開(kāi)到也沒(méi)問(wèn)題。如果讀寫較均衡,左右。如果寫比讀多,果斷默認(rèn)吧。HBase上Regionserver的內(nèi)存分為兩個(gè)部分,一部分作為Memstore,主要用來(lái)寫;另外一部分作為BlockCache主要用于讀。寫請(qǐng)求會(huì)先寫入Memstore,Regionserver會(huì)給每個(gè)region提供一個(gè)Memstore,當(dāng)Memstore滿64MB以后,會(huì)啟動(dòng)flush刷新到磁盤。讀請(qǐng)求先到Memstore中查數(shù)據(jù),查不到就到BlockCache中查,再查不到就會(huì)到磁盤上讀,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論