阿里數(shù)據(jù)分析筆試題_第1頁
阿里數(shù)據(jù)分析筆試題_第2頁
阿里數(shù)據(jù)分析筆試題_第3頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、2016 阿里巴巴數(shù)據(jù)分析師職位筆試題目阿里巴巴作為全球領(lǐng)先的小企業(yè)電子商務(wù)公司 , 招聘阿里巴巴數(shù)據(jù)分析師職位都會(huì)出些什么筆試題目呢 ?咱們一起看看。一、異常值是指什么 ?請列舉 1 種識別連續(xù)型變量異常值的方法?異常值 (Outlier) 是指樣本中的個(gè)別值 , 其數(shù)值明顯偏離所屬樣本的其余觀測值。在數(shù)理統(tǒng)計(jì)里一般是指一組觀測值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。Grubbstest(是以Frank E. Grubbs命名的 ),又叫maximum normedresidual test,是一種用于單變量數(shù)據(jù)集異常值識別的統(tǒng)計(jì)檢測, 它假定數(shù)據(jù)集來自正態(tài)分布的總體。未知總體標(biāo)準(zhǔn)差 ,

2、在五種檢驗(yàn)法中 , 優(yōu)劣次序?yàn)?:t 檢驗(yàn)法、格拉布斯檢驗(yàn)法、峰度檢驗(yàn)法、狄克遜檢驗(yàn)法、偏度檢驗(yàn)法。點(diǎn)評 : 考察的內(nèi)容是統(tǒng)計(jì)學(xué)基礎(chǔ)功底。二、什么是聚類分析 ?聚類算法有哪幾種 ?請選擇一種詳細(xì)描述其計(jì)算原理和步驟。聚類分析 (cluster analysis) 是一組將研究對象分為相對同質(zhì)的群組 (clusters) 的統(tǒng)計(jì)分析技術(shù)。聚類分析也叫分類分析 (classification analysis)或數(shù)值分類 (numerical taxonomy) 。聚類與分類的不同在于 , 聚類所要求劃分的類是未知的。聚類分析計(jì)算方法主要有: 層次的方法(partitioning method)、

3、基于密度的方法(hierarchical method)(density-based method)、劃分方法、基于網(wǎng)格的方法 (grid-based method) 、基于模型的方法 (model-based method) 等。其中 , 前兩種算法是利用統(tǒng)計(jì)學(xué)定義的距離進(jìn)行度量。k-means 算法的工作過程說明如下 : 首先從 n 個(gè)數(shù)據(jù)對象任意選擇 k 個(gè)對象作為初始聚類中心 ; 而對于所剩下其它對象 , 則根據(jù)它們與這些聚類中心的相似度( 距離 ), 分別將它們分配給與其最相似的 ( 聚類中心所代表的 ) 聚類 ; 然后再計(jì)算每個(gè)所獲新聚類的聚類中心 ( 該聚類中所有對象的均值 );

4、 不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù) . k 個(gè)聚類具有以下特點(diǎn) : 各聚類本身盡可能的緊湊 , 而各聚類之間盡可能的分開。其流程如下 :(1) 從 n 個(gè)數(shù)據(jù)對象任意選擇 k 個(gè)對象作為初始聚類中心 ;(2) 根據(jù)每個(gè)聚類對象的均值 ( 中心對象 ), 計(jì)算每個(gè)對象與這些中心對象的距離 ; 并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分 ;(3) 重新計(jì)算每個(gè) ( 有變化 ) 聚類的均值 ( 中心對象 );(4) 循環(huán) (2) 、(3) 直到每個(gè)聚類不再發(fā)生變化為止 ( 標(biāo)準(zhǔn)測量函數(shù)收斂 ) 。優(yōu)點(diǎn) : 本算法確定的 K 個(gè)劃分到達(dá)平方誤差最小。當(dāng)聚類是密集

5、的 , 且類與類之間區(qū)別明顯時(shí) , 效果較好。對于處理大數(shù)據(jù)集 , 這個(gè)算法是相對可伸縮和高效的 , 計(jì)算的復(fù)雜度為 O(NKt), 其中 N是數(shù)據(jù)對象的數(shù)目 ,t 是迭代的次數(shù)。一般來說 ,K<<n,t<<n p="" 。<="">缺點(diǎn) :1. K 是事先給定的 , 但非常難以選定 ;2. 初始聚類中心的選擇對聚類結(jié)果有較大的影響。點(diǎn)評 : 考察的內(nèi)容是常用數(shù)據(jù)分析方法 , 做數(shù)據(jù)分析一定要理解數(shù)據(jù)分析算法、應(yīng)用場景、使用過程、以及優(yōu)缺點(diǎn)。三、根據(jù)要求寫出SQL表 A結(jié)構(gòu)如下 :Member_ID(用戶的 ID, 字

6、符型 )Log_time( 用戶訪問頁面時(shí)間 , 日期型 ( 只有一天的數(shù)據(jù) )URL(訪問的頁面地址 , 字符型 )要求 : 提取出每個(gè)用戶訪問的第一個(gè)URL(按時(shí)間最早 ), 形成一個(gè)新表 ( 新表名為 B, 表結(jié)構(gòu)和表 A 一致 )createtable B asselectMember_ID, min(Log_time), URL from AgroupbyMember_ID ;點(diǎn)評 :SQL 語句 , 簡單的數(shù)據(jù)獲取能力 , 包括表查詢、關(guān)聯(lián)、匯總、函數(shù)等。另外 , 這個(gè)答案其實(shí)是不對的 , 實(shí)現(xiàn)有很多方法 , 任由大家去發(fā)揮吧。四、銷售數(shù)據(jù)分析以下是一家 B2C電子商務(wù)網(wǎng)站的一周銷

7、售數(shù)據(jù), 該網(wǎng)站主要用戶群是辦公室女性 , 銷售額主要集中在 5 種產(chǎn)品上 , 如果你是這家公司的分析師 ,a) 從數(shù)據(jù)中 , 你看到了什么問題 ?你覺得背后的原因是什么 ?b) 如果你的老板要求你提出一個(gè)運(yùn)營改進(jìn)計(jì)劃 , 你會(huì)怎么做 ?a) 從這一周的數(shù)據(jù)可以看出 , 周末的銷售額明顯偏低。這其中的原因 , 可以從兩個(gè)角度來看 : 站在消費(fèi)者的角度 , 周末可能不用上班 , 因而也沒有購買該產(chǎn)品的欲望 ; 站在產(chǎn)品的角度來看 , 該產(chǎn)品不能在周末的時(shí)候引起消費(fèi)者足夠的注意力。b) 針對該問題背后的兩方面原因 , 我的運(yùn)營改進(jìn)計(jì)劃也分兩方面 : 一是 , 針對消費(fèi)者周末沒有購買欲望的心理 ,

8、進(jìn)行引導(dǎo)提醒消費(fèi)者周末就應(yīng)該準(zhǔn)備好該產(chǎn)品 ; 二是 , 通過該產(chǎn)品的一些類似于打折促銷等活動(dòng)來提升該產(chǎn)品在周末的人氣和購買力。點(diǎn)評 : 數(shù)據(jù)解讀能力 , 獲取數(shù)據(jù)是基本功 , 僅僅有數(shù)據(jù)獲取能力是不夠的 , 其次是對數(shù)據(jù)的解讀能力。五、用戶調(diào)研某公司針對 A、B、C三類客戶 , 提出了一種統(tǒng)一的改進(jìn)計(jì)劃 , 用于提升客戶的周消費(fèi)次數(shù) , 需要你來制定一個(gè)事前試驗(yàn)方案 , 來支持決策 , 請你思考下列問題 :a) 試驗(yàn)需要為決策提供什么樣的信息 ?c) 按照上述目的 , 請寫出你的數(shù)據(jù)抽樣方法、需要采集的數(shù)據(jù)指標(biāo)項(xiàng) , 以及你選擇的統(tǒng)計(jì)方法。a) 試驗(yàn)要能證明該改進(jìn)計(jì)劃能顯著提升 A、 B、 C三類客戶的周消費(fèi)次數(shù)。b) 根據(jù)三類客戶的數(shù)量 , 采用分層比例抽樣 ;需要采集的數(shù)據(jù)指標(biāo)項(xiàng)有 : 客戶類別 , 改進(jìn)計(jì)劃前周消費(fèi)次數(shù) , 改進(jìn)計(jì)劃后周消費(fèi)次數(shù) ;選用統(tǒng)計(jì)方法為 : 分別針對 A、 B、 C三類客戶 , 進(jìn)行改進(jìn)前和后的周消費(fèi)次數(shù)的 , 兩獨(dú)立樣本 T- 檢驗(yàn) (two-sam

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論