下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、2016 阿里巴巴數(shù)據(jù)分析師職位筆試題目阿里巴巴作為全球領(lǐng)先的小企業(yè)電子商務(wù)公司 , 招聘阿里巴巴數(shù)據(jù)分析師職位都會(huì)出些什么筆試題目呢 ?咱們一起看看。一、異常值是指什么 ?請列舉 1 種識別連續(xù)型變量異常值的方法?異常值 (Outlier) 是指樣本中的個(gè)別值 , 其數(shù)值明顯偏離所屬樣本的其余觀測值。在數(shù)理統(tǒng)計(jì)里一般是指一組觀測值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。Grubbstest(是以Frank E. Grubbs命名的 ),又叫maximum normedresidual test,是一種用于單變量數(shù)據(jù)集異常值識別的統(tǒng)計(jì)檢測, 它假定數(shù)據(jù)集來自正態(tài)分布的總體。未知總體標(biāo)準(zhǔn)差 ,
2、在五種檢驗(yàn)法中 , 優(yōu)劣次序?yàn)?:t 檢驗(yàn)法、格拉布斯檢驗(yàn)法、峰度檢驗(yàn)法、狄克遜檢驗(yàn)法、偏度檢驗(yàn)法。點(diǎn)評 : 考察的內(nèi)容是統(tǒng)計(jì)學(xué)基礎(chǔ)功底。二、什么是聚類分析 ?聚類算法有哪幾種 ?請選擇一種詳細(xì)描述其計(jì)算原理和步驟。聚類分析 (cluster analysis) 是一組將研究對象分為相對同質(zhì)的群組 (clusters) 的統(tǒng)計(jì)分析技術(shù)。聚類分析也叫分類分析 (classification analysis)或數(shù)值分類 (numerical taxonomy) 。聚類與分類的不同在于 , 聚類所要求劃分的類是未知的。聚類分析計(jì)算方法主要有: 層次的方法(partitioning method)、
3、基于密度的方法(hierarchical method)(density-based method)、劃分方法、基于網(wǎng)格的方法 (grid-based method) 、基于模型的方法 (model-based method) 等。其中 , 前兩種算法是利用統(tǒng)計(jì)學(xué)定義的距離進(jìn)行度量。k-means 算法的工作過程說明如下 : 首先從 n 個(gè)數(shù)據(jù)對象任意選擇 k 個(gè)對象作為初始聚類中心 ; 而對于所剩下其它對象 , 則根據(jù)它們與這些聚類中心的相似度( 距離 ), 分別將它們分配給與其最相似的 ( 聚類中心所代表的 ) 聚類 ; 然后再計(jì)算每個(gè)所獲新聚類的聚類中心 ( 該聚類中所有對象的均值 );
4、 不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù) . k 個(gè)聚類具有以下特點(diǎn) : 各聚類本身盡可能的緊湊 , 而各聚類之間盡可能的分開。其流程如下 :(1) 從 n 個(gè)數(shù)據(jù)對象任意選擇 k 個(gè)對象作為初始聚類中心 ;(2) 根據(jù)每個(gè)聚類對象的均值 ( 中心對象 ), 計(jì)算每個(gè)對象與這些中心對象的距離 ; 并根據(jù)最小距離重新對相應(yīng)對象進(jìn)行劃分 ;(3) 重新計(jì)算每個(gè) ( 有變化 ) 聚類的均值 ( 中心對象 );(4) 循環(huán) (2) 、(3) 直到每個(gè)聚類不再發(fā)生變化為止 ( 標(biāo)準(zhǔn)測量函數(shù)收斂 ) 。優(yōu)點(diǎn) : 本算法確定的 K 個(gè)劃分到達(dá)平方誤差最小。當(dāng)聚類是密集
5、的 , 且類與類之間區(qū)別明顯時(shí) , 效果較好。對于處理大數(shù)據(jù)集 , 這個(gè)算法是相對可伸縮和高效的 , 計(jì)算的復(fù)雜度為 O(NKt), 其中 N是數(shù)據(jù)對象的數(shù)目 ,t 是迭代的次數(shù)。一般來說 ,K<<n,t<<n p="" 。<="">缺點(diǎn) :1. K 是事先給定的 , 但非常難以選定 ;2. 初始聚類中心的選擇對聚類結(jié)果有較大的影響。點(diǎn)評 : 考察的內(nèi)容是常用數(shù)據(jù)分析方法 , 做數(shù)據(jù)分析一定要理解數(shù)據(jù)分析算法、應(yīng)用場景、使用過程、以及優(yōu)缺點(diǎn)。三、根據(jù)要求寫出SQL表 A結(jié)構(gòu)如下 :Member_ID(用戶的 ID, 字
6、符型 )Log_time( 用戶訪問頁面時(shí)間 , 日期型 ( 只有一天的數(shù)據(jù) )URL(訪問的頁面地址 , 字符型 )要求 : 提取出每個(gè)用戶訪問的第一個(gè)URL(按時(shí)間最早 ), 形成一個(gè)新表 ( 新表名為 B, 表結(jié)構(gòu)和表 A 一致 )createtable B asselectMember_ID, min(Log_time), URL from AgroupbyMember_ID ;點(diǎn)評 :SQL 語句 , 簡單的數(shù)據(jù)獲取能力 , 包括表查詢、關(guān)聯(lián)、匯總、函數(shù)等。另外 , 這個(gè)答案其實(shí)是不對的 , 實(shí)現(xiàn)有很多方法 , 任由大家去發(fā)揮吧。四、銷售數(shù)據(jù)分析以下是一家 B2C電子商務(wù)網(wǎng)站的一周銷
7、售數(shù)據(jù), 該網(wǎng)站主要用戶群是辦公室女性 , 銷售額主要集中在 5 種產(chǎn)品上 , 如果你是這家公司的分析師 ,a) 從數(shù)據(jù)中 , 你看到了什么問題 ?你覺得背后的原因是什么 ?b) 如果你的老板要求你提出一個(gè)運(yùn)營改進(jìn)計(jì)劃 , 你會(huì)怎么做 ?a) 從這一周的數(shù)據(jù)可以看出 , 周末的銷售額明顯偏低。這其中的原因 , 可以從兩個(gè)角度來看 : 站在消費(fèi)者的角度 , 周末可能不用上班 , 因而也沒有購買該產(chǎn)品的欲望 ; 站在產(chǎn)品的角度來看 , 該產(chǎn)品不能在周末的時(shí)候引起消費(fèi)者足夠的注意力。b) 針對該問題背后的兩方面原因 , 我的運(yùn)營改進(jìn)計(jì)劃也分兩方面 : 一是 , 針對消費(fèi)者周末沒有購買欲望的心理 ,
8、進(jìn)行引導(dǎo)提醒消費(fèi)者周末就應(yīng)該準(zhǔn)備好該產(chǎn)品 ; 二是 , 通過該產(chǎn)品的一些類似于打折促銷等活動(dòng)來提升該產(chǎn)品在周末的人氣和購買力。點(diǎn)評 : 數(shù)據(jù)解讀能力 , 獲取數(shù)據(jù)是基本功 , 僅僅有數(shù)據(jù)獲取能力是不夠的 , 其次是對數(shù)據(jù)的解讀能力。五、用戶調(diào)研某公司針對 A、B、C三類客戶 , 提出了一種統(tǒng)一的改進(jìn)計(jì)劃 , 用于提升客戶的周消費(fèi)次數(shù) , 需要你來制定一個(gè)事前試驗(yàn)方案 , 來支持決策 , 請你思考下列問題 :a) 試驗(yàn)需要為決策提供什么樣的信息 ?c) 按照上述目的 , 請寫出你的數(shù)據(jù)抽樣方法、需要采集的數(shù)據(jù)指標(biāo)項(xiàng) , 以及你選擇的統(tǒng)計(jì)方法。a) 試驗(yàn)要能證明該改進(jìn)計(jì)劃能顯著提升 A、 B、 C三類客戶的周消費(fèi)次數(shù)。b) 根據(jù)三類客戶的數(shù)量 , 采用分層比例抽樣 ;需要采集的數(shù)據(jù)指標(biāo)項(xiàng)有 : 客戶類別 , 改進(jìn)計(jì)劃前周消費(fèi)次數(shù) , 改進(jìn)計(jì)劃后周消費(fèi)次數(shù) ;選用統(tǒng)計(jì)方法為 : 分別針對 A、 B、 C三類客戶 , 進(jìn)行改進(jìn)前和后的周消費(fèi)次數(shù)的 , 兩獨(dú)立樣本 T- 檢驗(yàn) (two-sam
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 滬科版八年級物理全一冊《第三章光的世界》單元檢測卷及答案
- 利用元數(shù)據(jù)促進(jìn)數(shù)據(jù)共享協(xié)作
- 蘇教版五年級下冊課內(nèi)閱讀25篇、及課外閱讀材料(含答案)
- 2024高中地理第四章區(qū)域經(jīng)濟(jì)發(fā)展章末整合學(xué)案新人教版必修3
- 2024高中生物第5章生態(tài)系統(tǒng)及其穩(wěn)定性第1節(jié)生態(tài)系統(tǒng)的結(jié)構(gòu)課堂演練含解析新人教版必修3
- 2024高中語文第二單元第7課陸文學(xué)自傳課時(shí)作業(yè)含解析粵教版選修唐宋散文蚜
- 2024高考地理一輪復(fù)習(xí)第十六章第1講資源的跨區(qū)域調(diào)配-以我國西氣東輸為例教案含解析新人教版
- 2024高考?xì)v史一輪復(fù)習(xí)方案專題九走向世界的資本主義市場第22講“蒸汽”的力量與走向整體的世界教學(xué)案+練習(xí)人民版
- 2024高考地理一輪復(fù)習(xí)第一部分自然地理-重在理解第二章地球上的大氣第6講冷熱不均引起大氣運(yùn)動(dòng)學(xué)案新人教版
- (3篇)2024年幼兒園園長年度考核表個(gè)人總結(jié)
- 廣東省廣州市黃埔區(qū)2023-2024學(xué)年第一學(xué)期黃埔廣附教育集團(tuán)七年級數(shù)學(xué)聯(lián)考
- 讀書分享讀書交流會(huì)《皮囊》課件
- 07MS101 市政給水管道工程及附屬設(shè)施
- DL∕T 559-2018 220kV~750kV電網(wǎng)繼電保護(hù)裝置運(yùn)行整定規(guī)程
- 店鋪(初級)營銷師認(rèn)證考試題庫附有答案
- 獸藥生產(chǎn)質(zhì)量管理規(guī)范教材教學(xué)課件
- 2024-2029全球及中國電動(dòng)拖拉機(jī)行業(yè)市場發(fā)展分析及前景趨勢與投資發(fā)展研究報(bào)告
- 顱腦損傷的高壓氧治療
- 電梯液晶屏廣告可行性方案
- 2023年上海市初中英語考綱詞匯
評論
0/150
提交評論