完整版數(shù)據(jù)分析師筆試題目

上傳人：a*** IP屬地：天津上傳時間：2021-05-20 格式：DOC 頁數(shù)：26 大小：34.88KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩21頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、網(wǎng)易數(shù)據(jù)分析專員筆試題目一、基礎(chǔ)題 1、中國現(xiàn)在有多少億網(wǎng)民？ 2、百度花多少億美元收購了91無線？ 3、app store排名的規(guī)則和影響因素 4、豆瓣fm推薦算法 5、列舉5個數(shù)據(jù)分析的博客或網(wǎng)站二、計算題 1、關(guān)于簡單移動平均和加權(quán)移動平均計算 2、兩行數(shù)計算相關(guān)系數(shù)。（2位小數(shù)，還不讓用計算器，反正我沒算） 3、計算三個距離，歐幾里德，曼哈頓，閔可夫斯基距離三、簡答題 1、離散的指標(biāo)，優(yōu)缺點 2、插補缺失值方法，優(yōu)缺點及適用環(huán)境 3、數(shù)據(jù)倉庫解決方案，優(yōu)缺點 4、分類算法，優(yōu)缺點 5、協(xié)同推薦系統(tǒng)和基于聚類系統(tǒng)的區(qū)別四、分析題關(guān)于網(wǎng)易郵箱用戶流失的定義，挑選指標(biāo)。然后要構(gòu)建一

2、個預(yù)警模型。五、算法題記不得了，沒做。反正是決策樹和神經(jīng)網(wǎng)絡(luò)相關(guān)。 1、你處理過的最大的數(shù)據(jù)量？你是如何處理他們的？處理的結(jié)果。 2、告訴我二個分析或者計算機科學(xué)相關(guān)項目？你是如何對其結(jié)果進行衡量的？ 3、什么是：提升值、關(guān)鍵績效指標(biāo)、強壯性、模型按合度、實驗設(shè)計、2/8原則？ 4、什么是：協(xié)同過濾、n-grams, map reduce、余弦距離？ 5、如何讓一個網(wǎng)絡(luò)爬蟲速度更快、抽取更好的信息以及更好總結(jié)數(shù)據(jù)從而得到一干凈的數(shù)據(jù)庫？ 6、如何設(shè)計一個解決抄襲的方案？ 7、如何檢驗一個個人支付賬戶都多個人使用？ 8、點擊流數(shù)據(jù)應(yīng)該是實時處理？為什么？哪部分應(yīng)該實時處理？ 9、你認為哪個更

3、好：是好的數(shù)據(jù)還是好模型？同時你是如何定義“好”？存在所有情況下通用的模型嗎？有你沒有知道一些模型的定義并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL處理還是其它語言方便？對于處理半結(jié)構(gòu)化的數(shù)據(jù)你會選擇使用哪種語言？ 11、你是如何處理缺少數(shù)據(jù)的？你推薦使用什么樣的處理技術(shù)？ 12、你最喜歡的編程語言是什么？為什么？ 13、對于你喜歡的統(tǒng)計軟件告訴你喜歡的與不喜歡的3個理由。 14、SAS, R, Python, Perl語言的區(qū)別是？ 15、什么是大數(shù)據(jù)的詛咒？ 16、你參與過數(shù)據(jù)庫與數(shù)據(jù)模型的設(shè)計嗎？ 17、你是否參與過儀表盤的設(shè)計及指標(biāo)選擇？你對于商業(yè)智能和報表工具有

4、什么想法？ 18、你喜歡TD數(shù)據(jù)庫的什么特征？ 19、如何你打算發(fā)100萬的營銷活動郵件。你怎么去優(yōu)化發(fā)送？你怎么優(yōu)化反應(yīng)率？能把這二個優(yōu)化份開嗎？ 20、如果有幾個客戶查詢ORACLE數(shù)據(jù)庫的效率很低。為什么？你做什么可以提高速度10倍以上，同時可以更好處理大數(shù)量輸出？ 21、如何把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)？這是否真的有必要做這樣的轉(zhuǎn)換？把數(shù)據(jù)存成平面文本文件是否比存成關(guān)系數(shù)據(jù)庫更好？ 22、什么是哈希表碰撞攻擊？怎么避免？發(fā)生的頻率是多少？ 23、如何判別mapreduce過程有好的負載均衡？什么是負載均衡？ 24、請舉例說明mapreduce是如何工作的？在什么應(yīng)用場景下工作的很

5、好？云的安全問題有哪些？ 25、（在內(nèi)存滿足的情況下）你認為是100個小的哈希表好還是一個大的哈希表，對于內(nèi)在或者運行速度來說？對于數(shù)據(jù)庫分析的評價？ 26、為什么樸素貝葉斯差？你如何使用樸素貝葉斯來改進爬蟲檢驗算法？、你處理過白名單嗎？主要的規(guī)則？（在欺詐或者爬行檢驗的情況下）27 28、什么是星型模型？什么是查詢表？ 29、你可以使用excel建立邏輯回歸模型嗎？如何可以，說明一下建立過程？ 30、在SQL, Perl, C+, Python等編程過程上，待為了提升速度優(yōu)化過相關(guān)代碼或者算法嗎？如何及提升多少？ 31、使用5天完成90%的精度的解決方案還是花10天完成100%的精度的解決

6、方案？取決于什么內(nèi)容？ 32、定義：QA（質(zhì)量保障）、六西格瑪、實驗設(shè)計。好的與壞的實驗設(shè)計能否舉個案例？ 33、普通線性回歸模型的缺陷是什么？你知道的其它回歸模型嗎？ 34、你認為葉數(shù)小于50的決策樹是否比大的好？為什么？ 35、保險精算是否是統(tǒng)計學(xué)的一個分支？如果不是，為何如何？ 36、給出一個不符合高斯分布與不符合對數(shù)正態(tài)分布的數(shù)據(jù)案例。給出一個分布非常混亂的數(shù)案例。 37、為什么說均方誤差不是一個衡量模型的好指標(biāo)？你建議用哪個指標(biāo)替代？ 38、你如何證明你帶來的算法改進是真的有效的與不做任何改變相比？你對A/B測試熟嗎？ 39、什么是敏感性分析？擁有更低的敏感性（也就是說更好的強壯性）

7、和低的預(yù)測能力還是正好相反好？你如何使用交叉驗證？你對于在數(shù)據(jù)集中插入噪聲數(shù)據(jù)從而來檢驗?zāi)Ｐ偷拿舾行缘南敕ㄈ绾慰矗?40、對于一下邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)。在過去15年中這些技術(shù)做了哪些大的改進？ 41、除了主成分分析外你還使用其它數(shù)據(jù)降維技術(shù)嗎？你怎么想逐步回歸？你熟悉的逐步回歸技術(shù)有哪些？什么時候完整的數(shù)據(jù)要比降維的數(shù)據(jù)或者樣本好？ 42、你如何建議一個非參數(shù)置信區(qū)間？ 43、你熟悉極值理論、蒙特卡羅邏輯或者其它數(shù)理統(tǒng)計方法以正確的評估一個稀疏事件的發(fā)生概率？ 44、什么是歸因分析？如何識別歸因與相關(guān)系數(shù)？舉例。 45、如何定義與衡量一個指標(biāo)的預(yù)測能力？ 46、如何為欺詐檢驗得分技術(shù)發(fā)現(xiàn)

8、最好的規(guī)則集？你如何處理規(guī)則冗余、規(guī)則發(fā)現(xiàn)和二者的本質(zhì)問題？一個規(guī)則集的近似解決方案是否可行？如何尋找一個可行的近似方案？你如何決定這個解決方案足夠好從而可以停止尋找另一個更好的？ 47、如何創(chuàng)建一個關(guān)鍵字分類？ 48、什么是僵尸網(wǎng)絡(luò)？如何進行檢測？ 49、你有使用過API接口的經(jīng)驗嗎？什么樣的API？是谷歌還是亞馬遜還是軟件即時服務(wù)？ 50、什么時候自己編號代碼比使用數(shù)據(jù)科學(xué)者開發(fā)好的軟件包更好？ 51、可視化使用什么工具？在作圖方面，你如何評價Tableau?R?SAS?在一個圖中有效展現(xiàn)五個維度？ 52、什么是概念驗證？ 53、你主要與什么樣的客戶共事：內(nèi)部、外部、銷售部門/財務(wù)部門/市

9、場部門/IT部門的人？有咨詢經(jīng)驗嗎？與供應(yīng)商打過交道，包括供應(yīng)商選擇與測試。 54、你熟悉軟件生命周期嗎？及IT項目的生命周期，從收入需求到項目維護？ 55、什么是cron任務(wù)？ 56、你是一個獨身的編碼人員？還是一個開發(fā)人員？或者是一個設(shè)計人員？ 57、是假陽性好還是假陰性好？ 58、你熟悉價格優(yōu)化、價格彈性、存貨管理、競爭智能嗎？分別給案例。 59、Zillows算法是如何工作的？ 60、如何檢驗為了不好的目的還進行的虛假評論或者虛假的FB帳戶？ 61、你如何創(chuàng)建一個新的匿名數(shù)字帳戶？ 62、你有沒有想過自己創(chuàng)業(yè)？是什么樣的想法？ 63、你認為帳號與密碼輸入的登錄框會消失嗎？它將會被什么替

10、代？ 64、你用過時間序列模型嗎？時滯的相關(guān)性？相關(guān)圖？光譜分析？信號處理與過濾技術(shù)？在什么樣的場景下？、哪位數(shù)據(jù)科學(xué)有你最佩服？從哪開始？65 66、你是怎么開始對數(shù)據(jù)科學(xué)感興趣的？ 67、什么是效率曲線？他們的缺陷是什么，你如何克服這些缺陷？ 68、什么是推薦引擎？它是如何工作的？ 69、什么是精密測試？如何及什么時候模擬可以幫忙我們不使用精密測試？ 70、你認為怎么才能成為一個好的數(shù)據(jù)科學(xué)家？ 71、你認為數(shù)據(jù)科學(xué)家是一個藝術(shù)家還是科學(xué)家？ 72、什么是一個好的、快速的聚類算法的的計算復(fù)雜度？什么好的聚類算法？你怎么決定一個聚類的聚數(shù)？ 73、給出一些在數(shù)據(jù)科學(xué)中“最佳實踐的案例”。

11、74、什么讓一個圖形使人產(chǎn)生誤解、很難去讀懂或者解釋？一個有用的圖形的特征？ 75、你知道使用在統(tǒng)計或者計算科學(xué)中的“經(jīng)驗法則”嗎？或者在商業(yè)分析中。 76、你覺得下一個20年最好的5個預(yù)測方法是？ 77、你怎么馬上就知道在一篇文章中（比如報紙）發(fā)表的統(tǒng)計數(shù)字是錯誤，或者是用作支撐作者的論點，而不是僅僅在羅列某個事物的信息？例如，對于每月官方定期在媒體公開發(fā)布的失業(yè)統(tǒng)計數(shù)據(jù)，你有什么感想？怎樣可以讓這些數(shù)據(jù)更加準(zhǔn)確？從阿里數(shù)據(jù)分析師筆試看職業(yè)要求以下試題是來自阿里巴巴招募實習(xí)生的一次筆試題，從筆試題的幾個要求我們一起來看看數(shù)據(jù)分析的職業(yè)要求。一、異常值是指什么？請列舉1種識別連續(xù)型變量異

12、常值的方法？異常值（Outlier）是指樣本中的個別值，其數(shù)值明顯偏離所屬樣本的其余觀測值。在數(shù)理統(tǒng)計里一般是指一組觀測值中與平均值的偏差超過兩倍標(biāo)準(zhǔn)差的測定值。 Grubbs test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一種用于單變量數(shù)據(jù)集異常值識別的統(tǒng)計檢測，它假定數(shù)據(jù)集來自正態(tài)分布的總體。未知總體標(biāo)準(zhǔn)差，在五種檢驗法中，優(yōu)劣次序為：t檢驗法、格拉布斯檢驗法、峰度檢驗法、狄克遜檢驗法、偏度檢驗法。點評：考察的內(nèi)容是統(tǒng)計學(xué)基礎(chǔ)功底。二、什么是聚類分析？聚類算法有哪幾種？請選擇一種詳細描述其計算原理和步驟。的

13、統(tǒng)計分析技術(shù)。(clusters)是一組將研究對象分為相對同質(zhì)的群組analysis)(cluster 聚類分析聚類分析也叫分類分析(classification analysis)或數(shù)值分類(numerical taxonomy)。聚類與分類的不同在于，聚類所要求劃分的類是未知的。聚類分析計算方法主要有：層次的方法（hierarchical method）、劃分方法（partitioning method）、基于密度的方法（density-based method）、基于網(wǎng)格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前兩

14、種算法是利用統(tǒng)計學(xué)定義的距離進行度量。 k-means 算法的工作過程說明如下：首先從n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心；而對于所剩下其它對象，則根據(jù)它們與這些聚類中心的相似度（距離），分別將它們分配給與其最相似的（聚類中心所代表的）聚類；然后再計算每個所獲新聚類的聚類中心（該聚類中所有對象的均值）；不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測度函數(shù). k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。其流程如下：（1）從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心；（2）根據(jù)每個聚類對象的均值（中心對象），計算每個

15、對象與這些中心對象的距離；并根據(jù)最小距離重新對相應(yīng)對象進行劃分；（3）重新計算每個（有變化）聚類的均值（中心對象）；（4）循環(huán)（2）、（3）直到每個聚類不再發(fā)生變化為止（標(biāo)準(zhǔn)測量函數(shù)收斂）。優(yōu)點：本算法確定的K 個劃分到達平方誤差最小。當(dāng)聚類是密集的，且類與類之間區(qū)別明顯時，效果較好。對于處理大數(shù)據(jù)集，這個算法是相對可伸縮和高效的，計算的復(fù)雜度為 O(NKt)，其中N是數(shù)據(jù)對象的數(shù)目，t是迭代的次數(shù)。一般來說，KN，tN 。缺點：1. K 是事先給定的，但非常難以選定；2. 初始聚類中心的選擇對聚類結(jié)果有較大的影響。點評：考察的內(nèi)容是常用數(shù)據(jù)分析方法，做數(shù)據(jù)分析一定要理解數(shù)據(jù)分析算法

16、、應(yīng)用場景、使用過程、以及優(yōu)缺點。三、根據(jù)要求寫出SQL 表A結(jié)構(gòu)如下： Member_ID（用戶的ID，字符型） Log_time（用戶訪問頁面時間，日期型（只有一天的數(shù)據(jù)） URL（訪問的頁面地址，字符型）要求：提取出每個用戶訪問的第一個URL（按時間最早），形成一個新表（新表名為B，表結(jié)構(gòu)和表A一致） createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ; 點評：SQL語句，簡單的數(shù)據(jù)獲取能力，包括表查詢、關(guān)聯(lián)、匯總、函數(shù)等。四、銷售數(shù)據(jù)分析以下是一家B2C電子商務(wù)網(wǎng)站的一周銷售數(shù)

17、據(jù)，該網(wǎng)站主要用戶群是辦公室女性，銷售額主要集中在5種產(chǎn)品上，如果你是這家公司的分析師， a) 從數(shù)據(jù)中，你看到了什么問題？你覺得背后的原因是什么？ b) 如果你的老板要求你提出一個運營改進計劃，你會怎么做？表如下：一組每天某網(wǎng)站的銷售數(shù)據(jù) a) 從這一周的數(shù)據(jù)可以看出，周末的銷售額明顯偏低。這其中的原因，可以從兩個角度來看：站在消費者的角度，周末可能不用上班，因而也沒有購買該產(chǎn)品的欲望；站在產(chǎn)品的角度來看，該產(chǎn)品不能在周末的時候引起消費者足夠的注意力。 b) 針對該問題背后的兩方面原因，我的運營改進計劃也分兩方面：一是，針對消費者周末沒有購買欲望的心理，進行引導(dǎo)提醒消費者周末就應(yīng)該準(zhǔn)備好該

18、產(chǎn)品；二是，通過該產(chǎn)品的一些類似于打折促銷等活動來提升該產(chǎn)品在周末的人氣和購買力。點評：數(shù)據(jù)解讀能力，獲取數(shù)據(jù)是基本功，僅僅有數(shù)據(jù)獲取能力是不夠的，其次是對數(shù)據(jù)的解讀能力。五、用戶調(diào)研某公司針對A、B、C三類客戶，提出了一種統(tǒng)一的改進計劃，用于提升客戶的周消費次數(shù)，需要你來制定一個事前試驗方案，來支持決策，請你思考下列問題： a) 試驗需要為決策提供什么樣的信息？ c) 按照上述目的，請寫出你的數(shù)據(jù)抽樣方法、需要采集的數(shù)據(jù)指標(biāo)項，以及你選擇的統(tǒng)計方法。 a) 試驗要能證明該改進計劃能顯著提升A、B、C三類客戶的周消費次數(shù)。 b) 根據(jù)三類客戶的數(shù)量，采用分層比例抽樣；需要采集的數(shù)據(jù)指標(biāo)

19、項有：客戶類別，改進計劃前周消費次數(shù)，改進計劃后周消費次數(shù)；選用統(tǒng)計方法為：分別針對A、B、C三類客戶，進行改進前和后的周消費次數(shù)的，兩獨立樣本T-檢驗（two-sample t-test）。點評：業(yè)務(wù)理解能力和數(shù)據(jù)分析思路，這是數(shù)據(jù)分析的核心競爭力。綜上所述：一個合格的數(shù)據(jù)分析應(yīng)該具備統(tǒng)計學(xué)基礎(chǔ)知識、數(shù)據(jù)分析方法、數(shù)據(jù)獲取、數(shù)據(jù)解讀和業(yè)務(wù)理解、數(shù)據(jù)分析思想幾個方面能力，即將成為數(shù)據(jù)分析師的親們，你們準(zhǔn)備好了嗎？ 2 、從騰訊（數(shù)據(jù)挖掘方向）筆試題目看技術(shù)儲備筆試內(nèi)容： 1.二叉樹遍歷：已知中序遍歷順序以及前序遍歷順序，求后序遍歷順序 2.SQL語句：找出QQset中最小的QQ號碼

20、3.encodeURI&URL傳播的轉(zhuǎn)義結(jié)果 4.36輛車，6條跑道，無計時器，最少幾次比賽可以選出前三 5.Windows/Linux下判斷遠程地址為某主機監(jiān)聽的某端口是都開放的命令是？ 6.html 網(wǎng)站cookie 7.cookie功能 8.哈希沖突 9.哪些http方法對于服務(wù)端和用戶是安全的 10.二維數(shù)組內(nèi)存地址計算 11.附加題：推導(dǎo)線性最小二乘法過程 12.附加題：概率計算（這個相當(dāng)簡單啦） 13.模型過擬合與哪些因素有關(guān)，寫出理由 3 、從百度（數(shù)據(jù)挖掘工程師）筆試題目看技術(shù)儲備簡答題. 一1. new 和 malloc 的區(qū)別。 2. hash沖突是指什么?怎么解決?給兩

21、種方法，寫出過程和優(yōu)缺點。 3. 命中的概率是 0.25，若要至少命中一次的概率不小于 0.75，則至少需要幾次? 二. 算法設(shè)計題 1. 用C/C+寫一個歸并排序。數(shù)據(jù)結(jié)構(gòu)為struct Nodeint v; Node *next; 接口為 Node * merge_sort(Node *); 2. 設(shè)計S型層次遍歷樹的算法，比如根節(jié)點是第一層，第二層從左至右遍歷，第三層從右至左遍歷，第四層再從左至右遍歷，以此類推。舉例：應(yīng)依次輸出 1 2 3 6 5 4 7 8 9。 3. 一個url文件，每行是一個url地址，可能有重復(fù)。 (1)統(tǒng)計每個url的頻次，設(shè)計函數(shù)實現(xiàn)實現(xiàn)。 (2)設(shè)有1

22、0億url，平均長度是20，現(xiàn)在機器有8G內(nèi)存，怎么處理，寫出思路。三. 系統(tǒng)設(shè)計題自然語言處理中的中文分詞問題，前向最大匹配算法(FMM)。注：題目舉例說明了FMM的基本思想。 (1)設(shè)計字典的數(shù)據(jù)結(jié)構(gòu) struct dictnote。 (2)用C/C+實現(xiàn)FMM，可選接口為 int FMM(vectoriLetters, dictnode *iRoot, vector*oResults); 其中 iLetters 為待分詞的句子，比如 “小”，“明”，“今”，“天”，“買”，“了”，“i”，“p”，“o”，“n”，“e”，“6”， iRoot 是字典， oResults 保存輸出結(jié)果

23、，即分詞的位置。也可以自己設(shè)計接口。 (3)收集了一些手機品牌的字典，如iphone, 諾基亞。現(xiàn)在要求查找包含這些手機品牌的網(wǎng)頁，比如包含 iphone6, 諾基亞 9973 等。怎么修改FMM實現(xiàn)這個功能，可以寫偽代碼。 4 、從搜狐（數(shù)據(jù)挖掘算法工程師）筆試題目看技術(shù)儲備筆試 1，類的繼承 2，資源互斥下的死鎖 3，一維數(shù)組，元素為指針，指針指向一個參數(shù)為Int，返回值為int的函數(shù) 4，進程間的通信方式 5， Const標(biāo)志符常量一定要？ 6， String的普通構(gòu)造函數(shù)，拷貝構(gòu)造函數(shù)，賦值函數(shù)，析構(gòu)函數(shù) 7， Strcpy函數(shù) 8， N個不同數(shù)的全排列，打印所有全排列

24、Sizeof(char name=”hello”) ，910，繼承的轉(zhuǎn)換（子類可以轉(zhuǎn)換成基類，基類不能轉(zhuǎn)換成子類，多繼承下同一子類的基類間不能相互轉(zhuǎn)換） 5 、從網(wǎng)易（數(shù)據(jù)挖掘研究員）筆試題目看技術(shù)儲備筆試 1，字符串匹配的算法復(fù)雜度（主串N,字串M）N+M 2，排序算法的穩(wěn)定性(快速排序為非穩(wěn)定) 3，平衡二叉樹的插入 4， 20個億整數(shù)的兩個集合a與b,求a與b的交集，內(nèi)存為4Gb 5，在N個無序數(shù)中找K個最小值 6，頁面文件的邏輯地址位（8個1024字放內(nèi)32幀內(nèi)存里） 7，計算機網(wǎng)絡(luò)各層應(yīng)用連接 8，哪一種模式不關(guān)心算法 Abstract Factory：提供一個創(chuàng)建

25、一系列相關(guān)或相互依賴對象的接口，而無需指定它們具體的類。（使用得非常頻繁。） Adapter：將一個類的接口轉(zhuǎn)換成客戶希望的另外一個接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些類可以一起工作。 Bridge：將抽象部分與它的實現(xiàn)部分分離，使它們都可以獨立地變化。 Builder：將一個復(fù)雜對象的構(gòu)建與它的表示分離，使得同樣的構(gòu)建過程可以創(chuàng)建不同的表示。 Chain of Responsibility：為解除請求的發(fā)送者和接收者之間耦合，而使多個對象都有機會處理這個請求。將這些對象連成一條鏈，并沿著這條鏈傳遞該請求，直到有一個對象處理它。 Command：將一個

26、請求封裝為一個對象，從而使你可用不同的請求對客戶進行參數(shù)化；對請求排隊或記錄請求日志，以及支持可取消的操作。 Composite：將對象組合成樹形結(jié)構(gòu)以表示“部分-整體”的層次結(jié)構(gòu)。它使得客戶對單個對象和復(fù)合對象的使用具有一致性。 Decorator：動態(tài)地給一個對象添加一些額外的職責(zé)。就擴展功能而言，它比生成子類方式更為靈活。 Facade：為子系統(tǒng)中的一組接口提供一個一致的界面， F a c a d e模式定義了一個高層接口，這個接口使得這一子系統(tǒng)更加容易使用。 Factory Method：定義一個用于創(chuàng)建對象的接口，讓子類決定將哪一個類實例化。Factory Method使一個類的實

27、例化延遲到其子類。 Flyweight：運用共享技術(shù)有效地支持大量細粒度的對象。 Interpreter：給定一個語言, 定義它的文法的一種表示，并定義一個解釋器, 該解釋器使用該表示來解釋語言中的句子。 Iterator：提供一種方法順序訪問一個聚合對象中各個元素, 而又不需暴露該對象的內(nèi)部表示。 Mediator：用一個中介對象來封裝一系列的對象交互。中介者使各對象不需要顯式地相互引用，從而使其耦合松散，而且可以獨立地改變它們之間的交互。 Memento：在不破壞封裝性的前提下，捕獲一個對象的內(nèi)部狀態(tài)，并在該對象之外保存這個狀態(tài)。這樣以后就可將該對象恢復(fù)到保存的狀態(tài)。所有依,以便當(dāng)一個對

28、象的狀態(tài)發(fā)生改變時,：定義對象間的一種一對多的依賴關(guān)系Observer賴于它的對象都得到通知并自動刷新。 Prototype：用原型實例指定創(chuàng)建對象的種類，并且通過拷貝這個原型來創(chuàng)建新的對象。 Proxy：為其他對象提供一個代理以控制對這個對象的訪問。 Singleton：保證一個類僅有一個實例，并提供一個訪問它的全局訪問點。 State：允許一個對象在其內(nèi)部狀態(tài)改變時改變它的行為。對象看起來似乎修改了它所屬的類。 Strategy：定義一系列的算法,把它們一個個封裝起來, 并且使它們可相互替換。本模式使得算法的變化可獨立于使用它的客戶。 Template Method：定義一個操作中的算法的

29、骨架，而將一些步驟延遲到子類中。Template Method使得子類可以不改變一個算法的結(jié)構(gòu)即可重定義該算法的某些特定步驟。 Visitor：表示一個作用于某對象結(jié)構(gòu)中的各元素的操作。它使你可以在不改變各元素的類的前提下定義作用于這些元素的新操作 9，數(shù)據(jù)庫系統(tǒng)的兩種語言（一種用于定義數(shù)據(jù)庫模式；另一種用于表達數(shù)據(jù)的查詢和更新） 10，數(shù)據(jù)庫的連接運算 11，建立索引的原則在經(jīng)常需要搜索的列上，可以加快搜索的速度；在作為主鍵的列上，強制該列的唯一性和組織表中數(shù)據(jù)的排列結(jié)構(gòu)；在經(jīng)常用在連接的列上，這些列主要是一些外鍵，可以加快連接的速度；在經(jīng)常需要根據(jù)范圍進行搜索的列上創(chuàng)建索引，因

30、為索引已經(jīng)排序，其指定的范圍是連續(xù)的；在經(jīng)常需要排序的列上創(chuàng)建索引，因為索引已經(jīng)排序，這樣查詢可以利用索引的排序，加快排序查詢時間；在經(jīng)常使用在WHERE子句中的列上面創(chuàng)建索引，加快條件的判斷速度。不應(yīng)該創(chuàng)建索引的的這些列具有下列特點：第一，對于那些在查詢中很少使用或者參考的列不應(yīng)該創(chuàng)建索引。這是因為，既然這些列很少使用到，因此有索引或者無索引，并不能提高查詢速度。相反，由于增加了索引，反而降低了系統(tǒng)的維護速度和增大了空間需求。第二，對于那些只有很少數(shù)據(jù)值的列也不應(yīng)該增加索引。這是因為，由于這些列的取值很少，例如人事表的性別列，在查詢的結(jié)果中，結(jié)果集的數(shù)據(jù)行占了表中數(shù)據(jù)行的很大比例，

31、即需要在表中搜索的數(shù)據(jù)行的比例很大。增加索引，并不能明顯加快檢索速度。第三，對于那些定義為text, image和bit數(shù)據(jù)類型的列不應(yīng)該增加索引。這是因為，這些列的數(shù)據(jù)量要么相當(dāng)大，要么取值很少。第四，當(dāng)修改性能遠遠大于檢索性能時，不應(yīng)該創(chuàng)建索引。這是因為，修改性能和檢索性能是互相矛盾的。當(dāng)增加索引時，會提高檢索性能，但是會降低修改性能。當(dāng)減少索引時，會提高修改性能，降低檢索性能。因此，當(dāng)修改性能遠遠大于檢索性能時，不應(yīng)該創(chuàng)建索引。 12，事務(wù)的定義與特點，事務(wù)隔離的級別事務(wù)（Transaction）是并發(fā)控制的單位，是用戶定義的一個操作序列。這些操作要么都做，要么都不做，是一個不

32、可分割的工作單位。通過事務(wù)，SQL Server能將邏輯相關(guān)的一組操作綁定在一起，以便服務(wù)器保持數(shù)據(jù)的完整性。事務(wù)的特性(ACID特性) A:原子性(Atomicity)，事務(wù)是數(shù)據(jù)庫的邏輯工作單位，事務(wù)中包括的諸操作要么全做，要么全不做。，事務(wù)執(zhí)行的結(jié)果必須是使數(shù)據(jù)庫從一個一致性狀態(tài)變到另一個一致(Consistency)一致性B:性狀態(tài)。一致性與原子性是密切相關(guān)的。 C:隔離性(Isolation)，一個事務(wù)的執(zhí)行不能被其他事務(wù)干擾。 D:持續(xù)性/永久性(Durability)，一個事務(wù)一旦提交，它對數(shù)據(jù)庫中數(shù)據(jù)的改變就應(yīng)該是永久性的。未授權(quán)讀?。ㄔ试S臟讀取，但不允許更新丟失），授

33、權(quán)讀?。ㄔ试S不可重復(fù)讀取，但不允許臟讀?。?，可重復(fù)讀?。ń共豢芍貜?fù)讀取和臟讀取，但是有時可能出現(xiàn)幻影數(shù)據(jù)）和序列化（事務(wù)序列化執(zhí)行，不能并發(fā)執(zhí)行） 13，專業(yè)題一數(shù)據(jù)挖掘的步驟 14， Pca的概念和處理過程（主成分分析） 15， K中心點聚類算法簡介首先為每個簇隨意選擇一下代表對象，將剩余的對象根據(jù)其與代表對象的距離分配給最近的一個簇。然后反復(fù)地用非代表對象來替代代表對象，以改進聚類的質(zhì)量。判定一個非代表對象O是否是當(dāng)前一個代表對象的O1的好的替代，對于每一個非代表對象p，下面的四種情況考慮。 1， p當(dāng)前屬于代表Oj,如果Oj被O代替，p離Oi最近，那么p被重新分配給Oi 2， p當(dāng)

34、前屬于代表Oj,如果Oj被O代替，p離O最近，那么p被重新分配給O 3， p當(dāng)前屬于代表Oi,如果Oj被O代替，p離Oi最近，那么p不變 4， p當(dāng)前屬于代表Oi,如果Oj被O代替，p離Oi最近，那么p被重新分配給O 16，中文分詞技術(shù)簡介，常用數(shù)據(jù)結(jié)構(gòu)和算法 17，分類器的主流評測指標(biāo)：準(zhǔn)確率，速率，魯棒性，可規(guī)模性和可解釋性 18，如何建立一個智能問答系統(tǒng)，思路 19，如何建立一個智能商品推薦系統(tǒng)，思路網(wǎng)易面試歸來，還不知道結(jié)果。對于數(shù)據(jù)分析師這個職位，網(wǎng)上的面經(jīng)很少，之前自己在網(wǎng)上找面經(jīng)時深感無經(jīng)可取，不知道技術(shù)面什么流程，面試官主要問什么，所以這里特地留個爪，供后生參考，作

35、為拋磚引玉，歡迎童鞋多發(fā)帖多交流，最最最重要的是攢 rp 求祝福攢 rp 求祝福攢 rp 求祝福：一面：女面試官，人和藹可親，經(jīng)常笑著肯定你的說法，讓人也不會太緊張。先自我介紹，然后她就針對我的實習(xí)經(jīng)歷問了一些問題，問的比較詳細，所以簡歷上做過的實習(xí)、項目一定要把流程理順、細節(jié)想清楚。簡歷問了大概二十分鐘，就開始問她準(zhǔn)備的問題，有： 1. 如果一個 APP 某一天的日活量異常，你怎么分析？ 2. 如何建立預(yù)測一個 APP 的用戶流失模型？可以創(chuàng)建哪些特征？跟面試官聊得很開心，沒什么壓力，感覺時間過的很快。二面：等到下午才有二面，一個不茍言笑的男面試官。照例先自我介紹，然后問了簡

36、歷，也比較詳細，跟一面差不多。技術(shù)問題有： 1. 敘述邏輯回歸原理 2. 有哪些分類、聚類算法，分類我說到 SVM ，他就讓我敘述 SVM 原理，如果數(shù)據(jù)有異常值怎么辦？（其實我不太懂 SVM ，只講了一點，異常值那里也不清楚，他提示了可以用正則化，這個我剛好熟悉他就又問了為什么要有正則化） 3. 數(shù)據(jù)分析有哪些步驟？你想做所有這些流程但不深入，還是專攻某一流程成為專家？我最擅長的是哪一個步驟？ 4. 選擇網(wǎng)易的一款產(chǎn)品，說說你怎么運用數(shù)據(jù)分析提高產(chǎn)品的熱度？（我回答的有道詞典，可以通過分析客戶流失挽回流失客戶，他說有道詞典不需要登陸，問我怎么得到用戶信息，這一點我沒答上來） 5. 如果要選

37、擇一個產(chǎn)品部門做分析，你會選擇哪一個產(chǎn)品，為什么三面：等了很久才等到三面，是總監(jiān)技術(shù)面，應(yīng)該是一個做了很久的老員工，除了簡歷，主要問我數(shù)據(jù)庫的建立、維護問題，他應(yīng)該對數(shù)據(jù)庫很了解，他問了：你覺得數(shù)據(jù)分析師最重要的特質(zhì)是什么。四面：三面到四面的時間就很短了，是 HR 面，然而并不像 HR 面試，像上一輪技術(shù)面的延續(xù)，問了我簡歷上的實習(xí)經(jīng)歷以及一些職場情景的對策： 1. 如果產(chǎn)品團隊要你完成某項分析工作，又不采取你的建議怎么辦 2. 產(chǎn)品團隊的人也懂?dāng)?shù)據(jù)分析，你覺得數(shù)據(jù)分析團隊存在的價值是什么？會不會被取代總結(jié)： 1. 面試整體不難，對自己要有信心 2. 做好充分的準(zhǔn)備（包括簡歷上的項

38、目、實習(xí)以及里面可能會問到的一些業(yè)務(wù)細節(jié)、技術(shù)點，如 APP分析、機器學(xué)習(xí)算法，面試公司的一些產(chǎn)品），不打無準(zhǔn)備之仗 3. 保持清晰的思路和敏捷的反應(yīng)，在面試官解釋問題時快速思考，有條理的回答，并且有意識地突出自己的優(yōu)勢 4. 在結(jié)束時一定要向面試官提一些有針對性的問題以表示感興趣，如果怕想不出來可以事先準(zhǔn)備一些常規(guī)的問題網(wǎng)易的員工都很nice，很愿意了解你，不會刻意刁難，以真誠、實事求是的態(tài)度對待每一個問題，呈現(xiàn)最真實、最優(yōu)秀的自己。 2015年8月19日，阿里校招數(shù)據(jù)分析師筆試題。共計21題（貌似統(tǒng)計漏了一題，應(yīng)該是單選少了一題，湊合看吧），選擇題每個人的都不一樣，問答題是一樣的。暫時沒有答案，希望對大家有用。單

人人文庫> 全部分類> 行業(yè)資料 > 商業(yè)貿(mào)易

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

完整版數(shù)據(jù)分析師筆試題目

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔