想去谷歌、微軟、Uber等大牛公司做數(shù)據(jù)分析,最新面試真題_第1頁
想去谷歌、微軟、Uber等大牛公司做數(shù)據(jù)分析,最新面試真題_第2頁
想去谷歌、微軟、Uber等大牛公司做數(shù)據(jù)分析,最新面試真題_第3頁
想去谷歌、微軟、Uber等大牛公司做數(shù)據(jù)分析,最新面試真題_第4頁
想去谷歌、微軟、Uber等大牛公司做數(shù)據(jù)分析,最新面試真題_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、【招聘海外留學(xué)生】想去谷歌、微軟、Uber等大牛公司做數(shù)據(jù)分析,最新面試真題(已分類)來自Glassdoor的最新數(shù)據(jù)可以告訴我們各大科技公司最近在招聘面試時最喜歡向候 選人提什么問題。首先有一個令人惋惜的結(jié)論:根據(jù)統(tǒng)計(jì),幾乎所有的公司都有著自己的不 同風(fēng)格。由于Glassdoor允許匿名提交內(nèi)容,很多樂于分享的應(yīng)聘者向大家提供了 Facebook、 谷歌、微軟等大公司的面試題。我們把其中的一部分列出以供大家參考。通用問題Apple如果你有幾百萬用戶,每個用戶都會發(fā)生數(shù)百筆交易,這些交易存在于數(shù)十種產(chǎn)品中。 你該如何把這些用戶細(xì)分成有意義的幾類?Microsoft描述一個你曾經(jīng)參與的項(xiàng)目,以及

2、它的優(yōu)點(diǎn)。如何處理具有高基數(shù)(high-cardinality)的類屬特征?如果想要給Twitterfeed寫summarize,你要怎么辦?在應(yīng)用機(jī)器學(xué)習(xí)算法之前糾正和清理數(shù)據(jù)的步驟是什么?如何測量數(shù)據(jù)點(diǎn)之間的距離?請定義一下方差。請描述箱形圖(boxplot)和直方圖(histogram)之間的差異,以及它們的用例。Twitter你會使用什么功能來為用戶構(gòu)建推薦算法?Uber選擇任何一個你真正喜歡的產(chǎn)品或應(yīng)用程序,并描述如何改善它。如何在分布中發(fā)現(xiàn)異常?如何檢查分布中的某個趨勢是否是由于異常產(chǎn)生的?如何估算Uber對交通和駕駛環(huán)境造成的影響?你會考慮用什么指標(biāo)來跟蹤Uber付費(fèi)廣告策略在吸

3、引新用戶上是否有效?然后,你 想用什么辦法估算出理想的客戶購置成本?LinkedIn(對大數(shù)據(jù)工程師)請解釋REST是什么。機(jī)器學(xué)習(xí)問題Google為什么要使用特征選擇(featureselection)?如果兩個預(yù)測變量高度相關(guān),它們對邏輯回歸系數(shù)的影響是什么?系數(shù)的置信區(qū)間是 什么?高斯混合模型(GaussianMixtureModel)和K-Means之間有什么區(qū)別?在K-Means中如何拾取k?你如何知道高斯混合模型是不是適用的?假設(shè)聚類模型的標(biāo)簽是已知的,你如何評估模型的性能?Microsoft你有哪些引以為豪的機(jī)器學(xué)習(xí)項(xiàng)目?隨便找一個機(jī)器學(xué)習(xí)算法,然后描述它。請解釋Gradient

4、Boosting是如何工作的。(對數(shù)據(jù)挖掘工程師)請解釋決策樹模型。(對數(shù)據(jù)挖掘工程師)什么是神經(jīng)網(wǎng)絡(luò)?請解釋偏差方差權(quán)衡(Bias-VarianceTradeoff)。如何處理不平衡二進(jìn)制分類?L1和L2正則化之間有什么區(qū)別?Uber你會通過哪種特征來預(yù)測Uber司機(jī)是否會接受訂單請求?你會使用哪種監(jiān)督學(xué)習(xí)算 法來解決這個問題,如何比較算法的結(jié)果?LinkedIn點(diǎn)出及描述三種不同的內(nèi)核函數(shù),在哪些情況下使用哪種?隨意解釋機(jī)器學(xué)習(xí)里的一種方法。如何應(yīng)付稀疏數(shù)據(jù)?IBM如何防止過擬合(overfitting)?如何處理數(shù)據(jù)中的離群值?如何評估邏輯回歸與簡單線性回歸模型預(yù)測的性能?監(jiān)督學(xué)習(xí)和無監(jiān)

5、督學(xué)習(xí)有什么區(qū)別?什么是交叉驗(yàn)證(cross-validation),為什么要使用它?用于評估預(yù)測模型的矩陣的名稱是什么?邏輯回歸系數(shù)和勝算比(OddsRatio)之間存在什么關(guān)系?主成分分析(PCA)和線性和二次判別分析(LDA和QDA)之間的關(guān)系是什么?如果你有一個因變量分類,又有一個連續(xù)自變量的混合分類,你將使用什么算法,方 法或工具進(jìn)行分析?(對行業(yè)分析師)邏輯與線性回歸有什么區(qū)別?如何避免局部極小值?Salesforce你會使用哪些數(shù)據(jù)和模型來測量損耗/流失?如何測試模型性能?假設(shè)我是一名非技術(shù)人員,請向我解釋一種機(jī)器學(xué)習(xí)算法。CapitalOne如何構(gòu)建一個模型來預(yù)測信用卡詐騙?如

6、何處理丟失或不良數(shù)據(jù)?如何從已存在的特征中導(dǎo)出新的特征?如果你試圖預(yù)測客戶的性別,但只有100個數(shù)據(jù)點(diǎn),可能會出現(xiàn)什么問題?在擁有兩年交易歷史的情況下,哪些特征可以用來預(yù)測信用風(fēng)險?請?jiān)O(shè)計(jì)一個用來下井字棋的人工智能程序。Zillow請解釋過擬合,以及如何防止過擬合。為什么SVM需要在支持向量之間最大化邊緣?HadoopTwitter如何使用Map/Reduce將非常大的圖形分割成更小的塊,并根據(jù)數(shù)據(jù)的快速/動態(tài)變化 并行計(jì)算它們的邊緣?(對數(shù)據(jù)工程師)給定一個列表:123,345234,678345,123其中第一列是粉絲的ID, 第二列是被粉者的ID。查找所有相互后續(xù)對(上面的示例中的對是1

7、23, 345)。當(dāng)列表超 出內(nèi)存時,如何使用Map/Reduce來解決問題?CaptialOne(對數(shù)據(jù)工程師)什么是Hadoop序列化(serialization)?解釋一個簡單的Map/Reduce問題。HiveLinkedIn(對數(shù)據(jù)工程師)請編寫返回情感分?jǐn)?shù)的HiveUDF。例如,假如好二1,壞=-1,平均 數(shù)=0,那么對餐廳做評價時因?yàn)槭澄锖茫?wù)差,你的分?jǐn)?shù)可能為1-1二0SparkCaptialOne(對數(shù)據(jù)工程師)用Scala語言,RDD在Spark中是如何工作的?統(tǒng)計(jì)和概率問題Google假設(shè)我是一名非技術(shù)人員,請向我解釋一下交叉驗(yàn)證(Cross-validation)。請

8、描述一下非正態(tài)概率分布,隨后告訴我們它該如何應(yīng)用?Microsoft(對數(shù)據(jù)挖掘)請解釋異方差(heteroskedasticity)是什么,以及如何解決它。Twitter在給定Twitter用戶數(shù)據(jù)的情況下,你該如何衡量參與度?Uber時間序列預(yù)測技術(shù)有什么不同?解釋原理組件分析(PrincipleComponentAnalysis, PCA)和PCA使用的方程。如何解決多重共線性(Multicollinearity)?(對分析師)請寫一個方程,優(yōu)化我們在Twitter和Facebook上的廣告費(fèi)用支出。Facebook在一副牌中抽取兩張,出現(xiàn)同一花色的概率是多少?IBM1.什么是p-val

9、ue和置信區(qū)間?CapitalOne(對數(shù)據(jù)分析師)如果你有70個紅色彈珠,綠色和紅色彈珠的比例是2比7,有多 少綠色彈珠?紐約市的通勤數(shù)據(jù)看起來應(yīng)該遵從什么分布?一個骰子,在扔6次的情況下出現(xiàn)1個6的幾率,與扔12次的情況下出現(xiàn)至少兩個 6的幾率,和扔600次出現(xiàn)至少100次6的幾率相比哪個大?Paypal1.什么是中心極限定理(CentralLimitTheorem),如何證明它?它的應(yīng)用方向是什么?編程和算法Google1.(對數(shù)據(jù)分析師)請寫一個程序可以判定二叉樹的高度。Microsoft1.請創(chuàng)建一個函數(shù)檢查一個詞是否具有回文結(jié)構(gòu)。Twitter請構(gòu)建一個冪集(powerset)。請

10、問如何在一個巨大的數(shù)據(jù)集中找到中值?Uber1.(對數(shù)據(jù)工程師)編寫一個函數(shù)用來計(jì)算給定數(shù)字的平方根(2個小數(shù)點(diǎn)精度)。隨 后:避免冗余計(jì)算,現(xiàn)在使用緩存機(jī)制優(yōu)化你的功能。Facebook假設(shè)給定兩個二進(jìn)制字符串,寫一個函數(shù)將它們添加在一起,而不使用任何內(nèi)置的字 符串到int轉(zhuǎn)換或解析工具。例如:如果給函數(shù)二進(jìn)制字符串100和111,它應(yīng)該返回1011。 你的解決方案的空間和時間復(fù)雜性如何?編寫一個函數(shù),它接受兩個已排序的列表,并在排序列表中返回它們的并集。LinkedIn(對數(shù)據(jù)工程師)請編寫一些代碼來確定字符串中的左右括號是否是平衡的?如何找到二叉搜索樹中第二大的元素?請編寫一個函數(shù),它接

11、受兩個排序的向量,并返回一個排序的向量。如果你有一個輸入的數(shù)字流,如何在運(yùn)行過程中找到最頻繁出現(xiàn)的數(shù)字?編寫一個函數(shù),將一個數(shù)字增加到另一個數(shù)字,就像pow()函數(shù)一樣。將大字符串拆分成有效字段并將它們存儲在dictionary中。如果字符串不能拆分, 返回false。你的解決方案的復(fù)雜性如何?CaptialOne(對數(shù)據(jù)工程師)如何拆散兩個數(shù)列(就像SQL中的JOIN反過來)?請創(chuàng)建一個用于添加的函數(shù),數(shù)字表示為兩個鏈表。請創(chuàng)建一個計(jì)算矩陣的函數(shù)。如何使用Python讀取一個非常大的制表符分隔的數(shù)字文件,來計(jì)算每個數(shù)字出現(xiàn)的 頻率?Paypal請編寫一個函數(shù),讓它能在O(n)的時間內(nèi)取一個句

12、子并逆向打印出來。請編寫一個函數(shù),從一個數(shù)組中拾取,將它們分成兩個可能的數(shù)組,然后打印兩個數(shù) 組之間的最大差值(在O(n)時間內(nèi))。請編寫一個執(zhí)行合并排序的程序。SQL問題Microsoft(對數(shù)據(jù)分析師)定義和解釋聚簇索引和非聚簇索引之間的差異。(對數(shù)據(jù)分析師)返回表的行計(jì)數(shù)有哪些不同的方法?Facebook(對數(shù)據(jù)工程師)如果給定一個原始數(shù)據(jù)表,如何使用SQL執(zhí)行ETL (提取,轉(zhuǎn)換, 加載)以獲取所需格式的數(shù)據(jù)?如何編寫SQL查詢來計(jì)算涉及兩個連接的某個屬性的頻率表?如果你想要ORDERBY 或GROUPBY 一些屬性,你需要做什么變化?你該怎么解釋NULL?LinkedIn1.(對數(shù)據(jù)工程師)如何改進(jìn)ETL (提取,轉(zhuǎn)換,加載)的吞吐量?智力游戲Google1.假設(shè)你有10包彈球,每包里面都是10個彈球。如果其中一包的重量和其他的不同, 但你只能進(jìn)行一次稱重,你該用什么辦法?Facebook你打算坐飛機(jī)去西雅圖,想知道是不是需要帶傘,于是你分別打電話給三位在西雅圖 的朋友。每個朋友都有2/3的幾率說真話,1/3的幾率在騙你。如果他們都說會下雨, 西雅圖下雨的概率是多少?假如在一個等邊三角形的三個角上都有一只螞蟻,每只隨機(jī)選擇方向然后直走一直到 另一個邊緣,三只螞蟻互相不交匯的幾率是多少?如果有n只螞蟻在n角形中,概率又是多 少

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論