![大數(shù)據(jù)面試寶典_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/1/d0a0da56-b582-4279-b1d6-048e9186415f/d0a0da56-b582-4279-b1d6-048e9186415f1.gif)
![大數(shù)據(jù)面試寶典_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/1/d0a0da56-b582-4279-b1d6-048e9186415f/d0a0da56-b582-4279-b1d6-048e9186415f2.gif)
![大數(shù)據(jù)面試寶典_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/1/d0a0da56-b582-4279-b1d6-048e9186415f/d0a0da56-b582-4279-b1d6-048e9186415f3.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)面試寶典智游大數(shù)據(jù)4 期就業(yè)取得了可喜的成績,但是也有拿到offer的同學(xué)表示,在面試的時(shí)候,面對咄咄逼人的面試官,內(nèi)心是崩潰的(但你還是拿到offer了?。?。所以小智的這篇文章的意義就是定心丸。大數(shù)據(jù)涉及方向較多,本文以大數(shù)據(jù)算法為主。共包括以下五方面:機(jī)器學(xué)習(xí)、大數(shù)據(jù)相關(guān)崗位的職責(zé)面試問題答題思路準(zhǔn)備建議總結(jié)大數(shù)據(jù)算法相關(guān)崗位的職責(zé)由于各個(gè)企業(yè)對這大數(shù)據(jù)類崗位的命名可能有所不同,比如數(shù)據(jù)挖掘/ 自然語言處理/ 機(jī)器學(xué)習(xí)算法工程師,有的簡稱算法工程師,還有的稱為搜索/ 推薦算法工程師等,甚至有的并入后臺工程師的范疇,所以同學(xué)們在投簡歷時(shí)還要視崗位得具體要求而定。1 、平臺搭建類數(shù)據(jù)計(jì)算
2、平臺搭建,基礎(chǔ)算法實(shí)現(xiàn),當(dāng)然,要求支持大樣本量、高維度數(shù)據(jù),所以可能還需要底層開發(fā)、并行計(jì)算、分布式計(jì)算等方面的知識;2 、算法研究類1) 文本挖掘,如領(lǐng)域知識圖譜構(gòu)建、垃圾短信過濾等;2) 推薦,廣告推薦、 APP 推薦、題目推薦、新聞推薦等;3) 排序,搜索結(jié)果排序、廣告排序等;4) 廣告投放效果分析;5) 互聯(lián)網(wǎng)信用評價(jià);6 )圖像識別、理解。3 、數(shù)據(jù)挖掘類商業(yè)智能,如統(tǒng)計(jì)報(bào)表;用戶體驗(yàn)分析,預(yù)測流失用戶。下面先介紹一些面試中可能會遇到的一些問題, 然后談一談答題思路和面試心理準(zhǔn)備上的一些建議。面試問題1 、你在研究 / 項(xiàng)目 / 實(shí)習(xí)經(jīng)歷中主要用過哪些機(jī)器學(xué)習(xí)/ 數(shù)據(jù)挖掘的算法?2
3、、你熟悉的機(jī)器學(xué)習(xí)/ 數(shù)據(jù)挖掘算法主要有哪些?3 、你用過哪些機(jī)器學(xué)習(xí)/ 數(shù)據(jù)挖掘工具或框架?4 、基礎(chǔ)知識A 、無監(jiān)督和有監(jiān)督算法的區(qū)別?B 、 SVM 的推導(dǎo),特性?多分類怎么處理?C、 LR的推導(dǎo),特性?D 、決策樹的特性?E、 SVM 、 LR 、決策樹的對比?F、 GBDT和決策森林的區(qū)別?G、如何判斷函數(shù)凸或非凸?H 、解釋對偶的概念。I 、如何進(jìn)行特征選擇?J 、為什么會產(chǎn)生過擬合,有哪些方法可以預(yù)防或克服過擬合?K 、介紹卷積神經(jīng)網(wǎng)絡(luò),和DBN有什么區(qū)別?L 、采用EM算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?M 、用EM算法推導(dǎo)解釋Kmeans。N 、用過哪些聚類算
4、法,解釋密度聚類算法。O、聚類算法中的距離度量有哪些?P 、如何進(jìn)行實(shí)體識別?Q、解釋貝葉斯公式和樸素貝葉斯分類。R、寫一個(gè)Hadoop版本的wordcount。5 、開放問題A 、給你公司內(nèi)部群組的聊天記錄,怎樣區(qū)分出主管和員工?B 、如何評估網(wǎng)站內(nèi)容的真實(shí)性(針對代刷、作弊類)?C、深度學(xué)習(xí)在推薦系統(tǒng)上可能有怎樣的發(fā)揮?D 、路段平均車速反映了路況,在道路上布控采集車輛速度,如何對路況做出合理估計(jì)?E、采集數(shù)據(jù)中的異常值如何處理?F、如何根據(jù)語料計(jì)算兩個(gè)詞詞義的相似度?G、在百度貼吧里發(fā)布APP廣告,問推薦策略?H 、如何判斷自己實(shí)現(xiàn)的LR 、 Kmeans算法是否正確?I 、100億數(shù)字
5、,怎么統(tǒng)計(jì)前100大的?答題思路1 、用過什么算法?A 、最好是在項(xiàng)目 / 實(shí)習(xí)的大數(shù)據(jù)場景里用過,比如推薦里用過CF 、LR ,分類里用過SVM 、GBDT ;B 、一般用法是什么,是不是自己實(shí)現(xiàn)的,有什么比較知名的實(shí)現(xiàn),使用過程中踩過哪些坑;C、優(yōu)缺點(diǎn)分析。2 、熟悉的算法有哪些?A 、基礎(chǔ)算法要多說,其它算法要挑熟悉程度高的說,不光列舉算法, 也適當(dāng)說說應(yīng)用場合;B 、面試官和你的研究方向可能不匹配,不過在基礎(chǔ)算法上你們還是有很多共同語言的,你說得太高大上可能效果并不好, 一方面面試官還是要問基礎(chǔ)的, 另一方面一旦面試官突發(fā)奇想讓你給他講解高大上的內(nèi)容,而你只是泛泛的了解,那你就懵逼了。
6、3 、用過哪些框架/ 算法包?A 、主流的分布式框架如Hadoop, Spark , Graphlab,Parameter Server等擇一或多使用了解;B 、通用算法包,如mahout,scikit , weka等;C、專用算法包,如opencv , theano, torch7, ICTCLAS等。4 、基礎(chǔ)知識A 、高頻話題是SVM 、 LR 、決策樹(決策森林)和聚類算法,要重點(diǎn)準(zhǔn)備;B 、算法要從以下幾個(gè)方面來掌握a.產(chǎn)生背景,適用場合(數(shù)據(jù)規(guī)模,特征維度,是否有Online算法,離散 / 連續(xù)特征處理等角度);b.原理推導(dǎo)(最大間隔,軟間隔,對偶);c.求解方法(隨機(jī)梯度下降、擬
7、牛頓法等優(yōu)化算法);d. 優(yōu)缺點(diǎn),相關(guān)改進(jìn);e.和其他基本方法的對比;C、不能停留在能看懂的程度,還要f.對知識進(jìn)行結(jié)構(gòu)化整理,比如撰寫自己的cheet sheet,我覺得面試是在有限時(shí)間內(nèi)向面試官輸出自己知識的過程,如果僅僅是在面試現(xiàn)場才開始調(diào)動知識、組織表達(dá), 總還是不如系統(tǒng)的梳理準(zhǔn)備;g.從面試官的角度多問自己一些問題,通過查找資料總結(jié)出全面的解答,比如如何預(yù)防或克服過擬合。開放問題A 、由于問題具有綜合性和開放性,所以不僅僅考察對大數(shù)據(jù)算法的了解,還需要足夠的實(shí)戰(zhàn)經(jīng)驗(yàn)作基礎(chǔ);B 、先不要考慮完善性或可實(shí)現(xiàn)性,調(diào)動你的一切知識儲備和經(jīng)驗(yàn)儲備去設(shè)計(jì),有多少說多少,想到什么說什么,方案都是在
8、你和面試官討論的過程里逐步完善的,不過面試官有兩種風(fēng)格:引導(dǎo)你思考考慮不周之處or指責(zé)你沒有考慮到某些情況,遇到后者的話還請注意靈活調(diào)整答題策略;C、和同學(xué)朋友開展討論,可以從上一節(jié)列出的問題開始。心態(tài)建議1 、面試過程中大家是平等的。不要太弱勢也不要太強(qiáng)勢。2 、把你之前的項(xiàng)目經(jīng)驗(yàn)有條理的表達(dá)出來。3 、面試一些問題的時(shí)候,可以想一想,并不是所有的問題必須別人一問完,立即回答。4 、把面試當(dāng)作一種學(xué)習(xí)與經(jīng)歷。關(guān)鍵是從一些面試中你能發(fā)現(xiàn)自己不足。小 tips1 、面試之前花點(diǎn)時(shí)間在面試公司和崗位,了解一下人家公司是干什么,如果你對這家公司特別感興趣, 去網(wǎng)站上看看, 去體驗(yàn)一下人家公司的產(chǎn)品和服務(wù)。會讓面試的人感覺到尊重。2 、如果有認(rèn)識的人或者通過一些渠道先了解一下你面試的公司,部門情況到底是怎么樣的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)境保護(hù)行業(yè)污染物排放治理方案
- 2025年益陽c1貨運(yùn)從業(yè)資格證考試題
- 2025年廊坊貨運(yùn)上崗證考試題答案
- 小學(xué)二年級數(shù)學(xué)下冊口算題
- 小學(xué)二年級數(shù)學(xué)上冊口算練習(xí)試題
- 2025年東營貨運(yùn)運(yùn)輸駕駛員從業(yè)資格證考試試題
- 2024-2025版高中化學(xué)第4章非金屬及其化合物第3節(jié)第1課時(shí)硫和硫的氧化物練習(xí)含解析新人教版必修1
- 社區(qū)社會實(shí)踐活動總結(jié)
- 初中班主任下學(xué)期工作總結(jié)
- 醫(yī)務(wù)人員工作計(jì)劃
- 道德經(jīng)全文完整版本
- 濰坊市人民醫(yī)院招聘真題
- 銷售人員薪資提成及獎勵制度
- 2023年宏觀經(jīng)濟(jì)學(xué)考點(diǎn)難點(diǎn)
- 先兆流產(chǎn)課件-課件
- 黑龍江申論真題2021年(鄉(xiāng)鎮(zhèn))
- 山體排險(xiǎn)合同模板
- 醫(yī)保專(兼)職管理人員的勞動合同(2篇)
- 特殊感染手術(shù)的配合與術(shù)后處理課件
- 檢驗(yàn)科生物安全工作總結(jié)
- 《ESPEN重癥病人營養(yǎng)指南(2023版)》解讀課件
評論
0/150
提交評論