版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1.1 Hadoop 1.2Java1.3 1.4 scala的函數(shù)式編1.5 tcp,udp 網(wǎng)絡(luò)七層和網(wǎng)絡(luò)四層,它們的區(qū)別是什數(shù)據(jù)數(shù)據(jù)的具體文件是什么,有幾種1.8 myisam innodb 1.9 1.10 explainshowprofile1.1 Hadoop 1.2Java1.3 1.4 scala的函數(shù)式編1.5 tcp,udp 網(wǎng)絡(luò)七層和網(wǎng)絡(luò)四層,它們的區(qū)別是什數(shù)據(jù)數(shù)據(jù)的具體文件是什么,有幾種1.8 myisam innodb 1.9 1.10 explainshowprofile的具體應(yīng)1.11redis的五種基本類型,redis AOF是什么redis 哨兵模1.12 f
2、lume 有哪些組件,flume 的 source、channel、sink 具體是做什么的1.13 kafka 的balance 是怎么做的kafka 的消費(fèi)者有幾種模式的塊大小,從哪個版本開始是 數(shù)據(jù)傾斜問題ETL 是哪三個單詞的縮寫區(qū)區(qū)1.18 RDD、DataFrame、DataSet 1.19 spark driver worker 架1.20 akka netty 架1.21 spark 算子類型,它的工作機(jī)制1.22 Linux 常用命令CentOS 查看版本令你對于 Spark 官網(wǎng)哪里印象比較深用英語介紹下 Spark 2.1 用1.18 RDD、DataFrame、Data
3、Set 1.19 spark driver worker 架1.20 akka netty 架1.21 spark 算子類型,它的工作機(jī)制1.22 Linux 常用命令CentOS 查看版本令你對于 Spark 官網(wǎng)哪里印象比較深用英語介紹下 Spark 2.1 用 java 寫出單例模式(多種方法加分寫一種常見的排序算法并分析時間復(fù)雜輸入字符串輸出判斷輸入是否是一個數(shù)2.1.4 Filef數(shù)據(jù)格式如下: 區(qū)框框區(qū)2.2 面試中問到的題2.2.1udf的種 2.2.3 spark job 的提2.2 面試中問到的題2.2.1udf的種 2.2.3 spark job 的提交,處理過sparkS
4、treaming eByKey 底層是如何實(shí)現(xiàn)保存數(shù)據(jù)原來的的還有一些關(guān)于你項目的具體問題你是如何實(shí)現(xiàn) flume 數(shù)據(jù)傳輸?shù)牡慕o你一個數(shù)組里面有奇數(shù)、偶數(shù),寫一個算法實(shí)現(xiàn)奇數(shù)全在最左側(cè)偶數(shù),全在最右側(cè)三3.1 面3.1.1 hdfs 是否了解?hdfs 具體在哪查看?3.1.2resourceManager在哪查公司的集公司的數(shù)據(jù)量?(去了公司說的是否了解具體工作地點(diǎn),離職原因,稅前稅后薪資。數(shù)倉有多少層?公司有沒有用 spark?用的是哪個版本?hdfs 。3.2 技術(shù)總監(jiān)面公司是用的大數(shù)據(jù)集群吧?來給我畫一的集群規(guī)模3.2.2 公司的數(shù)據(jù)量?(去了公司說的是否了解具體工作地點(diǎn),離職原因,
5、稅前稅后薪資。數(shù)倉有多少層?公司有沒有用 spark?用的是哪個版本?hdfs 。3.2 技術(shù)總監(jiān)面公司是用的大數(shù)據(jù)集群吧?來給我畫一的集群規(guī)模3.2.2 flume 的 ink,channel 的作用?是什么類型?3.2.3 Hive3.2.4 3.2.5 3.2.6 hadoop3.2.7 1Gmark 分組,id 排序,手寫一個 MapReduce?其中有幾個4.1 技術(shù)總監(jiān)面4.1.1 4.1.2flume配置參flume 每分鐘產(chǎn)生的數(shù)據(jù)4.1.3hdfs 4.1.5spark3.2.6 hadoop3.2.7 1Gmark 分組,id 排序,手寫一個 MapReduce?其中有幾個
6、4.1 技術(shù)總監(jiān)面4.1.1 4.1.2flume配置參flume 每分鐘產(chǎn)生的數(shù)據(jù)4.1.3hdfs 4.1.5sparkUDAF4.1.6 hive4.1.7HiveUDF4.1.8 sparkstreaming 的窗口函4.1.9Redis在哪用 該怎么打解決辦法4.1.10 Storm 生產(chǎn)上用過嗎jar jarstorm4.1.10 Storm 生產(chǎn)上用過嗎jar jarstorm4.1.11HDFSHive 5.1 技術(shù)總監(jiān)面5.1.1 Java 怎么處理同步鎖怎么加鎖在什么時候會5.1.2equals5.1.3 Scala 樣例類怎么使用 Scala (相當(dāng)于 Java 中的 的
7、類5.1.4(壓5.1.5 Yarn 調(diào)度5.1.6 HDFS5.1.7Hive5.1.8Hbase讀寫請求會集中到某一個 RegionServer 上 如何處5.1 技術(shù)總監(jiān)面5.1.1 Java 怎么處理同步鎖怎么加鎖在什么時候會5.1.2equals5.1.3 Scala 樣例類怎么使用 Scala (相當(dāng)于 Java 中的 的類5.1.4(壓5.1.5 Yarn 調(diào)度5.1.6 HDFS5.1.7Hive5.1.8Hbase讀寫請求會集中到某一個 RegionServer 上 如何處5.1.9linux 5.1.10SparkStreaming kafka(receiver 5.1.1
8、1 kafka少(數(shù)據(jù)多一點(diǎn)) 5.1.12 如果沒有實(shí)現(xiàn)精確一次, 實(shí)現(xiàn)至少一次 會有重復(fù)的數(shù)據(jù)進(jìn)入下游6.1 優(yōu)化必問 為什么 kafka 可以實(shí)現(xiàn)高吞吐?單節(jié)點(diǎn) kafka 的吞吐量也比其他消息隊列大,為什么?6.1.3 鏈表轉(zhuǎn)置/如果寫了 JVM 調(diào)優(yōu):堆內(nèi)存溢出如何查看解決,用的那些命令工具;不同?6.1.5hiveudf一個字符串jasonbbtomccjackddfftomkk,如果相鄰兩個字符相同視為一優(yōu)化必問 為什么 kafka 可以實(shí)現(xiàn)高吞吐?單節(jié)點(diǎn) kafka 的吞吐量也比其他消息隊列大,為什么?6.1.3 鏈表轉(zhuǎn)置/如果寫了 JVM 調(diào)優(yōu):堆內(nèi)存溢出如何查看解決,用的那
9、些命令工具;不同?6.1.5hiveudf一個字符串jasonbbtomccjackddfftomkk,如果相鄰兩個字符相同視為一個切 wordcount(注意會有多個連續(xù)相同的情況如aabbccdd,還有要問清出現(xiàn)三個或者多個怎么算6.1.7sparkmap6.1.8 kafka 的偏移量 offset 存放在哪兒,為什6.1.9linuxio 端口 進(jìn)程七7.1 7.1.1 hadoop 二次排序|表怎么實(shí)現(xiàn)的|切片,shuffle,reduce 階段階段,Yarn流程| combiner使用場景|sort快排手寫| |ETL細(xì)節(jié)|reduce7.1.2io7.1.3 7.1.4hadoo
10、p 7.1.5 7.1.6 說一下你了解的 算法(優(yōu)勢,劣勢) full gcfull 七7.1 7.1.1 hadoop 二次排序|表怎么實(shí)現(xiàn)的|切片,shuffle,reduce 階段階段,Yarn流程| combiner使用場景|sort快排手寫| |ETL細(xì)節(jié)|reduce7.1.2io7.1.3 7.1.4hadoop 7.1.5 7.1.6 說一下你了解的 算法(優(yōu)勢,劣勢) full gcfull 索引的大小如查看當(dāng)前進(jìn)程的 7.1.7fullGCold GC7.1.8 7.1.9 手寫:7.1.10javaEE 7.1.11 八8.1 筆8.2 8.2.1pv8.2.2ES8.
11、2.3SparkStreaming 8.2.4 sparkstreaming 8.2.5 ALS 模型參數(shù)調(diào)優(yōu)8.3 做大數(shù)據(jù)多久?ES 集群多大?配置怎么樣?服務(wù)器配置?數(shù)據(jù)量?處理速度?ES 化?主要負(fù)責(zé)那個模塊?項目的架構(gòu)和工作流?的 Flume 怎么做數(shù)據(jù)?有沒有做 UDFUDFHiveSQL MapReduce join join數(shù)據(jù)分析有沒有用過算法?在項目中主要的工作是什么ETL 協(xié)8.2 8.2.1pv8.2.2ES8.2.3SparkStreaming 8.2.4 sparkstreaming 8.2.5 ALS 模型參數(shù)調(diào)優(yōu)8.3 做大數(shù)據(jù)多久?ES 集群多大?配置怎么樣?
12、服務(wù)器配置?數(shù)據(jù)量?處理速度?ES 化?主要負(fù)責(zé)那個模塊?項目的架構(gòu)和工作流?的 Flume 怎么做數(shù)據(jù)?有沒有做 UDFUDFHiveSQL MapReduce join join數(shù)據(jù)分析有沒有用過算法?在項目中主要的工作是什么ETL 協(xié)同過濾、隨機(jī)森林、能不能靠自己經(jīng)驗完成?Bug wordCount 機(jī)MapReducekey 項目中使用 Hive 的作用?建的是外表?有沒有試過 OZ 調(diào)度 集群用的什么有沒有用過HDP 有沒有使用OZ 調(diào)度集群用的什么有沒有用過HDP 有沒有使用OZ 調(diào)度hadoop 任務(wù)9.1 數(shù)據(jù)分析部門筆9.2 spark spark 哪個版本消費(fèi)過的消息如何再
13、消費(fèi)redis 版本多集群怎么部署的用idea 寫快速排序spark數(shù)據(jù)傾斜怎么處理整個業(yè)務(wù)數(shù)據(jù)的流向mr spark shuffle 的區(qū)環(huán)形數(shù)組怎么設(shè)置最大能設(shè)置多redis 分布式鎖怎么實(shí)現(xiàn)9.2 spark spark 哪個版本消費(fèi)過的消息如何再消費(fèi)redis 版本多集群怎么部署的用idea 寫快速排序spark數(shù)據(jù)傾斜怎么處理整個業(yè)務(wù)數(shù)據(jù)的流向mr spark shuffle 的區(qū)環(huán)形數(shù)組怎么設(shè)置最大能設(shè)置多redis 分布式鎖怎么實(shí)現(xiàn)rdd dateset 的區(qū)ScalaScalaScalayarn 的組件說說他們的功能spark 一個 excutor 給多大內(nèi)幾種部署模式還有他們
14、的區(qū)別你運(yùn)行程序是nt還是cluster 為什說出git 的幾個常用命名git 如何切換分支對 hive 的理解做過哪些優(yōu)化現(xiàn)有兩張大表所有字段都得保留不能再過濾了 join 操作就發(fā)生 oom 怎么解決的 page 路徑日志分析如何求出用戶三表的 join的 page 路徑日志分析如何求出用戶三表的 join 求銷量,order的統(tǒng)計(記得不了)就是三表 join 求統(tǒng)計10.1 筆10.2 10.2 11.1 Java11.2Java11.3 對池的了解(線程池、數(shù)據(jù)庫連接池),Java 線程池都有哪些組件,具體作用是什么11.4 Spring 11.6 11.7 Hadoop12.1 1
15、2.2 10GSpark12.3myisaminnodb12.411.1 Java11.2Java11.3 對池的了解(線程池、數(shù)據(jù)庫連接池),Java 線程池都有哪些組件,具體作用是什么11.4 Spring 11.6 11.7 Hadoop12.1 12.2 10GSpark12.3myisaminnodb12.4zkwatch12.5 mr12.6mr12.7 Spark12.8 Spark 有哪兩種算子,為什么遇到 action 操作的算子才會執(zhí)行e14.1 筆e14.1 筆筆面筆面1、業(yè)務(wù)架構(gòu)2、根據(jù)項目業(yè)務(wù)介紹技術(shù)3、手寫歸并排序4、用遞歸實(shí)那契數(shù)列第 100 項的值(第一項和第二
16、項分別為 0 和 手5、算法和數(shù)據(jù)結(jié)構(gòu)了解到什么程度、知道多少6、Java 中的數(shù)據(jù)結(jié)構(gòu),ArrayList 和 LinkedList 的區(qū)別,ArrayList 為什么查詢快(為什么用數(shù)組就快)、LinkedList 為什么增刪快,哪些 Map 是線程安全的7、JavaNIO8、Java 多線程(什么 wait、9、MapReduce 的 shuffle 過程(手畫,邊畫邊介紹)reduce 是怎么到 map1、業(yè)務(wù)架構(gòu)2、根據(jù)項目業(yè)務(wù)介紹技術(shù)3、手寫歸并排序4、用遞歸實(shí)那契數(shù)列第 100 項的值(第一項和第二項分別為 0 和 手5、算法和數(shù)據(jù)結(jié)構(gòu)了解到什么程度、知道多少6、Java 中的數(shù)
17、據(jù)結(jié)構(gòu),ArrayList 和 LinkedList 的區(qū)別,ArrayList 為什么查詢快(為什么用數(shù)組就快)、LinkedList 為什么增刪快,哪些 Map 是線程安全的7、JavaNIO8、Java 多線程(什么 wait、9、MapReduce 的 shuffle 過程(手畫,邊畫邊介紹)reduce 是怎么到 map 獲取數(shù)據(jù)的通信是否了解10、手寫 MapReduce 的 WordCount(導(dǎo)入的包最好能記住11、一句話介紹 12、Spark 做緩存時緩存在哪里不用 Spark,只用 Hadoop 和 MapReduce(至少這個部門是這樣,這個部門的主要業(yè)務(wù)是做用),把 工
18、作的各個階段過程吃14、是否看過 Hadoop 源碼15、系統(tǒng)(常用命令啥的16、除了這些平時還接觸或者學(xué)習(xí)哪些技術(shù)17、數(shù)據(jù)傾斜和內(nèi)存溢出怎么辦18、遇到日志怎么辦(假如說有人制造日志,怎么處理。我說的黑名單機(jī)制,那個面試官貌似還挺滿意中協(xié)變逆變的應(yīng)用場景。中隱式轉(zhuǎn)化的應(yīng)用場景中基于 standalone 還是 Yarn?計算引擎是什么?怎么設(shè)計的,為什么引入樹?鏈表的查找方式和樹查找方式不同?并發(fā)安全是怎么理解的?6.Map FlatMap7.對RDD 的理解9.常用的10.對 DAG 怎么理解的?怎么形成的?劃分不同的stage 的依據(jù)是什么? 12.Sparkjob13Spark2.1
19、114.Shuffle 是一個挺消耗資源的操作,對 優(yōu)化措施?如何避免數(shù)據(jù)傾斜?產(chǎn)生數(shù)據(jù)傾斜的原因是什么?什么情況下會進(jìn)行重新分區(qū)?重新分區(qū)調(diào)用什中隱式轉(zhuǎn)化的應(yīng)用場景中基于 standalone 還是 Yarn?計算引擎是什么?怎么設(shè)計的,為什么引入樹?鏈表的查找方式和樹查找方式不同?并發(fā)安全是怎么理解的?6.Map FlatMap7.對RDD 的理解9.常用的10.對 DAG 怎么理解的?怎么形成的?劃分不同的stage 的依據(jù)是什么? 12.Sparkjob13Spark2.1114.Shuffle 是一個挺消耗資源的操作,對 優(yōu)化措施?如何避免數(shù)據(jù)傾斜?產(chǎn)生數(shù)據(jù)傾斜的原因是什么?什么情況下會進(jìn)行重新分區(qū)?重新分區(qū)調(diào)用什么方法?如何做到既能重新分區(qū)又不產(chǎn)生 怎么做到流式計算?工作原理是什么? 是一個什么樣的結(jié)構(gòu)?里面有哪些對象?16.Kafka 丟失或者重復(fù)消費(fèi)的情況?做過哪些預(yù)防措施,怎么解決以上問題的? 元數(shù)據(jù)存在哪?17.StandaloneMast
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 奢侈品銷售工作總結(jié)
- 儀器儀表銷售工作總結(jié)
- 親子行業(yè)營銷實(shí)踐總結(jié)
- 綠色校園與環(huán)保教育計劃
- 廣西玉林地區(qū)2022-2023學(xué)年六年級上學(xué)期英語期末試卷
- 股東會議召集書三篇
- 《災(zāi)后心理援助》課件
- 《糖尿病治療昌玉蘭》課件
- 2024年安徽省蕪湖市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2022年安徽省淮南市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 屋頂光伏發(fā)電項目EPC工程總承包售后服務(wù)保證措施
- 影視制作技能薪酬激勵
- 第四屆全省職業(yè)技能大賽技術(shù)文件-工業(yè)控制樣題
- 24秋國家開放大學(xué)《勞動關(guān)系與社會保障實(shí)務(wù)》形考任務(wù)1-4參考答案
- 2024年Amazon店鋪托管運(yùn)營全面合作協(xié)議
- 部編版歷史初二上學(xué)期期末試題與參考答案(2024-2025學(xué)年)
- 2024-2025學(xué)年外研版小學(xué)四年級上學(xué)期期末英語試卷及解答參考
- 2024年內(nèi)蒙古自治區(qū)興安盟、呼倫貝爾中考數(shù)學(xué)試題含答案
- 2024年資格考試-PMP項目管理師考試近5年真題集錦(頻考類試題)帶答案
- 種豬場重點(diǎn)動物疫病綜合控制與凈化總體方案
- 成人失禁相關(guān)性皮炎的預(yù)防與護(hù)理
評論
0/150
提交評論