知乎23屆校招數(shù)據(jù)分析試題_第1頁(yè)
知乎23屆校招數(shù)據(jù)分析試題_第2頁(yè)
知乎23屆校招數(shù)據(jù)分析試題_第3頁(yè)
知乎23屆校招數(shù)據(jù)分析試題_第4頁(yè)
知乎23屆校招數(shù)據(jù)分析試題_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

知乎23屆校招數(shù)據(jù)分析試題1.現(xiàn)在想篩選出一些優(yōu)質(zhì)的內(nèi)容,篩選的標(biāo)準(zhǔn)是:內(nèi)容作者的評(píng)級(jí)大于5級(jí)、或者盡管內(nèi)容作者評(píng)級(jí)小于5級(jí),但內(nèi)容本身的評(píng)級(jí)大于5級(jí)或者內(nèi)容獲得的喜歡數(shù)大于1000,同時(shí),所篩選出來(lái)的內(nèi)容類(lèi)型要求為1,下列SQL中,where條件可行的是()A.whereauthor_level>5or(author_level<=5and(content_level>5orlike>1000))andtype=1B.where(author_level>5orauthor_level<=5)and(content_level>5orlike>1000)andtype=1C.where(author_level>5or(author_level<=5andcontent_level>5orlike>1000))andtype=1D.where(author_level>5orauthor_level<=5and(content_level>5orlike>1000))andtype=1正確答案:D解析:這道題考查SQL語(yǔ)句中篩選條件的邏輯。優(yōu)質(zhì)內(nèi)容的篩選有明確規(guī)則,D選項(xiàng)準(zhǔn)確涵蓋了所有條件:作者評(píng)級(jí)大于5級(jí),或作者評(píng)級(jí)小于等于5級(jí)但內(nèi)容本身評(píng)級(jí)大于5級(jí)或喜歡數(shù)大于1000,同時(shí)內(nèi)容類(lèi)型為1。A、B、C選項(xiàng)在條件組合或表述上存在偏差,不符合題目要求。

2.如果想監(jiān)控一段時(shí)間內(nèi),不同活躍頻次的用戶貢獻(xiàn)的APP時(shí)長(zhǎng)的比例變化,下列哪中展現(xiàn)形式更好()A.堆積面積圖B.餅圖C.條形圖D.直方圖正確答案:A解析:這道題考察的是對(duì)數(shù)據(jù)可視化圖表的理解和應(yīng)用。要監(jiān)控不同活躍頻次用戶貢獻(xiàn)的APP時(shí)長(zhǎng)比例變化,需要一種能清晰展示各部分占比及其隨時(shí)間變化的圖表。堆積面積圖能很好地展示不同類(lèi)別數(shù)據(jù)隨時(shí)間的變化趨勢(shì)和占比,適合本題需求。餅圖主要用于展示靜態(tài)的比例關(guān)系,條形圖用于比較不同類(lèi)別的數(shù)據(jù)大小,直方圖則用于展示數(shù)據(jù)的分布情況,均不適合本題需求。因此,A選項(xiàng)堆積面積圖是最合適的展現(xiàn)形式。

3.有下列兩張表,表1記錄著每個(gè)作者的id和這個(gè)作者的等級(jí),表2記錄著每個(gè)等級(jí)對(duì)應(yīng)等階劃分,現(xiàn)想在表1中添加C列,記錄該作者的對(duì)應(yīng)的等階,在EXCEL中,可以在C列輸入哪個(gè)函數(shù)()A.=vlookup(B:B,D:E,2,1)B.=IF(B1="1","初級(jí)",B1="2","初級(jí)",B1="3","中級(jí)",B1="4","中級(jí)",B1="5","高級(jí)")C.=vlookup(A:B,D:E,2,1)D.=IF(B:B=D:D,E:E,0)正確答案:A解析:暫無(wú)解析

4.A、B、C三個(gè)人在五一假期外出旅行的概率分別為1/2、1/3、1/4,假設(shè)三個(gè)人的行動(dòng)相互之間沒(méi)有有影響,那這三人中至少有一個(gè)在五一假期外出旅游的概率是()A.1/24B.11/24C.2/3D.3/4正確答案:D解析:這道題考查概率的計(jì)算。三人都不外出旅行的概率為:(1-1/2)×(1-1/3)×(1-1/4)=1/4。至少有一人外出旅行的概率用1減去都不外出的概率,即1-1/4=3/4。選項(xiàng)A明顯過(guò)小,B也不符合計(jì)算結(jié)果,C也不正確,所以答案是D。

5.假設(shè)有一種病毒,它的攜帶率為1/2000。有一種化驗(yàn)方法可以精準(zhǔn)地檢測(cè)到這種病毒,也就是說(shuō),如果一個(gè)人攜帶這種病毒,一定可以被檢測(cè)出來(lái)。但是該項(xiàng)化驗(yàn)的假陽(yáng)性率為1%,即健康人接受該項(xiàng)化驗(yàn),會(huì)有1%的可能性被誤診為病毒攜帶者。假設(shè)從人群中隨機(jī)選擇一人進(jìn)行檢測(cè),化驗(yàn)結(jié)果為陽(yáng)性(陽(yáng)性意味著受檢者可能是該病毒攜帶者)。那么,在不考慮其它變量的情況下,此人攜帶該病毒的概率最接近下列哪個(gè)數(shù)據(jù)?()A.99%B.5%C.2%D.1%正確答案:B解析:這道題考察的是對(duì)概率論中貝葉斯定理的應(yīng)用。首先,我們知道病毒的攜帶率為1/2000,即0.0005,假陽(yáng)性率為1%,即0.01。根據(jù)貝葉斯定理,我們可以計(jì)算出在化驗(yàn)結(jié)果為陽(yáng)性的情況下,此人真正攜帶病毒的概率。這個(gè)概率等于(攜帶率*檢測(cè)準(zhǔn)確率)/(攜帶率*檢測(cè)準(zhǔn)確率+健康率*假陽(yáng)性率),即(0.0005*1)/(0.0005*1+0.9995*0.01),計(jì)算后得到的結(jié)果最接近5%。

6.從隨機(jī)數(shù)字表抽得50個(gè)(各取兩位數(shù)字)隨機(jī)數(shù)作為兩個(gè)樣本,求得則理論上()A.B.作兩方差齊性的F檢驗(yàn),必然方差齊C.做兩樣本均數(shù)的t檢驗(yàn),檢驗(yàn)必得出無(wú)差別的結(jié)論D.分別從兩樣本求出的總體均數(shù)的95%的置信區(qū)間,很可能有重疊正確答案:D解析:暫無(wú)解析

7.某個(gè)工程開(kāi)展6天之后,因突發(fā)狀況停工4天,之后工程隊(duì)提速20%,并按原計(jì)劃完成了工作,則原計(jì)劃工期為()A.27天B.30天C.36天D.45天正確答案:B解析:這道題考查工程問(wèn)題中的工作效率和時(shí)間的關(guān)系。設(shè)原計(jì)劃每天完成的工作量為1,提速20%后每天完成1.2的工作量。工程開(kāi)展6天后停工4天,剩下的工作按提速后的效率完成,與原計(jì)劃時(shí)間相同。通過(guò)設(shè)原計(jì)劃工期為x天,可列方程求解,計(jì)算得出原計(jì)劃工期為30天。

8.有AB兩組用戶,A組有4人,B組有5人,現(xiàn)在從AB兩組用戶中共抽取3個(gè)用戶進(jìn)行用戶訪談,抽取時(shí)要保證兩組用戶都至少有1人參加訪談,這種情況下,有多少種抽取方法()A.105B.90C.80D.70正確答案:D解析:暫無(wú)解析

9.假設(shè)隨機(jī)變量X,Y相互獨(dú)立,且X~N(25,16),Y~N(25,9),則Z=2X+3Y+10的分布為()A.N(25,145)B.N(25,59)C.N(135,145)D.N(135,59)正確答案:C解析:本題考察的是正態(tài)分布的性質(zhì),特別是相互獨(dú)立的正態(tài)分布隨機(jī)變量的線性組合的分布。已知隨機(jī)變量X和Y是相互獨(dú)立的,且分別服從N(25,16)和N(25,9)的正態(tài)分布。根據(jù)正態(tài)分布的性質(zhì),兩個(gè)相互獨(dú)立的正態(tài)分布隨機(jī)變量的線性組合仍然服從正態(tài)分布,其期望和方差可以通過(guò)線性組合的系數(shù)來(lái)計(jì)算。對(duì)于Z=2X+3Y+10,其期望E(Z)=2E(X)+3E(Y)+10=2*25+3*25+10=135,方差D(Z)=2^2*D(X)+3^2*D(Y)=4*16+9*9=145。因此,Z的分布為N(135,145),選項(xiàng)C正確。

10.假設(shè)總體X的概率分布為其中,是未知參數(shù),利用總體X的如下樣本值3,1,3,0,3,1,2,3求θ的矩估計(jì)值()A.1B.1/2C.1/4D.1/8正確答案:C解析:暫無(wú)解析

11.下列關(guān)于線性回歸說(shuō)法錯(cuò)誤的是()A.多重共線性會(huì)使得參數(shù)估計(jì)值方差變小B.在違背基本假設(shè)時(shí),普通最小二乘法估計(jì)量不再是最佳線性無(wú)偏估計(jì)量C.可以用DW檢驗(yàn)殘差是否存在序列相關(guān)性D.自變量和殘差要相互獨(dú)立正確答案:A解析:這道題考察的是線性回歸模型的相關(guān)知識(shí)點(diǎn)。首先,多重共線性是一個(gè)常見(jiàn)問(wèn)題,它會(huì)導(dǎo)致參數(shù)估計(jì)值的方差變大,而不是變小,所以A選項(xiàng)的說(shuō)法是錯(cuò)誤的。其次,普通最小二乘法估計(jì)量在違背基本假設(shè)時(shí),確實(shí)不再是最佳線性無(wú)偏估計(jì)量,B選項(xiàng)正確。再次,DW檢驗(yàn)是用來(lái)檢驗(yàn)殘差是否存在序列相關(guān)性的常用方法,C選項(xiàng)正確。最后,自變量和殘差要相互獨(dú)立是線性回歸模型的一個(gè)基本假設(shè),D選項(xiàng)正確。綜上所述,A選項(xiàng)是錯(cuò)誤的。

12.通過(guò)監(jiān)督學(xué)習(xí)進(jìn)行二分類(lèi)模型訓(xùn)練過(guò)程中,可能會(huì)遇到正負(fù)樣本數(shù)量不平衡的情況(比如正樣本有10萬(wàn)但是負(fù)樣本有100萬(wàn)),以下哪個(gè)方法最不恰當(dāng)?shù)模浚ǎ〢.對(duì)正樣本進(jìn)行重復(fù)抽B.從100萬(wàn)負(fù)樣本中隨機(jī)抽取10萬(wàn)C.將所有數(shù)據(jù)加入訓(xùn)練集,充分利用全部數(shù)據(jù)D.正樣本的權(quán)重設(shè)置為10,負(fù)樣本權(quán)重設(shè)置為1正確答案:C解析:這道題考察的是處理不平衡數(shù)據(jù)集的方法。在機(jī)器學(xué)習(xí)中,當(dāng)正負(fù)樣本數(shù)量不平衡時(shí),直接將所有數(shù)據(jù)加入訓(xùn)練集可能會(huì)導(dǎo)致模型偏向于多數(shù)類(lèi)(即負(fù)樣本),從而影響模型的性能。A選項(xiàng)提出對(duì)正樣本進(jìn)行重復(fù)抽樣,這是一種過(guò)采樣技術(shù),可以增加正樣本的數(shù)量,使其與負(fù)樣本數(shù)量接近,從而改善模型性能。B選項(xiàng)提出從100萬(wàn)負(fù)樣本中隨機(jī)抽取10萬(wàn),這是一種欠采樣技術(shù),可以減少負(fù)樣本的數(shù)量,使其與正樣本數(shù)量接近,同樣有助于改善模型性能。D選項(xiàng)提出對(duì)正樣本和負(fù)樣本設(shè)置不同的權(quán)重,這是一種權(quán)重調(diào)整方法,可以通過(guò)增加少數(shù)類(lèi)(即正樣本)的權(quán)重來(lái)抵消多數(shù)類(lèi)(即負(fù)樣本)的影響,從而改善模型性能。相比之下,C選項(xiàng)提出將所有數(shù)據(jù)加入訓(xùn)練集,充分利用全部數(shù)據(jù),這種方法在不進(jìn)行任何處理的情況下直接訓(xùn)練模型,很可能會(huì)導(dǎo)致模型偏向于多數(shù)類(lèi),因此是最不恰當(dāng)?shù)姆椒ā?/p>

13.這個(gè)商店的競(jìng)爭(zhēng)對(duì)手宣稱,該商店在以那些價(jià)錢(qián)甩賣(mài)那些襯衫的過(guò)程中,既沒(méi)有賺到任何利潤(rùn),也沒(méi)有收支平衡。所以顧客們必定能夠以低于商店成本的價(jià)錢(qián)買(mǎi)到襯衫。上述推理的錯(cuò)誤推理模式與下面哪一個(gè)論證的模式最為相似?A.規(guī)則規(guī)定,參賽者既要被考察外在形式又要被考察精確性。最后的獲勝者在上述兩項(xiàng)中都不是最高的,因此,必定會(huì)有另外一個(gè)可以自由使用的判定標(biāo)準(zhǔn)。B.產(chǎn)品說(shuō)明上確定,這種殺蟲(chóng)劑對(duì)于人和寵物都是安全的。所以,這種殺蟲(chóng)劑對(duì)于鹿和野兔這樣的野生哺乳動(dòng)物也是安全的。C.博物館的值夜班的保安堅(jiān)持認(rèn)為,盜竊那幅名畫(huà)的人沒(méi)有從地面上或者高于地面的任何地方進(jìn)入博物館,因此,竊賊就必定是從地底下進(jìn)入博物館的。D.如果這次人口普查要獲得人們的信任,那么已婚男子的百分比就會(huì)高于已婚女子的百分比。于是,這次人口普查必定顯示出,男人的數(shù)量多于女人。正確答案:C解析:這是一道識(shí)別論證模式的問(wèn)題。我們需要先理解背景信息和問(wèn)題核心,再仔細(xì)分析每個(gè)選項(xiàng),并將其與問(wèn)題中給出的信息進(jìn)行對(duì)比。理解背景信息:首先,理解題干中的推理模式——商店的競(jìng)爭(zhēng)對(duì)手宣稱商店在甩賣(mài)襯衫的過(guò)程中沒(méi)有賺到利潤(rùn)也沒(méi)有收支平衡,所以顧客們必定能夠以低于商店成本的價(jià)錢(qián)買(mǎi)到襯衫。這是一種排除法的邏輯謬誤,即因?yàn)榉穸藘煞N可能性(賺到利潤(rùn)和收支平衡),就錯(cuò)誤地推斷出第三種可能性(低于成本價(jià)銷(xiāo)售)必定為真。理解問(wèn)題核心:我們需要找出與題干論證模式最為相似的選項(xiàng)。接下來(lái),我們逐一分析選項(xiàng):-A選項(xiàng)(規(guī)則規(guī)定參賽者要考察兩項(xiàng),獲勝者在兩項(xiàng)中都不是最高的,所以必定有另外一個(gè)判定標(biāo)準(zhǔn)):這個(gè)選項(xiàng)的推理是基于規(guī)則的解讀,并未使用排除法來(lái)推斷出另一種可能性,所以與題干的論證模式不同。-B選項(xiàng)(產(chǎn)品說(shuō)明確定殺蟲(chóng)劑對(duì)人和寵物安全,所以也對(duì)野生哺乳動(dòng)物安全):這個(gè)選項(xiàng)的推理是基于一種類(lèi)比,即認(rèn)為如果某物對(duì)一類(lèi)生物安全,那么對(duì)另一類(lèi)相似的生物也安全,并未使用排除法,所以與題干的論證模式不同。-C選項(xiàng)(保安認(rèn)為竊賊沒(méi)有從地面或高于地面的地方進(jìn)入博物館,所以竊賊必定是從地底下進(jìn)入的):這個(gè)選項(xiàng)的推理是:否定了兩種可能性(從地面或高于地面的地方進(jìn)入),然后錯(cuò)誤地推斷出第三種可能性(從地底下進(jìn)入)必定為真,這與題干的論證模式完全一致。-D選項(xiàng)(如果人口普查要獲得信任,那么已婚男子的百分比會(huì)高于已婚女子,所以人口普查必定顯示出男人多于女人):這個(gè)選項(xiàng)的推理是基于一種假設(shè)的條件關(guān)系,并未使用排除法,所以與題干的論證模式不同。綜上所述,C選項(xiàng)(博物館的值夜班的保安堅(jiān)持認(rèn)為,盜竊那幅名畫(huà)的人沒(méi)有從地面上或者高于地面的任何地方進(jìn)入博物館,因此,竊賊就必定是從地底下進(jìn)入博物館的)的推理模式與題干中的推理模式最為相似,都使用了排除法來(lái)錯(cuò)誤地推斷出第三種可能性。

14.只要待在學(xué)術(shù)界,小說(shuō)家就不能變偉大。學(xué)院生活的磨煉所積累起來(lái)的觀察和分析能力對(duì)小說(shuō)家非常有用。但是,只有沉浸在日常生活中,才能靠直覺(jué)把握生活的種種情感,而學(xué)院生活顯然與之不相容。以下哪項(xiàng)陳述是上述論證所依賴的假設(shè)A.偉大的小說(shuō)家都有觀察和分析能力。B.對(duì)日常生活中情感的把握不可能只通過(guò)觀察和分析來(lái)獲得。C.沒(méi)有對(duì)日常生活中情感的直覺(jué)把握,小說(shuō)家就不能成就其偉大。D.伴隨著對(duì)生活的投入和理智的觀察,會(huì)使小說(shuō)家變得偉大。正確答案:C解析:根據(jù)題干可知,待在學(xué)術(shù)界會(huì)積累觀察和分析能力,但會(huì)失去對(duì)日常生活中情感的直覺(jué)把握,而要成為偉大的小說(shuō)家,需要同時(shí)具備這兩種能力。據(jù)此,我們可以推測(cè)出,題干中的論證基于以下假設(shè):沒(méi)有對(duì)日常生活中情感的直覺(jué)把握,小說(shuō)家就不能成就其偉大。A項(xiàng)與題干信息不符,題干中并未提及偉大的小說(shuō)家都有觀察和分析能力;B項(xiàng)不能作為假設(shè),因?yàn)轭}干中并沒(méi)有否認(rèn)可以通過(guò)觀察和分析獲得對(duì)日常生活中情感的把握;D項(xiàng)也與題干信息不符,題干中并未表明對(duì)生活的投入和理智的觀察會(huì)使小說(shuō)家變得偉大。因此,正確答案是C。

15.我們對(duì)分享面板進(jìn)行了優(yōu)化,預(yù)期提升用戶的分享意愿,以下指標(biāo)中,你認(rèn)為哪個(gè)指標(biāo)可以衡量該優(yōu)化的效果()A.人均分享次數(shù)B.閱讀到分享的轉(zhuǎn)化率C.分享人數(shù)占閱讀人數(shù)比例D.以上均可正確答案:D解析:這道題考察的是對(duì)衡量分享功能優(yōu)化效果的指標(biāo)的理解。在評(píng)估分享功能的優(yōu)化效果時(shí),我們需要關(guān)注那些能夠直接反映用戶分享行為的指標(biāo)。-人均分享次數(shù)(A選項(xiàng))可以反映用戶分享的頻率,優(yōu)化后如果此指標(biāo)提升,說(shuō)明用戶更愿意分享。-閱讀到分享的轉(zhuǎn)化率(B選項(xiàng))表示在閱讀內(nèi)容后,有多少比例的用戶進(jìn)行了分享,這也是衡量?jī)?yōu)化效果的一個(gè)重要指標(biāo)。-分享人數(shù)占閱讀人數(shù)比例(C選項(xiàng))反映了在閱讀的用戶中,有多少人進(jìn)行了分享,同樣可以衡量?jī)?yōu)化對(duì)用戶分享意愿的影響。由于這三個(gè)指標(biāo)都能從不同角度衡量分享功能的優(yōu)化效果,所以D選項(xiàng)“以上均可”是正確的。

16.現(xiàn)有下列三張表,現(xiàn)在想統(tǒng)計(jì)出粉絲CTR,請(qǐng)寫(xiě)出對(duì)應(yīng)的SQL語(yǔ)句;15分注:①CTR為點(diǎn)擊率,總閱讀次數(shù)/總曝光次數(shù)②表a:是創(chuàng)作者和粉絲關(guān)系表;表b:是創(chuàng)作者和內(nèi)容關(guān)系表;表c:是粉絲在內(nèi)容上的行為明細(xì)表正確答案:暫無(wú)答案解析:暫無(wú)解析

17.有下列三張表,現(xiàn)在想統(tǒng)計(jì)出「粉絲CTR」,請(qǐng)寫(xiě)出對(duì)應(yīng)的SQL語(yǔ)句;15分注:①CTR為點(diǎn)擊率,總閱讀次數(shù)/總曝光次數(shù)②表a:是創(chuàng)作者和粉絲關(guān)系

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論