數(shù)據(jù)分析崗位筆試題目總結(jié)

上傳人：鼠*** IP屬地：上海上傳時間：2022-04-12 格式：DOCX 頁數(shù)：19 大小：788.74KB 積分：20 舉報 版權申訴

已閱讀5頁，還剩14頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、1、異常值是指什么?請列舉1種識別連續(xù)型變量異常值的方法? 異常值(Outlier) 是指樣本中的個別值，其數(shù)值明顯偏離所屬樣本的其余觀測值。在數(shù)理統(tǒng)計里一般是指一組觀測值中與平均值的偏差超過兩倍標準差的測定值.常見的異常值檢驗方法如下：l 基于統(tǒng)計的方法l 基于距離的方法l 基于密度的方法l 基于聚類的方法l 基于偏差的方法l 基于深度的方法t檢驗：按照t分布的實際誤差分布范圍來判別異常值，首先剔除一個可疑值，然后按t分布來檢驗剔除的值是否為異常值。狄克遜檢驗法：假設一組數(shù)據(jù)有序x1<x2<<xn，且服從正態(tài)分布，則異常值最有可能出現(xiàn)在兩端x1和xn。格拉布斯檢驗法：與狄克

2、遜檢驗法思想一樣，其檢驗公式為：指數(shù)分布檢驗：SPSS和R語言中通過繪制箱圖可以找到異常值，分布在箱邊框外部；2、什么是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟。聚類分析(cluster analysis)是一組將研究對象分為相對同質(zhì)的群組(clusters)的統(tǒng)計分析技術。聚類分析也叫分類分析(classification analysis)或數(shù)值分類(numerical taxonomy)。聚類與分類的不同在于，聚類所要求劃分的類是未知的。聚類分析計算方法主要有：層次的方法(hierarchical method)、劃分方法(partitioning

3、method)、基于密度的方法(density-based method)、基于網(wǎng)格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前兩種算法是利用統(tǒng)計學定義的距離進行度量。常見的聚類方法有：K-pototypes算法，K-Means算法，CLARANS算法（劃分方法），BIRCH算法（層次方法），CURE算法（層次方法），DBSCAN算法（基于密度的方法），CLIQUE算法（綜合了基于密度和基于網(wǎng)格的算法）；k-means 算法的工作過程說明如下：首先從n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象，則根據(jù)

4、它們與這些聚類中心的相似度(距離)，分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù). k個聚類具有以下特點：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。其流程如下： (1)從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心; (2)根據(jù)每個聚類對象的均值(中心對象)，計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應對象進行劃分; (3)重新計算每個(有變化)聚類的均值(中心對象); (4)循環(huán)(2)、(3)直到每個聚

5、類不再發(fā)生變化為止(標準測量函數(shù)收斂)。優(yōu)點：本算法確定的K 個劃分到達平方誤差最小。當聚類是密集的，且類與類之間區(qū)別明顯時，效果較好。對于處理大數(shù)據(jù)集，這個算法是相對可伸縮和高效的，計算的復雜度為 O(NKt)，其中N是數(shù)據(jù)對象的數(shù)目，K是聚類中心，t是迭代的次數(shù)。缺點：1. K 是事先給定的，但非常難以選定;2. 初始聚類中心的選擇對聚類結(jié)果有較大的影響。是將數(shù)據(jù)按比例縮放，使之落入一個小的特定區(qū)間。去除數(shù)據(jù)的單位限制，將其轉(zhuǎn)化為無量綱的純數(shù)值，便于不同單位或量級的指標能夠進行比較和加權。常用的方法有：（1）總和標準化。分別求出各要素所對應的數(shù)據(jù)的總和，以各要素的數(shù)據(jù)除以該要素的數(shù)據(jù)的

6、總和，即 4.缺失值處理方法1）直接丟棄含缺失數(shù)據(jù)的記錄如：個案剔除法，這種方法卻有很大的局限性。它是以減少樣本量來換取信息的完備，會造成資源的大量浪費，丟棄了大量隱藏在這些對象中的信息。當缺失數(shù)據(jù)所占比例較大，特別是當缺數(shù)據(jù)非隨機分布時，這種方法可能導致數(shù)據(jù)發(fā)生偏離，從而得出錯誤的結(jié)論。2）補缺A. 用平均值來代替所有缺失數(shù)據(jù)：均值替換法，均值替換法也是一種簡便、快速的缺失數(shù)據(jù)處理方法。使用均值替換法插補缺失數(shù)據(jù)，對該變量的均值估計不會產(chǎn)生影響。但這種方法是建立在完全隨機缺失（MCAR）的假設之上的，而且會造成變量的方差和標準差變小。B. K -最近距離鄰居法：先根據(jù)歐式距離或相關分析來確

7、定距離具有缺失數(shù)據(jù)樣本最近的K個樣本，將這K個值加權平均來估計該樣本的缺失數(shù)據(jù)。C.用預測模型來預測每一個缺失數(shù)據(jù)：該方法最大限度地利用已知的相關數(shù)據(jù)，是比較流行的缺失數(shù)據(jù)處理技術。如：回歸替換法，該方法也有諸多弊端，第一，容易忽視隨機誤差，低估標準差和其他未知性質(zhì)的測量值，而且這一問題會隨著缺失信息的增多而變得更加嚴重。第二，研究者必須假設存在缺失值所在的變量與其他變量存在線性關系，很多時候這種關系是不存在的。5.Apriori算法和信息熵信息熵是數(shù)學中一個抽象的概念，他表示了信息源的不確定度，這里不妨把信息熵理解成某種特定信息的出現(xiàn)概率，當一種信息出現(xiàn)概率更高的時候，表明它被傳播得更廣泛，

8、或者說，被引用的程度更高。我們可以認為，從信息傳播的角度來看，信息熵可以表示信息的價值。支持度：Support(A->B)=P(A U B)。支持度揭示了A與B同時出現(xiàn)的概率。如果A與B同時出現(xiàn)的概率小，說明A與B的關系不大；如果A與B同時出現(xiàn)的非常頻繁，則說明A與B總是相關的。置信度(Confidence)的公式式：Confidence(A->B)=P(A | B)。置信度揭示了A出現(xiàn)時，B是否也會出現(xiàn)或有多大概率出現(xiàn)。如果置信度度為100%，則A和B可以捆綁銷售了。如果置信度太低，則說明A的出現(xiàn)與B是否出現(xiàn)關系不大。H(x) = EI(xi) = E log(2,1/p(xi)

9、 = -p(xi)log(2,p(xi) (i=1,2,.n)，單位是bit.其中，x表示隨機變量，與之相對應的是所有可能輸出的集合，定義為符號集,隨機變量的輸出用x表示。P(x)表示輸出概率函數(shù)。變量的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大.以頻繁項集I1，I2，I3為例產(chǎn)生強關聯(lián)規(guī)則，最小置信度為40%(1) 頻繁項集I1，I2，I3的非空子集有I1，I2,I1，I3,I2，I3,I1,I2,I3(2) 產(chǎn)生強關聯(lián)規(guī)則I1，I2I1,I3=>I2 confidence=support（I1，I2，I3）/support(I1,I3)I2,I3=>I1 con

10、fidence=support（I1，I2，I3）/support(I2,I3)I1=>I2,I3 confidence=support（I1，I2，I3）/support(I1)I2=>I1,I3 confidence=support（I1，I2，I3）/support(I2)I3=>I1,I2 confidence=support（I1，I2，I3）/support(I3)則強關聯(lián)規(guī)則為：I1，I2=>I3；I1,I3；I2,I3=>I13、根據(jù)要求寫出SQL （沒有學習過，之后的學習中需要補）表A結(jié)構(gòu)如下： Member_ID (用戶的ID，字符型) Log

11、_time (用戶訪問頁面時間，日期型(只有一天的數(shù)據(jù)) URL (訪問的頁面地址，字符型) 要求：提取出每個用戶訪問的第一個URL(按時間最早)，形成一個新表(新表名為B，表結(jié)構(gòu)和表A一致) 參考答案： create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ; 5、用戶調(diào)研某公司針對A、B、C三類客戶，提出了一種統(tǒng)一的改進計劃，用于提升客戶的周消費次數(shù)，需要你來制定一個事前試驗方案，來支持決策，請你思考下列問題： a) 試驗需要為決策提供什么樣的信息? c) 按照上述目的，請寫出你的

12、數(shù)據(jù)抽樣方法、需要采集的數(shù)據(jù)指標項，以及你選擇的統(tǒng)計方法。 a) 試驗要能證明該改進計劃能顯著提升A、B、C三類客戶的周消費次數(shù)。 b) 根據(jù)三類客戶的數(shù)量，采用分層比例抽樣; 需要采集的數(shù)據(jù)指標項有：客戶類別，改進計劃前周消費次數(shù)，改進計劃后周消費次數(shù); 選用統(tǒng)計方法為：分別針對A、B、C三類客戶，進行改進前和后的周消費次數(shù)的，兩獨立樣本T-檢驗6.常見的抽樣方法有哪些？常用的有以下六種類型：簡單抽樣（Simple sampling）即簡單隨機抽樣，指保證大小為n的每個可能的樣本都有相同的被抽中的概率。例如：按照“抽簽法”、“隨機表”法抽取訪問對象，從單位人名目錄中抽取對象。優(yōu)點：隨機度高，

13、在特質(zhì)較均一的總體中，具有很高的總體代表度；是最簡單的抽樣技術，有標準而且簡單的統(tǒng)計公式。缺點：未使用可能有用的抽樣框輔助信息抽取樣本，可能導致統(tǒng)計效率低；有可能抽到一個“差”的樣本，使抽出的樣本分布不好，不能很好地代表總體。系統(tǒng)抽樣（Systematic random sampling）將總體中的各單元先按一定順序排列，并編號，然后按照不一定的規(guī)則抽樣。其中最常采用的是等距離抽樣，即根據(jù)總體單位數(shù)和樣本單位計算出抽樣距離（即相同的間隔），然后按相同的距離或間隔抽選樣本單位。例如：從1000個電話號碼中抽取10個訪問號碼，間距為100，確定起點（起點間距）后每100號碼抽一訪問號碼。優(yōu)點：兼具

14、操作的簡便性和統(tǒng)計推斷功能，是目前最為廣泛運用的一種抽樣方法。如果起點是隨機確定的，總體中單元排列是隨機的，等距抽樣的效果近似簡單抽樣；與簡單抽樣相比，在一定條件下，樣本的分布較好。缺點：抽樣間隔可能遇到總體中某種未知的周期性，導致“差”的樣本；未使用可能有用的抽樣框輔助信息抽取樣本，可能導致統(tǒng)計效率低。分層抽樣（Stratified random sampling）是把調(diào)查總體分為同質(zhì)的、互不交叉的層（或類型），然后在各層（或類型）中獨立抽取樣本。例如：調(diào)查零售店時，按照其規(guī)模大小或庫存額大小分層，然后在每層中按簡單隨機方法抽取大型零售店若干、中型若干、小型若干；調(diào)查城市時，按城市總?cè)丝诨蚬?/p>

15、業(yè)生產(chǎn)額分出超大型城市、中型城市、小型城市等，再抽出具體的各類型城市若干。優(yōu)點：適用于層間有較大的異質(zhì)性，而每層內(nèi)的個體具有同質(zhì)性的總體，能提高總體估計的精確度，在樣本量相同的情況下，其精度高于簡單抽樣和系統(tǒng)抽樣；能保證“層”的代表性，避免抽到“差”的樣本；同時，不同層可以依據(jù)情況采用不同的抽樣框和抽樣方法。缺點：要求有高質(zhì)量的、能用于分層的輔助信息；由于需要輔助信息，抽樣框的創(chuàng)建需要更多的費用，更為復雜；抽樣誤差估計比簡單抽樣和系統(tǒng)抽樣更復雜。整群抽樣（Cluster sampling）（層層深入抽樣，不斷縮小抽樣的范圍）是先將調(diào)查總體分為群，然后從中抽取群，對被抽中群的全部單元進行調(diào)查。例

16、如：入戶調(diào)查，按地塊或居委會抽樣，以地塊或居委會等有地域邊界的群體為第一抽樣單位，在選出的地塊或居委會實施逐戶抽樣；市場調(diào)查中，最后一級抽樣時，從居委會中抽取若干戶，然后調(diào)查抽中戶家中所有18歲以上成年人。優(yōu)點：適用于群間差異小、群內(nèi)各個體差異大、可以依據(jù)外觀的或地域的差異來劃分的群體。缺點：群內(nèi)單位有趨同性，其精度比簡單抽樣為低。前面談到抽樣方法的一些基本分類和各自特點，需要注意的是，在實際的運用中，一個調(diào)查方案常常不是只局限于使用某一種抽樣方式，而根據(jù)研究時段的不同采用多種抽樣方法的組鴿為實現(xiàn)不同的研究目的，有時甚至在同一時段綜合運用幾種抽樣方法。例如，設計一個全國城市的入戶項目，在抽樣上

17、可以分為幾個不同的步驟，包括：1）在項目正式開始前，可以采用判斷抽樣法選出某一城市先作試點，在問卷設計初期可以采用任意抽樣法選出部分人群進行問卷試訪。2）采用分層隨機抽樣法，確定全國要分別在多少個超大型市、多少個中型市、多少個小型市實施（先分出城市的幾個層次，再依據(jù)研究需要在各層用PPS法選取具體城市）3）采用簡單抽樣法或PPS抽樣法，確定抽出城市中應抽的地塊或居委會；4）采用整群抽樣法，確定抽出地塊或居委會應訪問的家庭戶；5）在項目后期，可以采用判斷抽樣法選取某城市進行深入研究。P（x1<x<x2）=1-a,稱1-a為置信度，x1,x2為置信區(qū)間置信度越大，置信區(qū)間越寬；置信區(qū)間

18、越寬，置信度越大；置信度越小，置信區(qū)間越窄9.ROC曲線及含義ROC曲線指受試者工作特征曲線(receiver operating characteristic curve), 是反映敏感性和特異性連續(xù)變量的綜合指標,是用構(gòu)圖法揭示敏感性和特異性的相互關系，它通過將連續(xù)變量設定出多個不同的臨界值，從而計算出一系列敏感性和特異性，再以敏感性為縱坐標、（1-特異性）為橫坐標繪制成曲線，曲線下面積越大，診斷準確性越高。在ROC曲線上，最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。10.數(shù)據(jù)挖掘步驟理解數(shù)據(jù)和數(shù)據(jù)的來源（understanding）。獲取相關知識與技術（acquisition）

19、。整合與檢查數(shù)據(jù)（integration and checking）。去除錯誤或不一致的數(shù)據(jù)（data cleaning）。建立模型和假設（model and hypothesis development）。實際數(shù)據(jù)挖掘工作（data mining）。測試和驗證挖掘結(jié)果（testing and verfication）。解釋和應用（interpretation and use）。11.如何評估促銷活動？11.Bayes公式（全概率公式）探索在已知結(jié)果的情況下，是由哪種原因引起的概率；12. 邏輯回歸（分類問題）邏輯回歸適合求解哪些問題：邏輯回歸本質(zhì)上解決的是分類問題，Logistic回歸的主要

20、用途：· 尋找危險因素：尋找某一疾病的危險因素等；· 預測：根據(jù)模型，預測在不同的自變量情況下，發(fā)生某病或某種情況的概率有多大；· 判別：實際上跟預測有些類似，也是根據(jù)模型，判斷某人屬于某病或?qū)儆谀撤N情況的概率有多大，也就是看一下這個人有多大的可能性是屬于某病。11. 線性回歸線性回歸（一元和多元）中對誤差的假設都是假定服從均值為0方差為定值的正態(tài)分布，擬合系數(shù)的求解方法可以有最小二乘法梯度下降法等。關于殘差的假設為：零均值，同方差，正態(tài)性，不相關，樣本隨機?；貧w分析的自變量為連續(xù)性變量，而方差分析的自變量為離散型分類變量；廣義線性回歸于線性回歸的最大區(qū)別是隨機誤

21、差的分布不一定是正態(tài)分布，與非線性模型的最大區(qū)別是非線性回歸無明確的隨機誤差分布假定。12. 過擬合現(xiàn)象以及避免的方法所謂過擬合問題：過擬合反映的是在學習訓練中,模型對訓練樣本達到非常高的逼近精度,為了能夠?qū)颖就耆_的分類，使得它的構(gòu)造如此精細復雜，規(guī)則如此嚴格，以至于任何與樣本數(shù)據(jù)稍有不同的文檔它全都認為不屬于這個類別，在測試數(shù)據(jù)上往往顯示出很差的效果.產(chǎn)生過擬合是因為：1.由于對樣本數(shù)據(jù),可能存在隱單元的表示不唯一,即產(chǎn)生的分類的決策面不唯一.2.權值學習迭代次數(shù)足夠多(Overtraining),擬合了訓練數(shù)據(jù)中的噪聲和訓練樣例中沒有代表性的特征.過度擬合解決方法：1.權值衰減.&#

22、160;它在每次迭代過程中以某個小因子降低每個權值,此方法的動機是保持權值較小,避免weight decay,從而使學習過程向著復雜決策面的反方向偏。2.減少特征的數(shù)量，有人工選擇，或者采用模型選擇算法3.驗證數(shù)據(jù) 一個最成功的方法是在訓練數(shù)據(jù)外再為算法提供一套驗證數(shù)據(jù),應該使用在驗證集合上產(chǎn)生最小誤差的迭代次數(shù),不是總能明顯地確定驗證集合何時達到最小誤差.on with some patterns 交叉驗證方法在可獲得額外的數(shù)據(jù)提供驗證集合時工作得很好,但是小訓練集合的過度擬合問題更為嚴重. k-fold交叉方法: 把訓練樣例分成k份,然后進行k次交叉驗證過程,每次使用不同的一份作為驗證集合,其余k-1份合并作為訓練集合.每個樣例會在一次實驗中被用作驗證樣例,在k-1次實驗中被用作訓練樣例;5.正則化方法正則化是結(jié)構(gòu)風險最小化策略的實現(xiàn)，是在經(jīng)驗風險上加一個正則化項或懲罰項。正則化項一般是模型復雜度的單調(diào)遞增函數(shù)，模型越復雜，正則化項就越大，正則化方法的作用是：保留所有特征但減小參數(shù)的取值。13.監(jiān)督學習與非監(jiān)督學習有監(jiān)督學習：

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)分析崗位筆試題目總結(jié)

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)分析崗位筆試題目總結(jié)

文檔簡介

溫馨提示

最新文檔

評論

相關文檔