南開-《數(shù)據(jù)科學導論》在線作業(yè)_第1頁
南開-《數(shù)據(jù)科學導論》在線作業(yè)_第2頁
南開-《數(shù)據(jù)科學導論》在線作業(yè)_第3頁
南開-《數(shù)據(jù)科學導論》在線作業(yè)_第4頁
南開-《數(shù)據(jù)科學導論》在線作業(yè)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

一、單選題共20題,40分哪一項不屬于規(guī)范化的方法()A最小-最大規(guī)范化B零-均值規(guī)范化C小數(shù)定標規(guī)范化D中位數(shù)規(guī)范化我的得分:2分我的答案:D例如將工資收入屬性值映射到[-1,1]或者[0,1]內(nèi)屬于數(shù)據(jù)變換中的()A簡單函數(shù)變換B規(guī)范化C屬性構(gòu)造D連續(xù)屬性離散化我的得分:2分我的答案:BApriori算法的加速過程依賴于以下哪個策略()A抽樣B剪枝C緩沖D并行我的得分:2分我的答案:B以下屬于關(guān)聯(lián)分析的是()ACPU性能預測B購物籃分析C自動判斷鳶尾花類別D股票趨勢建模我的得分:2分我的答案:B在一元線性回歸模型中,殘差項服從()分布。A泊松B正態(tài)C線性D非線性我的得分:2分我的答案:B以下哪一項不是特征工程的子問題()A特征創(chuàng)建B特征提取C特征選擇D特征識別我的得分:2分我的答案:D下面不是分類的常用方法的有()AK近鄰法B樸素貝葉斯C決策樹D條件隨機場我的得分:2分我的答案:D置信度(confidence)是衡量興趣度度量()的指標。A簡潔性B確定性C實用性D新穎性我的得分:2分我的答案:B變量之間的關(guān)系一般可以分為確定性關(guān)系與()。A非確定性關(guān)系B線性關(guān)系C函數(shù)關(guān)系D相關(guān)關(guān)系我的得分:2分我的答案:A以下哪一項不是特征選擇常見的方法()A過濾式B封裝式C嵌入式D開放式我的得分:2分我的答案:D設(shè)X={1,2,3}是頻繁項集,則可由X產(chǎn)生()個關(guān)聯(lián)規(guī)則。A4B5C6D7我的得分:2分我的答案:C以下哪一項不屬于數(shù)據(jù)變換()A簡單函數(shù)變換B規(guī)范化C屬性合并D連續(xù)屬性離散化我的得分:2分我的答案:C根據(jù)映射關(guān)系的不同可以分為線性回歸和()。A對數(shù)回歸B非線性回歸C邏輯回歸D多元回歸我的得分:2分我的答案:BBFR聚類是用于處理數(shù)據(jù)集()的k-means變體。A大B中C小D所有我的得分:2分我的答案:A以下哪個不是處理缺失值的方法()A刪除記錄B按照一定原則補充C不處理D隨意填寫我的得分:2分我的答案:D維克托?邁爾-舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中,持續(xù)強調(diào)了一個觀點:大數(shù)據(jù)時代的到來,使我們無法人為地去發(fā)現(xiàn)數(shù)據(jù)中的奧妙,與此同時,我們更應該注重數(shù)據(jù)中的相關(guān)關(guān)系,而不是因果關(guān)系。其中,數(shù)據(jù)之間的相關(guān)關(guān)系可以通過以下哪個算法直接挖掘()AK-meansBBayesNetworkCC4.5DApriori我的得分:2分我的答案:D我們需要對已生成的樹()進行剪枝,將樹變得簡單,從而使它具有更好的泛化能力。A自上而下B自下而上C自左而右D自右而左我的得分:2分我的答案:B通過構(gòu)造新的指標-線損率,當超出線損率的正常范圍,則可以判斷這條線路的用戶可能存在竊漏電等異常行為屬于數(shù)據(jù)變換中的()A簡單函數(shù)變換B規(guī)范化C屬性構(gòu)造D連續(xù)屬性離散化我的得分:2分我的答案:C單層感知機擁有()層功能神經(jīng)元。A一B二C三D四我的得分:2分我的答案:A多層感知機是由()層神經(jīng)元組成。A二B三C大于等于二層D大于等于三層我的得分:2分我的答案:D二、多選題共10題,20分距離度量中的距離可以是()A歐式距離B曼哈頓距離CLp距離DMinkowski距離我的得分:2分我的答案:ABCD相關(guān)性的分類,按照相關(guān)的方向可以分為()。A正相關(guān)B負相關(guān)C左相關(guān)D右相關(guān)我的得分:2分我的答案:AB聚類的主要方法有()。A劃分聚類B層次聚類C密度聚類D距離聚類我的得分:2分我的答案:ABC數(shù)據(jù)科學具有哪些性質(zhì)()A有效性B可用性C未預料D可理解我的得分:2分我的答案:ABCDk近鄰法的基本要素包括()。A距離度量Bk值的選擇C樣本大小D分類決策規(guī)則我的得分:2分我的答案:ABD多層感知機的學習過程包含()。A信號的正向傳播B信號的反向傳播C誤差的正向傳播D誤差的反向傳播我的得分:2分我的答案:AD下列選項是BFR的對象是()A廢棄集B臨時集C壓縮集D留存集我的得分:2分我的答案:ACD一元回歸參數(shù)估計的參數(shù)求解方法有()。A最大似然法B距估計法C最小二乘法D歐式距離法我的得分:2分我的答案:ABC什么情況下結(jié)點不用劃分()A當前結(jié)點所包含的樣本全屬于同一類別B當前屬性集為空,或是所有樣本在所有屬性上取值相同C當前結(jié)點包含的樣本集為空D還有子集不能被基本正確分類我的得分:2分我的答案:ABCK-means聚類中K值選取的方法是()。A密度分類法B手肘法C大腿法D隨機選取我的得分:2分我的答案:AB三、判斷題共20題,40分兩個對象越相似,他們的相異度就越高。A對B錯我的得分:2分我的答案:B貝葉斯定理是概率論中的一個結(jié)果,它與隨機變量的條件概率以及聯(lián)合概率分布有關(guān)。A對B錯我的得分:2分我的答案:A在一元線性回歸中,輸入只包含一個單獨的特征。A對B錯我的得分:2分我的答案:A在數(shù)據(jù)預處理時,無論什么情況,都可以直接將異常值刪除A對B錯我的得分:2分我的答案:B莖葉圖失去原始數(shù)據(jù)的信息,而直方圖保留原始數(shù)據(jù)的信息。A對B錯我的得分:2分我的答案:B交叉表可以幫助人們發(fā)現(xiàn)變量之間的相互作用。A對B錯我的得分:2分我的答案:A使用SVD方法進行圖像壓縮不可以保留圖像的重要特征。A對B錯我的得分:2分我的答案:BPearson相關(guān)系數(shù)是判斷特征之間、以及特征和目標變量之間線性相關(guān)關(guān)系的統(tǒng)計量。A對B錯我的得分:2分我的答案:A平均減少的不純度越大,則特征重要度越高。A對B錯我的得分:2分我的答案:A樸素貝葉斯分類器有簡單、高效、健壯的特點,但某些屬性可能會降低分類器的性能A對B錯我的得分:2分我的答案:A由不同的距離度量所確定的最近鄰點是不同的A對B錯我的得分:2分我的答案:A一般而言,信息增益越大,則意味著使用屬性a來進行劃分所獲得的“純度提升越大”,因此我們可用信息增益來進行決策樹的最優(yōu)特征選擇。A對B錯我的得分:2分我的答案:A決策樹內(nèi)部結(jié)點表示一個類,葉結(jié)點表示一個特征或?qū)傩訟對B錯我的得分:2分我的答案:B剪枝是決策樹學習算法對付“過擬合”的主要手段A對B錯我的得分:2分我的答案:A子集產(chǎn)生本質(zhì)上是一個搜索過程,該過程可以從空集、隨機產(chǎn)生的一個特征子集或者整個特征集開始。A對B錯我的得分:2分我的答案:A特征的信息增益越大,則其越不重要。A對B錯我的得分:2分我的答案:B信息熵越大,數(shù)據(jù)信息的不確定性越小。A對B錯我的得分:2分我的答案:B利用K近鄰法進行分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論