《數(shù)據(jù)科學(xué)導(dǎo)論》復(fù)習(xí)資料

上傳人：人*** IP屬地：天津上傳時(shí)間：2022-05-06 格式：DOCX 頁(yè)數(shù)：32 大?。?3.06KB 積分：18 舉報(bào) 版權(quán)申訴

《數(shù)據(jù)科學(xué)導(dǎo)論》復(fù)習(xí)資料_第2頁(yè)

已閱讀5頁(yè)，還剩27頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)科學(xué)課程期末復(fù)習(xí)資料數(shù)據(jù)科學(xué)課程期末復(fù)習(xí)資料數(shù)據(jù)科學(xué)課程講稿章節(jié)目錄：第一章導(dǎo)論第一節(jié)了解數(shù)據(jù)科學(xué)的基本概念第二節(jié)了解數(shù)據(jù)科學(xué)的應(yīng)用第三節(jié)了解數(shù)據(jù)科學(xué)的過(guò)程第四節(jié)掌握數(shù)據(jù)科學(xué)的方法第二章數(shù)據(jù)獲取及預(yù)處理第一節(jié)了解獲取數(shù)據(jù)的途徑和方法第二節(jié)掌握數(shù)據(jù)質(zhì)量檢驗(yàn)的方法第三節(jié)掌握數(shù)據(jù)清洗第四節(jié)掌握數(shù)據(jù)集成第五節(jié)掌握數(shù)據(jù)規(guī)約第六節(jié)掌握數(shù)據(jù)變換第三章數(shù)據(jù)分析第一節(jié)了解探索性數(shù)據(jù)分析的概念第二節(jié)掌握單變量分析方法第三節(jié)掌握多變量分析方法第四節(jié)掌握樣本相似性與相異性分析的方法第四章特征工程第一節(jié)了解特征的介紹和創(chuàng)建過(guò)程第二節(jié)了解降維的基本概念第三節(jié)掌握主成分分析-PCA第四節(jié)掌握奇異值分解-SVD第五節(jié)了解

2、特征選擇的基本概念第六節(jié)掌握過(guò)濾式方法第七節(jié)了解產(chǎn)生特征子集的搜索策略第八節(jié)了解封裝式方法第九節(jié)了解嵌入式方法第五章關(guān)聯(lián)規(guī)則算法第一節(jié)了解關(guān)聯(lián)規(guī)則的基本概念第二節(jié)掌握頻繁項(xiàng)集的產(chǎn)生過(guò)程第三節(jié)掌握 Apriori 算法第六章分類算法第一節(jié)了解分類問(wèn)題基本概念第二節(jié)掌握 k 近鄰算法第三節(jié)了解貝葉斯定理第四節(jié)掌握樸素貝葉斯第五節(jié)了解決策樹(shù)的基本概念第六節(jié)了解決策樹(shù)-特征選擇第七節(jié)了解決策樹(shù)-剪枝算法第七章線性回歸算法第一節(jié)了解線性回歸的基本概念第二節(jié)掌握一元線性回歸第三節(jié)掌握多元線性回歸第八章人工神經(jīng)網(wǎng)絡(luò)第一節(jié)了解神經(jīng)網(wǎng)絡(luò)的基本概念第二節(jié)掌握感知機(jī)的學(xué)習(xí)算法第三節(jié)掌握多層感知機(jī)-反向傳播算法第九章

3、聚類算法第一節(jié)了解聚類問(wèn)題的介紹第二節(jié)掌握層次聚類第三節(jié)掌握 K-means 聚類第四節(jié)了解 BFR 聚類一、客觀部分：（單項(xiàng)選擇、判斷）（一）、選擇部分1、通過(guò)構(gòu)造新的指標(biāo)-線損率，當(dāng)超出線損率的正常范圍，則可以判斷這條線路的用戶可能存在竊漏電等異常行為屬于數(shù)據(jù)變換中的（C）A. 簡(jiǎn)單函數(shù)變換B. 規(guī)范化C. 屬性構(gòu)造D. 連續(xù)屬性離散化考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :數(shù)據(jù)變換數(shù)據(jù)變換參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：2-6附 1.1.1（考核知識(shí)點(diǎn)解釋）：數(shù)據(jù)變換是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理，將數(shù)據(jù)轉(zhuǎn)換成“適當(dāng)?shù)摹毙问?，更適用于任務(wù)及算法需要。包括簡(jiǎn)單函數(shù)變換、規(guī)范化、屬性構(gòu)造、連續(xù)屬性離散化等。簡(jiǎn)單函數(shù)變

4、換：對(duì)原始數(shù)據(jù)進(jìn)行某些數(shù)學(xué)函數(shù)變換，常用來(lái)將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)。比如個(gè)人年收入的取值范圍為 10000 元到 10 億元，區(qū)間太大使用對(duì)數(shù)變換對(duì)其進(jìn)行壓縮是常用的一種變換處理方法。規(guī)范化：不同評(píng)價(jià)指標(biāo)具有不同的量綱，數(shù)值間的差別可能很大。為了消除量綱和差異的影響，需要進(jìn)行標(biāo)準(zhǔn)化處理。將數(shù)據(jù)按照比例進(jìn)行縮放，落入特定區(qū)域，便于進(jìn)行綜合分析。例如將工資收入屬性值映射到-1,1或者0,1內(nèi)屬性構(gòu)造：利用已有的屬性集構(gòu)造新的屬性，加入到現(xiàn)有的屬性集合，提高結(jié)果精度，挖掘更深層次模式。連續(xù)屬性離散化：在數(shù)據(jù)的取值范圍內(nèi)設(shè)定若干個(gè)離散的劃分點(diǎn)，將取值范圍劃分為一些離散化的區(qū)間，最

5、后用不同的符號(hào)或整數(shù)值代表落在每個(gè)子區(qū)間中的數(shù)據(jù)值。2、實(shí)體識(shí)別屬于以下哪個(gè)過(guò)程（B）A. 數(shù)據(jù)清洗B. 數(shù)據(jù)集成C. 數(shù)據(jù)規(guī)約D. 數(shù)據(jù)變換考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :數(shù)據(jù)集成數(shù)據(jù)集成參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：2-4附 1.1.2（考核知識(shí)點(diǎn)解釋）：數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源合并，存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)（如數(shù)據(jù)倉(cāng)庫(kù)）中。數(shù)據(jù)集成是數(shù)據(jù)預(yù)處理的一部分。數(shù)據(jù)預(yù)處理通常包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。其中：數(shù)據(jù)清洗一般包括缺失值處理和異常值處理。數(shù)據(jù)集成一般包括實(shí)體識(shí)別和冗余屬性識(shí)別。數(shù)據(jù)規(guī)約一般包括屬性規(guī)約和數(shù)值規(guī)約。數(shù)據(jù)變換一般包括簡(jiǎn)單函數(shù)變換、規(guī)范化、屬性構(gòu)造等。3、數(shù)據(jù)質(zhì)量檢驗(yàn)的

6、主要任務(wù)就是檢查原始數(shù)據(jù)中是否存在“臟數(shù)據(jù)”，概括性來(lái)說(shuō)，臟數(shù)據(jù)不包括以下（A）A. 普通值B. 異常值C. 不一致的值D. 重復(fù)值考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :數(shù)據(jù)質(zhì)量檢驗(yàn)數(shù)據(jù)質(zhì)量檢驗(yàn)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：2-2附 1.1.3（考核知識(shí)點(diǎn)解釋）：對(duì)于數(shù)據(jù)分析而言，只有一份高質(zhì)量的基礎(chǔ)數(shù)據(jù)，才可能得到正確、有用的結(jié)論。期望數(shù)據(jù)完美是不現(xiàn)實(shí)的，因?yàn)闀?huì)受到人的錯(cuò)誤、測(cè)量設(shè)備的限制、數(shù)據(jù)收集過(guò)程的漏洞等因素影響。比如以下情況都可能導(dǎo)致問(wèn)題：數(shù)據(jù)的值、整個(gè)數(shù)據(jù)對(duì)象都可能會(huì)丟失，可能有不真實(shí)的或重復(fù)的對(duì)象，可能有不一致的對(duì)象。數(shù)據(jù)質(zhì)量檢驗(yàn)的主要任務(wù)就是檢查原始數(shù)據(jù)中是否存在以上的“臟數(shù)據(jù)”。概括性

7、來(lái)說(shuō)，臟數(shù)據(jù)主要包括四點(diǎn)：缺失值、異常值、不一致的值、重復(fù)值。4、決策樹(shù)在什么情況下結(jié)點(diǎn)需要?jiǎng)澐郑―）A.當(dāng)前結(jié)點(diǎn)所包含的樣本全屬于同一類別B. 當(dāng)前屬性集為空，或是所有樣本在所有屬性上取值相同C. 當(dāng)前結(jié)點(diǎn)包含的樣本集為空D. 還有子集不能被基本正確分類考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :決策樹(shù)決策樹(shù)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-5附 1.1.4（考核知識(shí)點(diǎn)解釋）：決策樹(shù)學(xué)習(xí)算法流程1. 構(gòu)建根結(jié)點(diǎn) node,將所有的訓(xùn)練數(shù)據(jù)都放在根結(jié)點(diǎn)。2. 選擇一個(gè)最優(yōu)特征，按照這一特征將訓(xùn)練數(shù)據(jù)集分割成子集，使得各個(gè)子集有一個(gè)在當(dāng)前條件下的最好分類。3. 如果這些子集已經(jīng)能夠被基本正確分類，那么構(gòu)建葉結(jié)點(diǎn)，并

8、將這些子集分到所對(duì)應(yīng)的葉結(jié)點(diǎn)中。（1）當(dāng)前結(jié)點(diǎn)所包含的樣本全屬于同一類別 a_i，無(wú)需劃分；結(jié)點(diǎn)類別標(biāo)記為 a_i（2）當(dāng)前屬性集為空，或是所有樣本在所有屬性上取值相同，無(wú)法劃分；將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)，將其類別設(shè)定為該結(jié)點(diǎn)所含樣本最多的類別（3）當(dāng)前結(jié)點(diǎn)包含的樣本集為空，不能劃分；將當(dāng)前結(jié)點(diǎn)標(biāo)記為葉結(jié)點(diǎn)，類別設(shè)定為其父節(jié)點(diǎn)所含樣本最多的類別（4）如果還有子集不能被基本正確分類，那么就對(duì)這些子集選擇新的最優(yōu)特征，繼續(xù)對(duì)其進(jìn)行分割構(gòu)建相應(yīng)的結(jié)點(diǎn)，如此遞歸地進(jìn)行下去，直至所有訓(xùn)練數(shù)據(jù)子集被基本正確分類或者沒(méi)有合適的特征為止5、系統(tǒng)日志收集的基本特征不包括（D）A. 高可用性B. 高可靠性

9、C. 可擴(kuò)展性D. 高效率考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :獲取數(shù)據(jù)獲取數(shù)據(jù)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：2-1附 1.1.5（考核知識(shí)點(diǎn)解釋）：獲取數(shù)據(jù)就是數(shù)據(jù)收集，按照確定的數(shù)據(jù)分析框架，為數(shù)據(jù)分析提供素材和依據(jù)，包括第一手?jǐn)?shù)據(jù)（可直接獲取的數(shù)據(jù)）和第二手?jǐn)?shù)據(jù)（經(jīng)過(guò)加工整理后得到的數(shù)據(jù)）。獲取數(shù)據(jù)的途徑有很多，我們可以通過(guò)系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫(kù)收集、公開(kāi)出版物、開(kāi)放數(shù)據(jù)平臺(tái)和市場(chǎng)調(diào)查等。其中系統(tǒng)日志收集是公司業(yè)務(wù)平臺(tái)每天產(chǎn)生大量日志數(shù)據(jù)，收集日志數(shù)據(jù)可以供公司分析系統(tǒng)使用研究，其具有以下基本特征：高可用性、高可靠性、可擴(kuò)展性?！案呖捎眯裕℉ighAvailability）通常來(lái)描述一個(gè)系

10、統(tǒng)經(jīng)過(guò)專門(mén)的設(shè)計(jì),從而減少停工時(shí)間，而保持其服務(wù)的高度可用性?！案呖煽啃裕╤ighreliability）指的是運(yùn)行時(shí)間能夠滿足預(yù)計(jì)時(shí)間的一個(gè)系統(tǒng)或組件。可靠性可以用“100%可操作性”或者“從未失敗”這兩種標(biāo)準(zhǔn)來(lái)表示。一個(gè)被廣泛應(yīng)用但卻難以達(dá)到的標(biāo)準(zhǔn)是著名的“5 個(gè) 9 標(biāo)準(zhǔn)”,就是說(shuō)工作的可靠性要達(dá)到99.999%?！翱蓴U(kuò)展性”可以通過(guò)軟件框架來(lái)實(shí)現(xiàn)：動(dòng)態(tài)加載的插件、頂端有抽象接口的認(rèn)真設(shè)計(jì)的類層次結(jié)構(gòu)、有用的回調(diào)函數(shù)構(gòu)造以及功能很有邏輯并且可塑性很強(qiáng)的代碼結(jié)構(gòu)。6、k 近鄰法的基本要素不包括（C）。A. 距離度量B. k 值的選擇C. 樣本大小D. 分類決策規(guī)則考核知識(shí)點(diǎn)：考核知識(shí)

11、點(diǎn)：K K 近鄰法近鄰法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-2 附 1.1.6（考核知識(shí)點(diǎn)解釋）：K 近鄰法是一種基于向量空間的分類方法，輸入為實(shí)例的特征向量，對(duì)應(yīng)于特征空間中的點(diǎn)。K 近鄰法簡(jiǎn)單，直觀，不具有顯式的學(xué)習(xí)過(guò)程。它的基本思想是給定一個(gè)訓(xùn)練數(shù)據(jù)集，對(duì)新的輸入實(shí)例，在訓(xùn)練數(shù)據(jù)集中找到與該實(shí)例最鄰近的 k 個(gè)實(shí)例，這 k個(gè)實(shí)例的多數(shù)屬于某個(gè)類，就把該輸入實(shí)例分為這個(gè)類。K 近鄰法的三個(gè)基本要素包括：距離度量、k 值的選擇、分類決策規(guī)則。1. 距離度量：特征空間中兩個(gè)實(shí)例點(diǎn)的距離是兩個(gè)實(shí)例點(diǎn)的相似程度的反映 K 近鄰模型的特征空間一般是 n 維實(shí)數(shù)向量空間 Rb 使用的距離是歐式距離，

12、但也可以是其他距離如更一般的厶卩距離（Lpdistance）或 Minkowski 距離（Minkowskidistance）。2. k 值的選擇：選擇較小的 k 值，相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)，學(xué)習(xí)的“近似誤差”會(huì)減小， “估計(jì)誤差”會(huì)增大，預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。k 值減小意味著整體模型變得復(fù)雜，容易發(fā)生過(guò)擬合。選擇較大的 k 值，學(xué)習(xí)的“近似誤差”會(huì)增大，“估計(jì)誤差”會(huì)減小，與輸入實(shí)例較遠(yuǎn)（不相似）的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用。k 值增大意味著整體模型變得簡(jiǎn)單。在應(yīng)用中，k 值一般取一個(gè)比較小的數(shù)值，通常采用交叉驗(yàn)證法來(lái)選取最優(yōu)的 k值。3分類決策規(guī)則：k 近鄰法

13、中的分類決策規(guī)則往往是多數(shù)表決，即由輸入實(shí)例的k 個(gè)鄰近的訓(xùn)練實(shí)例中的多數(shù)類決定輸入實(shí)例的類。7、一元回歸參數(shù)估計(jì)的參數(shù)求解方法不包括（D）。A. 最大似然法B. 距估計(jì)法C. 最小二乘法D. 歐式距離法考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :一元線性回歸參見(jiàn)講稿章節(jié)：一元線性回歸參見(jiàn)講稿章節(jié)：7-1 附 1.1.7（考核知識(shí)點(diǎn)解釋）：分類問(wèn)題主要關(guān)注于離散型變量，然而在客觀世界中普遍存在著連續(xù)型變量因此需要考慮如何對(duì)連續(xù)型變量之間的關(guān)系進(jìn)行分析。變量之間的關(guān)系一般來(lái)說(shuō)可以分為確定性關(guān)系與非確定性關(guān)系兩種。確定性關(guān)系是指變量之間的關(guān)系可以用函數(shù)關(guān)系來(lái)表達(dá)，而另一種非確定性的關(guān)系即為所謂的相關(guān)關(guān)系，例如

14、身高與體重的關(guān)系，身高越高通常情況下體重越重，但是同樣高度的人，體重卻未必相同，與此類似的還有體重、年齡與血壓的關(guān)系，天氣，住房面積，房?jī)r(jià)與用戶用電量的關(guān)系等等。這些變量之間的關(guān)系是非確定性的，而回歸分析就是研究這種相關(guān)關(guān)系的工具，它可以幫助我們從一個(gè)或一組變量取得的值去估計(jì)另一個(gè)變量的值。一元線性回歸中，參數(shù)求解方法有以下三種：最大似然法、距估計(jì)法和最小二乘法。其中最小二乘法是線性回歸問(wèn)題中常用的參數(shù)求解方法，最小二乘法的目標(biāo)是最小化殘差平方和。首先將目標(biāo)函數(shù)分別對(duì)和W求導(dǎo)并令導(dǎo)數(shù)等于 08、下列選項(xiàng)不是 BFR 的對(duì)象是（B）A. 廢棄集B. 臨時(shí)集C. 壓縮集D. 留存集考核知識(shí)點(diǎn)

15、：考核知識(shí)點(diǎn)：BFRBFR 聚類聚類參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-4附 1.1.8（考核知識(shí)點(diǎn)解釋）：BFR 聚類是用于處理數(shù)據(jù)集非常大的 k-means 變體，用于在高維歐氏空間中對(duì)數(shù)據(jù)進(jìn)行聚類。它對(duì)簇的形狀做出了非常強(qiáng)烈的假設(shè)：必須正態(tài)分布在質(zhì)心周圍。BFR 算法的步驟流程：1簇初始化。隨機(jī)取 k 個(gè)點(diǎn)，隨機(jī)抽取一小部分樣本并進(jìn)行聚類，選取一個(gè)樣本，并隨機(jī)抽取點(diǎn)，剩下的 k-1 個(gè)點(diǎn)盡可能遠(yuǎn)離先前選擇的點(diǎn)。2.數(shù)據(jù)文件讀入。數(shù)據(jù)文件中的點(diǎn)按組塊方式讀入：分布式文件系統(tǒng)中的組塊、傳統(tǒng)文件分割成的大小合適的組塊、每個(gè)組塊必須包含足夠少的點(diǎn)以便能在內(nèi)存中進(jìn)行處理。內(nèi)存中除了輸入組塊之

16、外還包括其他三種對(duì)象：（1）廢棄集：由簇本身的簡(jiǎn)單概要信息組成，簇概要本身沒(méi)有被“廢棄”，它們實(shí)際上不可或缺。概要所代表的點(diǎn)已被廢棄，它們?cè)趦?nèi)存中除了通過(guò)該概要之外已經(jīng)沒(méi)有其他表示信息。（2）壓縮集：類似于簇概要信息，壓縮集中存放概要信息。只存放那些相互接近的點(diǎn)集的概要，而不是接近任何簇的點(diǎn)集的概要。壓縮集所代表的點(diǎn)也被廢棄，它們也不會(huì)顯式地出現(xiàn)在內(nèi)存中。（3）留存集：留存集上的點(diǎn)不能分配給某個(gè)簇，留存集上的點(diǎn)不會(huì)和某個(gè)其他點(diǎn)充分接近而被放到壓縮集中，這些點(diǎn)在內(nèi)存中會(huì)與其在輸入文件中一樣顯示存在。9、聚類的主要方法不包括（D）A. 劃分聚類B. 層次聚類C. 密度聚類D. 距離聚類考核知識(shí)

17、點(diǎn)考核知識(shí)點(diǎn): :聚類的方法聚類的方法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-1附 1.1.9（考核知識(shí)點(diǎn)解釋）：聚類是將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集，是一種無(wú)監(jiān)督學(xué)習(xí)方法。給定一組點(diǎn)，使用點(diǎn)之間的距離概念，將點(diǎn)分組為若干簇，以便簇內(nèi)的成員彼此接近/相似，不同簇的成員不同。通常點(diǎn)位于高維空間中，使用距離測(cè)量來(lái)定義相似性。聚類的主要方法有：劃分聚類、層次聚類、密度聚類。10、以下哪一項(xiàng)不是特征選擇常見(jiàn)的方法（D）A. 過(guò)濾式B. 封裝式C. 嵌入式D. 開(kāi)放式考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :特征選擇特征選擇參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：4-6附 1.1.10（考核知識(shí)點(diǎn)解釋）：從數(shù)據(jù)集的全部特征

18、中選取一個(gè)特征子集的過(guò)程被稱為特征選擇（featureselection）。特征選擇常見(jiàn)的方法包括：過(guò)濾式方法、封裝式方法、嵌入式方法。11、以下哪一項(xiàng)不是特征工程的子問(wèn)題（D）A. 特征創(chuàng)建B. 特征提取C. 特征選擇D. 特征識(shí)別考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :特征的介紹和創(chuàng)建特征的介紹和創(chuàng)建參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：4-1附 1.1.11（考核知識(shí)點(diǎn)解釋）：特征工程是使用領(lǐng)域知識(shí)來(lái)基于原始數(shù)據(jù)創(chuàng)建特征的過(guò)程，它是機(jī)器學(xué)習(xí)的基礎(chǔ)，是困難且繁雜的。特征工程的子問(wèn)題包括特征創(chuàng)建、特征提取和特征選擇。12、比如一張表，從業(yè)務(wù)上講，一個(gè)用戶應(yīng)該只會(huì)有一條記錄，那么如果某個(gè)用戶出現(xiàn)了超過(guò)一條的記錄，這就

19、產(chǎn)生了（C）A. 異常值B. 不一致的值C. 重復(fù)值D. 缺失值考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :數(shù)據(jù)質(zhì)量檢驗(yàn)數(shù)據(jù)質(zhì)量檢驗(yàn)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：2-2附 1.1.12（考核知識(shí)點(diǎn)解釋）：數(shù)據(jù)質(zhì)量檢驗(yàn)的主要任務(wù)就是檢查原始數(shù)據(jù)中是否存在以上的“臟數(shù)據(jù)”，概括性來(lái)說(shuō)，臟數(shù)據(jù)主要包括以下四點(diǎn)：缺失值、異常值、不一致的值、重復(fù)值。缺失值：記錄的缺失，記錄中某個(gè)字段信息的缺失。異常值：指樣本中的個(gè)別值，其數(shù)值明顯偏離其余觀測(cè)值。也稱離群點(diǎn)。不一致的值：數(shù)據(jù)不一致是指數(shù)據(jù)的矛盾性和不相容性，主要發(fā)生在數(shù)據(jù)集成的過(guò)程中。重復(fù)值;對(duì)于二維表形式的數(shù)據(jù)集來(lái)說(shuō),主要是關(guān)鍵字段出現(xiàn)重復(fù)記錄,例如主索引字段出現(xiàn)重復(fù)。1

20、3、對(duì)于相似性與相異性的度量方法，基于距離的方法，以下哪一項(xiàng)不符合要求（D）A. 歐氏距離B. 曼哈頓距離C. 馬氏距離D. 對(duì)角距離考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :樣本相似性與相異性分析樣本相似性與相異性分析參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：3-5附 1.1.13（考核知識(shí)點(diǎn)解釋）：兩個(gè)對(duì)象之間的相似度（similarity）是兩個(gè)對(duì)象相似程度的數(shù)值度量。因而，兩個(gè)對(duì)象越相似，它們的相似度就越高。通常，相似度是非負(fù)的，并常常在 0（不相似）和 1（完全相似）之間取值。兩個(gè)對(duì)象之間的相異度（dissimilarity）是這兩個(gè)對(duì)象差異程度的數(shù)值度量。對(duì)象越相似，他們的相異度就越低。通常，術(shù)語(yǔ)距離（dis

21、tance）被用作相異度的同義詞，常常用來(lái)表示特定類型的相異度。其中，相似性與相異性的度量方法中，基于距離的方法有歐氏距離、曼哈頓距離、明可夫斯基距離、馬氏距離。14、通過(guò)變量標(biāo)準(zhǔn)化計(jì)算得到的回歸方程稱為（A）。A. 標(biāo)準(zhǔn)化回歸方程B. 標(biāo)準(zhǔn)化偏回歸方程C. 標(biāo)準(zhǔn)化自回歸方程D. 標(biāo)準(zhǔn)化多回歸方程考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :多元線性回歸多元線性回歸參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：7-2附 1.1.14（考核知識(shí)點(diǎn)解釋）：在實(shí)際問(wèn)題中，各自變量都有各自的計(jì)量單位以及不同的變異程度，所以不能直接用普通的偏回歸系數(shù)的大小來(lái)比較方程中各個(gè)自變量對(duì)因變量y的影響大小，可以利用標(biāo)準(zhǔn)化偏回歸系數(shù)來(lái)衡量。通過(guò)變量

22、標(biāo)準(zhǔn)化計(jì)算得到的回歸方程稱為標(biāo)準(zhǔn)化回歸方程，相應(yīng)的回歸系數(shù)即為標(biāo)準(zhǔn)化偏回歸系數(shù)。15、一元線性回歸中，真實(shí)值與預(yù)測(cè)值的差稱為樣本的（D）。A. 誤差B. 方差C. 測(cè)差D. 殘差考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :一元線性回歸一元線性回歸參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：7-1附 1.1.15（考核知識(shí)點(diǎn)解釋）：在一元線性回歸中，輸入只包含一個(gè)單獨(dú)的特征，真實(shí)值與預(yù)測(cè)值的差稱為樣本的殘差。其中殘差項(xiàng)服從正態(tài)分布。16、在回歸分析中，自變量為（），因變量為（D）。A. 離散型變量，離散型變量B. 連續(xù)型變量，離散型變量C. 離散型變量，連續(xù)型變量D. 連續(xù)型變量，連續(xù)型變量考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :一元線性回歸

23、參見(jiàn)講稿章節(jié)：一元線性回歸參見(jiàn)講稿章節(jié)：7-1 附 1.1.16（考核知識(shí)點(diǎn)解釋）：設(shè)輸入為d維自變量兀，輸出因變量y為連續(xù)型，回歸分析等價(jià)于尋找一個(gè)映射函數(shù)f,建立兀到y(tǒng)的映射關(guān)系。其中 x 和 y 都是連續(xù)型變量。17、為了解決任何復(fù)雜的分類問(wèn)題，使用的感知機(jī)結(jié)構(gòu)應(yīng)至少包含（B）個(gè)隱含層。A.1B. 2C. 3D.4考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：8-2 附 1.1.17（考核知識(shí)點(diǎn)解釋）：感知機(jī)只能解決線性可分的問(wèn)題，多層感知機(jī)可以解決非線性可分的問(wèn)題，輸入層與輸出層之間的一層神經(jīng)元，稱為隱含層。隱含層和輸出層都是擁有激活函數(shù)的功能神經(jīng)元

24、。隨著隱含層層數(shù)的增多，凸域?qū)⒖梢孕纬扇我獾男螤?，可以解決任何復(fù)雜的分類問(wèn)題。雙隱層感知器就足以解決任何復(fù)雜的分類問(wèn)題。18、BFR 聚類用于在（A）歐氏空間中對(duì)數(shù)據(jù)進(jìn)行聚類A. 高維B. 中維C. 低維D. 中高維考核知識(shí)點(diǎn)：考核知識(shí)點(diǎn)：BFRBFR 聚類聚類參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-4附 1.1.18（考核知識(shí)點(diǎn)解釋）：BFR 是用于處理數(shù)據(jù)集非常大的 k-means 變體，用于在高維歐氏空間中對(duì)數(shù)據(jù)進(jìn)行聚類。19、層次聚類對(duì)給定的數(shù)據(jù)進(jìn)行（B）的分解。A. 聚合B. 層次C. 分拆D.復(fù)制考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :層次聚類層次聚類參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-2附 1.1.19

25、（考核知識(shí)點(diǎn)解釋）：層次聚類對(duì)給定的數(shù)據(jù)進(jìn)行層次的分解，適用于規(guī)模較小的數(shù)據(jù)集。層次的方法包括聚合方法和分拆方法。（二）、判斷部分1、當(dāng)維度增加時(shí)，特征空間的體積增加得很快，使得可用的數(shù)據(jù)變得稀疏。（V）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :降維的基本概念降維的基本概念參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：4-2附 1.2.1（考核知識(shí)點(diǎn)解釋）：維數(shù)災(zāi)難：當(dāng)維度增加時(shí)，特征空間的體積增加得很快，使得可用的數(shù)據(jù)變得稀疏。例如：給定有 10 個(gè)樣本，假設(shè)每一維的特征空間都是一個(gè)長(zhǎng)度為 5 的線段，使用一維特征時(shí)，特征空間大小=5，樣本密度=樣本數(shù)/特征空間大小=10/5=2；使用二維特征時(shí)：特征空間大小=5*5=2

26、5，樣本密度=樣本數(shù)/特征空間大小=10/25=0.4；使用三維特征時(shí)：特征空間大小=5*5*5=125樣本密度=樣本數(shù)/特征空間大小=10/125=0.08。2、數(shù)據(jù)分析師的任務(wù)：用模型來(lái)回答具體問(wèn)題，了解數(shù)據(jù)，其來(lái)源和結(jié)構(gòu)。（X）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :數(shù)據(jù)科學(xué)的過(guò)程數(shù)據(jù)科學(xué)的過(guò)程參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：1-3 附 1.2.2（考核知識(shí)點(diǎn)解釋）：一個(gè)分析師需要具備以下能力：1.提出正確的問(wèn)題2.爭(zhēng)論數(shù)據(jù)3.管理數(shù)據(jù)以便組織輕松訪問(wèn)4.探索數(shù)據(jù)以產(chǎn)生假設(shè)5.使用統(tǒng)計(jì)方法6.使用可視化，演示和產(chǎn)品表達(dá)結(jié)果數(shù)據(jù)分析師的任務(wù)：爭(zhēng)論數(shù)據(jù)，管理數(shù)據(jù)，創(chuàng)建基本分析和可視化。數(shù)據(jù)建模師的任務(wù)：用模型

27、來(lái)回答具體問(wèn)題，了解數(shù)據(jù)其來(lái)源和結(jié)構(gòu)。數(shù)據(jù)科學(xué)家的任務(wù)：提問(wèn)正確的問(wèn)題，尋找數(shù)據(jù)中的模式，批判性的解釋結(jié)果。3、探索性數(shù)據(jù)分析的特點(diǎn)是研究從原始數(shù)據(jù)入手，完全以實(shí)際數(shù)據(jù)為依據(jù)。?。┛己酥R(shí)點(diǎn)考核知識(shí)點(diǎn): :探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：3-1附 1.2.3（考核知識(shí)點(diǎn)解釋）：探索性數(shù)據(jù)分析：在盡量少的先驗(yàn)假定下，通過(guò)作圖、制表、方程擬合、計(jì)算特征量等手段，探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律。探索性數(shù)據(jù)分析可以最大化數(shù)據(jù)分析者對(duì)數(shù)據(jù)集和數(shù)據(jù)集底層結(jié)構(gòu)的洞察力，并且為分析者提供數(shù)據(jù)集中包含的各類信息。探索性數(shù)據(jù)分析的主要特點(diǎn)：1.研究從原始數(shù)據(jù)入手，完全以實(shí)際數(shù)據(jù)為依據(jù)2.分析

28、方法從實(shí)際出發(fā)，不以某種理論為依據(jù)3.分析工具簡(jiǎn)單直觀，更易于普及4、特征的信息增益越大，則其越重要。（V）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :過(guò)濾式方法參見(jiàn)講稿章節(jié)：過(guò)濾式方法參見(jiàn)講稿章節(jié)：4-9附 1.2.4（考核知識(shí)點(diǎn)解釋）：特征：是一個(gè)客體或一組客體特性的抽象結(jié)果，是對(duì)數(shù)據(jù)建模有用的屬性。好的特征可以降低模型的復(fù)雜度，提升模型的性能，提高模型的靈活性。信息熵主要用來(lái)描述數(shù)據(jù)信息的不確定性。信息熵越大，數(shù)據(jù)信息的不確定性越大。特征選擇中，信息增益用來(lái)衡量系統(tǒng)包含某一個(gè)特征與不包含該特征時(shí)的信息量的差值。即反映某一特征對(duì)系統(tǒng)的重要性。當(dāng)特征為離散型時(shí)，可以使用信息增益作為評(píng)價(jià)統(tǒng)計(jì)量。特征的信息增益越

29、大，則其越重要。5、隨著特征維數(shù)的增加，樣本間區(qū)分度提高。（X）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :降維的基本概念參見(jiàn)講稿章節(jié)：降維的基本概念參見(jiàn)講稿章節(jié)：4-2附 1.2.5（考核知識(shí)點(diǎn)解釋）：隨著特征維數(shù)的增加，特征空間呈指數(shù)倍增長(zhǎng)，樣本密度急劇減小，樣本稀疏。隨著特征維數(shù)的增加，樣本間區(qū)分度降低。假設(shè)有一個(gè)二維特征空間，在矩形內(nèi)部有一個(gè)內(nèi)切的圓形，越接近圓心的樣本越稀疏，相比于圓形內(nèi)的樣本，位于矩形四角的樣本更加難以分類。隨著特征維數(shù)的增加，將矩形和內(nèi)切圓泛化為超立方體與超球體。隨著特征數(shù)量的增加，超球體的體積逐漸減小直至趨向于 0，然而超立方體的體積卻不變。高維特征空間中，大多數(shù)的訓(xùn)練樣本位

30、于超立方體的角落。6、多層感知機(jī)的學(xué)習(xí)能力有限，只能處理線性可分的二分類問(wèn)題。（X）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：8-2附 1.2.6（考核知識(shí)點(diǎn)解釋）：感知機(jī)只能解決線性可分的問(wèn)題，但多層感知機(jī)可以解決非線性可分的問(wèn)題輸入層與輸出層之間的一層神經(jīng)元，稱為隱含層。隱含層和輸出層都是擁有激活函數(shù)的功能神經(jīng)元。單層感知機(jī)：在輸入空間形成一個(gè)超平面將實(shí)例劃分為正負(fù)兩類。單隱層的多層感知機(jī)：在輸入空間形成開(kāi)凸或閉凸區(qū)域。雙隱層的多層感知機(jī)：在輸入空間形成任意形狀的劃分區(qū)域。7、給定一組點(diǎn)，使用點(diǎn)之間的距離概念，將點(diǎn)分組為若干簇，不同簇的成員不可以相同

31、。（V）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :聚類問(wèn)題聚類問(wèn)題參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-1附 1.2.7（考核知識(shí)點(diǎn)解釋）：聚類是將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集，是一種無(wú)監(jiān)督學(xué)習(xí)方法。給定一組點(diǎn)，使用點(diǎn)之間的距離概念，將點(diǎn)分組為若干簇，以便簇內(nèi)的成員彼此接近/相似，不同簇的成員不同。通常點(diǎn)位于高維空間中，使用距離測(cè)量來(lái)定義相似性。8、給定關(guān)聯(lián)規(guī)則 A-B，意味著：若 A 發(fā)生，B 也會(huì)發(fā)生。（X）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：5-1附 1.2.8（考核知識(shí)點(diǎn)解釋）：關(guān)聯(lián)規(guī)則是形如 X-Y 的蘊(yùn)涵式，其中， X 和 Y 分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)

32、（antecedent或 left-hand-side,LHS）和后繼（consequent 或 right-hand-side,RHS）。其中，關(guān)聯(lián)規(guī)則 XY，存在支持度和信任度。給定關(guān)聯(lián)規(guī)則 A-B，意味著：若 A 發(fā)生，B 有可能會(huì)發(fā)生，而不是一定會(huì)發(fā)生。9、Jaccard 系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問(wèn)題。（V）考核知考核知識(shí)點(diǎn)識(shí)點(diǎn): :樣本相似性與相異性分析樣本相似性與相異性分析參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：3-6附 1.2.9（考核知識(shí)點(diǎn)解釋）：Jaccard 系數(shù)，又稱為 Jaccard 相似系數(shù)（Jaccardsimilaritycoefficient）,用于比較有

33、限樣本集之間的相似性與差異性。Jaccard 系數(shù)值越大，樣本相似度越高。Jaccard 主要用于計(jì)算符號(hào)度量或布爾值度量的個(gè)體間的相似度，因?yàn)閭€(gè)體的特征屬性都是由符號(hào)度量或者布爾值標(biāo)識(shí)，因此無(wú)法衡量差異具體值的大小，只能獲得“是否相同”這個(gè)結(jié)果，所以 Jaccard 系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問(wèn)題。10、集中趨勢(shì)能夠表明在一定條件下數(shù)據(jù)的獨(dú)特性質(zhì)與差異。（X）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :單變量分析單變量分析參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：3-2附 1.2.10（考核知識(shí)點(diǎn)解釋）：?jiǎn)巫兞糠治鲋饕P(guān)注于單變量的描述和統(tǒng)計(jì)推斷兩個(gè)方面，旨在用簡(jiǎn)單的概括形式反映出大量樣本資料所容納的

34、基本信息，描述樣本數(shù)據(jù)中的集中或離散趨勢(shì)。集中趨勢(shì)又稱“數(shù)據(jù)的中心位置”、“集中量數(shù)”等，是一組數(shù)據(jù)的代表值。集中趨勢(shì)能夠表明在一定條件下數(shù)據(jù)的共同性質(zhì)和一般水平。常用的有平均數(shù)、中位數(shù)等。11、利用 K 近鄰法進(jìn)行分類時(shí)，使用不同的距離度量所確定的最近鄰點(diǎn)都是相同的。（X）考核知識(shí)點(diǎn)：考核知識(shí)點(diǎn)：K K 近鄰法近鄰法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-2附 1.2.11（考核知識(shí)點(diǎn)解釋）：K 近鄰法是一種基于向量空間的分類方法，輸入為實(shí)例的特征向量，對(duì)應(yīng)于特征空間中的點(diǎn)，K 近鄰法簡(jiǎn)單，直觀，不具有顯式的學(xué)習(xí)過(guò)程。由不同的距離度量所確定的最近鄰點(diǎn)是不同的12、利用 K 近鄰法進(jìn)行分類時(shí)，

35、k 值過(guò)小容易發(fā)生過(guò)擬合現(xiàn)象。（V）考核知識(shí)點(diǎn)：考核知識(shí)點(diǎn)：K K 近鄰法近鄰法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-2附 1.2.12（考核知識(shí)點(diǎn)解釋）：K 值的選擇：選擇較小的 k 值，相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)，學(xué)習(xí)的“近似誤差”會(huì)減小，“估計(jì)誤差”會(huì)增大，預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。k 值減小意味著整體模型變得復(fù)雜，容易發(fā)生過(guò)擬合。選擇較大的 k 值，學(xué)習(xí)的“近似誤差”會(huì)增大，“估計(jì)誤差”會(huì)減小，與輸入實(shí)例較遠(yuǎn)（不相似）的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用。k 值增大意味著整體模型變得簡(jiǎn)單。在應(yīng)用中，k 值一般取一個(gè)比較小的數(shù)值，通常采用交叉驗(yàn)證法來(lái)選取最優(yōu)的 k值。13、神經(jīng)網(wǎng)絡(luò)

36、中誤差精度的提高可以通過(guò)增加隱含層中的神經(jīng)元數(shù)目來(lái)實(shí)現(xiàn)。V）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：8-2附 1.2.13（考核知識(shí)點(diǎn)解釋）：通過(guò)增加其神經(jīng)元個(gè)數(shù)，可以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度。神經(jīng)元數(shù)過(guò)少時(shí)，網(wǎng)絡(luò)不能很好的學(xué)習(xí)，訓(xùn)練的迭代次數(shù)較多，訓(xùn)練精度不高；神經(jīng)元數(shù)過(guò)多時(shí)，網(wǎng)絡(luò)功能更強(qiáng)大，精確度更高，但訓(xùn)練的迭代次數(shù)也更大，并且可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象；由此，神經(jīng)網(wǎng)絡(luò)中，隱含層神經(jīng)元個(gè)數(shù)的選取原則是：在能夠解決問(wèn)題的前提下，再增加 1 到 2 個(gè)神經(jīng)元，以加快誤差下降速度即可。14、單層感知機(jī)對(duì)于線性不可分的數(shù)據(jù)，學(xué)習(xí)過(guò)程也可以收斂。（X）考核知識(shí)點(diǎn)考核知

37、識(shí)點(diǎn): :人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：8-1附 1.2.14（考核知識(shí)點(diǎn)解釋）：?jiǎn)螌痈兄獧C(jī)只擁有一層的功能神經(jīng)元，即只有輸出層神經(jīng)元進(jìn)行激活函數(shù)的處理，學(xué)習(xí)能力有限。當(dāng)二分類問(wèn)題是線性可分的，即存在一個(gè)線性超平面將其分開(kāi)，則感知機(jī)的學(xué)習(xí)過(guò)程會(huì)收斂，對(duì)于線性不可分的數(shù)據(jù)，算法不收斂。15、聚合方法是自底向上的方法。（V）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :層次聚類參見(jiàn)講稿章節(jié)：層次聚類參見(jiàn)講稿章節(jié)：9-2 附 1.2.15（考核知識(shí)點(diǎn)解釋）：聚合方法是自底向上的方法。具體思路如下：1.初始時(shí)每個(gè)數(shù)據(jù)都被看成是單獨(dú)的一個(gè)簇2.通過(guò)逐步合并相近的數(shù)據(jù)點(diǎn)或簇，形成越來(lái)越大的簇3.直到所

38、有的數(shù)據(jù)點(diǎn)都在一個(gè)簇中，或者達(dá)到某個(gè)終止條件為止16、如果一個(gè)候選集至少有一個(gè)子集是非頻繁的，根據(jù)支持度的反單調(diào)屬性，這樣的候選項(xiàng)集肯定是非頻繁的。（V）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :頻繁項(xiàng)集的產(chǎn)生參見(jiàn)講稿章節(jié)：頻繁項(xiàng)集的產(chǎn)生參見(jiàn)講稿章節(jié)：5-3附 1.2.16（考核知識(shí)點(diǎn)解釋）：Apriori 定律 1：如果一個(gè)項(xiàng)集是頻繁的，則它的所有子集一定也是頻繁的。Apriori 定律 2：如果一個(gè)集合不是頻繁項(xiàng)集，則它的所有超集都不是頻繁項(xiàng)集。如果一個(gè)候選集至少有一個(gè)子集是非頻繁的，根據(jù)支持度的反單調(diào)屬性，這樣的候選項(xiàng)集肯定是非頻繁的。17、在 k 近鄰方法中，k 值增大意味著整體模型變得復(fù)雜。（X）考

39、核知識(shí)點(diǎn)：考核知識(shí)點(diǎn)：K K 近鄰法近鄰法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-2附 1.2.17（考核知識(shí)點(diǎn)解釋）：選擇較小的 k 值，相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)，學(xué)習(xí)的“近似誤差”會(huì)減小，“估計(jì)誤差”會(huì)增大，預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。k 值減小意味著整體模型變得復(fù)雜，容易發(fā)生過(guò)擬合。選擇較大的 k 值，學(xué)習(xí)的“近似誤差”會(huì)增大，“估計(jì)誤差”會(huì)減小，與輸入實(shí)例較遠(yuǎn)（不相似）的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用。k 值增大意味著整體模型變得簡(jiǎn)單。在應(yīng)用中，k 值一般取一個(gè)比較小的數(shù)值，通常采用交叉驗(yàn)證法來(lái)選取最優(yōu)的 k值。18、樸素貝葉斯分類器有簡(jiǎn)單、高效、健壯的特點(diǎn)，但某些屬性可能會(huì)降

40、低分類。（V）考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :樸素貝葉斯參見(jiàn)講稿章節(jié)：樸素貝葉斯參見(jiàn)講稿章節(jié)：6-4 附 1.2.18（考核知識(shí)點(diǎn)解釋）：樸素貝葉斯的思想基礎(chǔ)是這樣的：對(duì)于給出的待分類項(xiàng)，求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率，哪個(gè)最大，就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別；樸素貝葉斯分類器建立在一個(gè)類條件獨(dú)立性假設(shè)基礎(chǔ)之上：給定類節(jié)點(diǎn)（變量）后，各屬性節(jié)點(diǎn)（變量）之間相互獨(dú)立。樸素貝葉斯分類器一般具有以下特點(diǎn)：簡(jiǎn)單、高效、健壯。面對(duì)孤立的噪聲點(diǎn)，樸素貝葉斯分類器是健壯的，因?yàn)樵趶臄?shù)據(jù)中估計(jì)條件概率時(shí)，這些點(diǎn)被平均。相關(guān)屬性可能會(huì)降低樸素貝葉斯分類器的性能，因?yàn)閷?duì)這些屬性，條件獨(dú)立的假設(shè)已不成立。O二、主

41、觀部分：（一）、填空部分1、二分類問(wèn)題常用的評(píng)價(jià)指標(biāo)是、?？己酥R(shí)點(diǎn)：分類問(wèn)題考核知識(shí)點(diǎn)：分類問(wèn)題參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-1附 2.1.1（考核知識(shí)點(diǎn)解釋）：分類：給定分類體系，將輸入樣本分到其中一個(gè)或者多個(gè)類別中的過(guò)程，是監(jiān)督學(xué)習(xí)的一個(gè)核心問(wèn)題。按類別數(shù)目可以分為二分類 VS 多分類。其中包括學(xué)習(xí)和分類兩個(gè)過(guò)程。監(jiān)督學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)一個(gè)分類模型或決策函數(shù)稱為分類器（classifier）。分類器對(duì)新的輸入進(jìn)行輸出的預(yù)測(cè)，稱為分類，輸出變量 Y 取有限個(gè)離散值。分類常用的方法包括：樸素貝葉斯、決策樹(shù)、支持向量機(jī)、感知機(jī)和 K 近鄰對(duì)于二分類問(wèn)題常用的評(píng)價(jià)指標(biāo)是精確率（precision

42、）與召回率（recall）。2、樸素貝葉斯分類器建立在一個(gè)基礎(chǔ)之上。考核知識(shí)點(diǎn)：樸素貝葉斯考核知識(shí)點(diǎn)：樸素貝葉斯參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-4附 2.1.2（考核知識(shí)點(diǎn)解釋）：樸素貝葉斯分類是一種十分簡(jiǎn)單的分類算法。其思想基礎(chǔ)是這樣的：對(duì)于給出的待分類項(xiàng)，求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率，哪個(gè)最大，就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別；樸素貝葉斯分類器建立在一個(gè)類條件獨(dú)立性假設(shè)基礎(chǔ)之上：給定類節(jié)點(diǎn)（變量）后，各屬性節(jié)點(diǎn)（變量）之間相互獨(dú)立。3、在決策樹(shù)生成算法中，最關(guān)鍵的是如何在每一輪的迭代中選擇。考核知識(shí)點(diǎn)：決策樹(shù)考核知識(shí)點(diǎn)：決策樹(shù)- -特征選擇特征選擇參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-6

43、附 2.1.3（考核知識(shí)點(diǎn)解釋）：在決策樹(shù)生成算法中，最關(guān)鍵的是如何在每一輪的迭代中選擇最優(yōu)特征，一般而言，隨著劃分過(guò)程的不斷進(jìn)行，我們希望決策樹(shù)分支結(jié)點(diǎn)所包含的樣本盡可能屬于同一類別，即結(jié)點(diǎn)的“純度（purity）越來(lái)越高。其中特征選擇的準(zhǔn)則是信息增益。4、一個(gè)關(guān)聯(lián)規(guī)則同時(shí)滿足最小支持度和最小置信度，我們稱之為?？己酥R(shí)點(diǎn)：關(guān)聯(lián)規(guī)則的基本概念考核知識(shí)點(diǎn)：關(guān)聯(lián)規(guī)則的基本概念參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：5-1附 2.1.4（考核知識(shí)點(diǎn)解釋）：關(guān)聯(lián)規(guī)則的兩個(gè)重要的衡量指標(biāo)是支持度和置信度。支持度：具體含義為關(guān)聯(lián)規(guī)則被多少比例的數(shù)據(jù)所覆蓋。置信度：用來(lái)衡量規(guī)則的可信程度。比如規(guī)則男性，尿布-啤酒的支

44、持度表示所有的購(gòu)物記錄中，有百分之多少的記錄中，購(gòu)物者為男性，且同時(shí)購(gòu)買了啤酒和尿布。規(guī)則男性，尿布f啤酒的置信度表示，在購(gòu)物者為男性且購(gòu)買了尿布的記錄中，有多少比例的記錄同時(shí)也購(gòu)買了啤酒。有了支持度和置信度兩個(gè)指標(biāo)，現(xiàn)在我們可以定量地描述我們所需要的規(guī)則給定數(shù)據(jù)集，找出所有不小于預(yù)先設(shè)置的支持度閾值 min_suppt（指用戶指定的支持度的下限）和置信度閾值 min_conf（指用戶指定的置信度的下限）規(guī)則的集合。我們感興趣的規(guī)則要在支持度和置信度兩個(gè)方面滿足最小的條件，這樣的規(guī)則被稱為強(qiáng)關(guān)聯(lián)規(guī)則（strongassociationrule）。5、數(shù)據(jù)科學(xué)的過(guò)程包括獲取數(shù)據(jù)、數(shù)據(jù)探索、結(jié)果展

45、示。考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :數(shù)據(jù)科學(xué)的過(guò)程參見(jiàn)講稿章節(jié)：數(shù)據(jù)科學(xué)的過(guò)程參見(jiàn)講稿章節(jié)：1-3附 2.1.5（考核知識(shí)點(diǎn)解釋）：數(shù)據(jù)科學(xué)的過(guò)程包括獲取數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索、數(shù)據(jù)建模、結(jié)果展示。6、Pearson 線性相關(guān)系數(shù)要求連續(xù)變量的取值服從分布。考核知識(shí)點(diǎn)：多變量分析參見(jiàn)講稿章節(jié)：考核知識(shí)點(diǎn)：多變量分析參見(jiàn)講稿章節(jié)：3-4附 2.1.6（考核知識(shí)點(diǎn)解釋）：為了更加準(zhǔn)確地描述變量之間的線性相關(guān)程度，可以通過(guò)計(jì)算相關(guān)系數(shù)來(lái)進(jìn)行相關(guān)分析。在二元變量的相關(guān)分析過(guò)程中常用的有 Pearson 系數(shù)、Spearman 秩相關(guān)系數(shù)和判定系數(shù)。Pearson 線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分

46、布。不服從正態(tài)分布的變量、分類或等級(jí)變量之間的關(guān)聯(lián)性可采用 Spearman 秩相關(guān)系數(shù)，也稱等級(jí)相關(guān)系數(shù)來(lái)描述。7、歐氏距離越小，兩個(gè)點(diǎn)的相似度就越，歐氏距離越大，兩個(gè)點(diǎn)的相似度就越。考核知識(shí)點(diǎn)：樣本相似性與相異性參見(jiàn)講稿章節(jié)：考核知識(shí)點(diǎn)：樣本相似性與相異性參見(jiàn)講稿章節(jié)：3-5附 2.1.7（考核知識(shí)點(diǎn)解釋）：歐幾里得度量（也稱歐氏距離）是一個(gè)通常采用的距離定義，指在 m 維空間中兩個(gè)點(diǎn)之間的真實(shí)距離，或者向量的自然長(zhǎng)度（即該點(diǎn)到原點(diǎn)的距離）。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。歐氏距離是一種常見(jiàn)的相似度算法。歐氏距離越小，兩個(gè)點(diǎn)的相似度就越大，歐氏距離越大，兩個(gè)點(diǎn)的相似度就

47、越小。8、數(shù)據(jù)散度分析表示一組數(shù)據(jù)離數(shù)據(jù)中心的距離，多用標(biāo)準(zhǔn)差、以及進(jìn)行衡量?？己酥R(shí)點(diǎn)：?jiǎn)巫兞糠治隹己酥R(shí)點(diǎn)：?jiǎn)巫兞糠治鰠⒁?jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：3-2附 2.1.8（考核知識(shí)點(diǎn)解釋）：?jiǎn)巫兞糠治鲋饕P(guān)注于單變量的描述和統(tǒng)計(jì)推斷兩個(gè)方面，旨在用簡(jiǎn)單的概括形式反映出大量樣本資料所容納的基本信息，描述樣本數(shù)據(jù)中的集中或離散趨勢(shì)。數(shù)據(jù)散度分析表示一組數(shù)據(jù)離數(shù)據(jù)中心的距離，多用標(biāo)準(zhǔn)差、方差以及極差進(jìn)行衡量。9、在 k 近鄰法中，選擇較大的 k 值時(shí)，學(xué)習(xí)的“近似誤差”會(huì)，“估計(jì)誤差”會(huì)?？己酥R(shí)點(diǎn)：考核知識(shí)點(diǎn)：K K 近鄰法近鄰法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-2附 2.1.9（考核知識(shí)點(diǎn)解釋）：

48、選擇較大的 k 值，學(xué)習(xí)的“近似誤差”會(huì)增大，“估計(jì)誤差”會(huì)減小，與輸入實(shí)例較遠(yuǎn)（不相似）的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用。k 值增大意味著整體模型變得簡(jiǎn)單。10、在 k 近鄰法中，通常采用來(lái)選取最優(yōu)的 k 值。考核知識(shí)點(diǎn)：考核知識(shí)點(diǎn)：K K 近鄰法近鄰法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-2 附 2.1.10（考核知識(shí)點(diǎn)解釋）：在應(yīng)用中，k 值一般取一個(gè)比較小的數(shù)值，通常采用交叉驗(yàn)證法來(lái)選取最優(yōu)的 k值。11、劃分聚類采取的劃分，即每個(gè)對(duì)象必須恰好屬于。考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :聚類問(wèn)題聚類問(wèn)題參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-1 附 2.1.11（考核知識(shí)點(diǎn)解釋）：劃分聚類是聚類分析最簡(jiǎn)單最基本的方法

49、。采取互斥簇的劃分，即每個(gè)對(duì)象必須恰好屬于一個(gè)簇。經(jīng)典的算法有 K 均值（K-Means）算法和 K 中心（K-Medoids）算法。12、在線性回歸分析中，根據(jù)自變量的維度不同可以分為和。考核知識(shí)點(diǎn)：線性回歸考核知識(shí)點(diǎn)：線性回歸參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：7-1附 2.1.12（考核知識(shí)點(diǎn)解釋）：在線性回歸分析中，當(dāng)輸入特征的維度從一維增加到 d 維（dl）,則從一元線性回歸轉(zhuǎn)換為多元線性回歸問(wèn)題。13、反向傳播算法的基本思想為，通過(guò)輸出層得到和的誤差，間接調(diào)整的權(quán)值?？己酥R(shí)點(diǎn)：人工神經(jīng)網(wǎng)絡(luò)考核知識(shí)點(diǎn)：人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：8-2附 2.1.13（考核知識(shí)點(diǎn)解釋）：反向傳

50、播算法的基本思想：通過(guò)輸出層得到輸出結(jié)果和期望輸出的誤差，間接調(diào)整隱含層的權(quán)值。學(xué)習(xí)過(guò)程由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過(guò)程組成。正向傳播時(shí)，神經(jīng)網(wǎng)絡(luò)的權(quán)值是固定的，輸入樣本從輸入層傳入，經(jīng)過(guò)各隱含層逐層處理后，傳向輸出層。反向傳播時(shí)，通過(guò)比較網(wǎng)絡(luò)的輸出和期望輸出產(chǎn)生一個(gè)誤差信號(hào)，并將誤差信號(hào)進(jìn)行反向傳播，逐層計(jì)算隱含層各單元的誤差，并以此修正各單元的權(quán)值。14、多層感知機(jī)中，和都是擁有激活函數(shù)的功能神經(jīng)元?？己酥R(shí)點(diǎn)考核知識(shí)點(diǎn): :人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：8-2附 2.1.14（考核知識(shí)點(diǎn)解釋）：多層感知機(jī)：可以解決非線性可分的問(wèn)題。輸入層與輸出層之間的一層神

51、經(jīng)元，稱為隱含層。隱含層和輸出層都是擁有激活函數(shù)的功能神經(jīng)元15、神經(jīng)網(wǎng)絡(luò)中最基本的成分是模型。考核知識(shí)點(diǎn)：人工神經(jīng)網(wǎng)絡(luò)考核知識(shí)點(diǎn)：人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：8-1附 2.1.15（考核知識(shí)點(diǎn)解釋）：神經(jīng)網(wǎng)絡(luò)是由具有適應(yīng)性的簡(jiǎn)單單元組成的廣泛并行互連的網(wǎng)絡(luò)，它的組織能夠模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界物體所做出的交互反應(yīng)。神經(jīng)網(wǎng)絡(luò)中最基本的成分是神經(jīng)元模型。16、密度分類法中，單維的變量可以通過(guò)其的個(gè)數(shù)來(lái)確定 K 值。考核知識(shí)點(diǎn)：考核知識(shí)點(diǎn)：K-meansK-means 聚類參見(jiàn)講稿章節(jié)：聚類參見(jiàn)講稿章節(jié)：9-3附 2.1.16（考核知識(shí)點(diǎn)解釋）：密度分類法：?jiǎn)尉S的變量可以通過(guò)其分布峰

52、的個(gè)數(shù)來(lái)確定 K 值。二維的數(shù)據(jù)可以通過(guò)散點(diǎn)圖來(lái)判斷。17、在聚類中，使用測(cè)量來(lái)定義相似性考核知識(shí)點(diǎn)：聚類問(wèn)題考核知識(shí)點(diǎn)：聚類問(wèn)題參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-1 附 2.1.17（考核知識(shí)點(diǎn)解釋）：聚類算法中，點(diǎn)通常位于高維空間中，使用距離測(cè)量來(lái)定義相似性，如Euclidean,Cosine,Jaccard,18、Apriori 核心算法有兩個(gè)關(guān)鍵步驟為和?？己酥R(shí)點(diǎn)：考核知識(shí)點(diǎn)：AprioriApriori 算法參見(jiàn)講稿章節(jié)：算法參見(jiàn)講稿章節(jié)：5-5附 2.1.18（考核知識(shí)點(diǎn)解釋）：Apriori 算法中有兩個(gè)關(guān)鍵步驟為連接步和剪枝步。二）、簡(jiǎn)答 1、為什么需要標(biāo)準(zhǔn)化偏回歸系數(shù)？標(biāo)準(zhǔn)化

53、偏回歸系數(shù)與普通的偏回歸系數(shù)之間的關(guān)系是什么？考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :多元線性回歸標(biāo)準(zhǔn)化偏回歸系數(shù)參見(jiàn)講稿章節(jié)：多元線性回歸標(biāo)準(zhǔn)化偏回歸系數(shù)參見(jiàn)講稿章節(jié)：7-2附 2.2.1（考核知識(shí)點(diǎn)解釋）：在實(shí)際問(wèn)題中，各自變量都有各自的計(jì)量單位以及不同的變異程度，所以不能直接用普通的偏回歸系數(shù)的大小來(lái)比較方程中各個(gè)自變量對(duì)因變量y的影響大小，可以利用標(biāo)準(zhǔn)化偏回歸系數(shù)來(lái)衡量。通過(guò)變量標(biāo)準(zhǔn)化計(jì)算得到的回歸方程稱為標(biāo)準(zhǔn)化回歸方程，相應(yīng)的回歸系數(shù)即為標(biāo)準(zhǔn)化偏回歸系數(shù)。標(biāo)準(zhǔn)化偏回歸系數(shù)與普通的偏回歸系數(shù)關(guān)系如下：2、簡(jiǎn)單介紹決策樹(shù)算法流程考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :決策樹(shù)決策樹(shù)- -特征選擇參見(jiàn)講稿章節(jié)：特征選擇

54、參見(jiàn)講稿章節(jié)：6-6附 2.2.2（考核知識(shí)點(diǎn)解釋）：決策樹(shù)算法流程：1. 首先計(jì)算訓(xùn)練數(shù)據(jù)集的信息熵；2. 計(jì)算各特征對(duì)數(shù)據(jù)集的信息增益；3. 選取信息增益最大的特征為最優(yōu)特征4. 將數(shù)據(jù)集按照最優(yōu)特征進(jìn)行劃分；5. 循環(huán) 2，3，4 直到結(jié)點(diǎn)不能劃分。3、一般的關(guān)聯(lián)規(guī)則學(xué)習(xí)的步驟是什么？考核知識(shí)點(diǎn)考核知識(shí)點(diǎn): :關(guān)聯(lián)規(guī)則的基本概念參見(jiàn)講稿章節(jié)關(guān)聯(lián)規(guī)則的基本概念參見(jiàn)講稿章節(jié)：5-1 附 2.2.3（考核知識(shí)點(diǎn)解釋）：關(guān)聯(lián)規(guī)則學(xué)習(xí)的步驟：1.找出所有的頻繁項(xiàng)集；2.根據(jù)頻繁項(xiàng)集生成頻繁規(guī)則；3.根據(jù)置信度等指標(biāo)進(jìn)一步過(guò)濾篩選規(guī)則4、請(qǐng)簡(jiǎn)述 K-means 聚類的優(yōu)缺點(diǎn)?？己酥R(shí)點(diǎn)：考核知識(shí)點(diǎn)：

55、K-meansK-means 聚類聚類參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：9-3 附 2.2.4（考核知識(shí)點(diǎn)解釋）：優(yōu)點(diǎn)：容易實(shí)現(xiàn)。缺點(diǎn)：可能收斂到局部最小值，在大規(guī)模數(shù)據(jù)集上收斂較慢。5、請(qǐng)簡(jiǎn)述在使用反向傳播算法訓(xùn)練多層感知機(jī)時(shí)，應(yīng)該如何設(shè)置學(xué)習(xí)的停止條件？考核知識(shí)點(diǎn)：人工神經(jīng)網(wǎng)絡(luò)考核知識(shí)點(diǎn)：人工神經(jīng)網(wǎng)絡(luò)參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：8-2附 2.2.5（考核知識(shí)點(diǎn)解釋）：在使用反向傳播算法訓(xùn)練多層感知機(jī)時(shí)，設(shè)置學(xué)習(xí)的停止條件常見(jiàn)的方法有兩種。第一種為設(shè)置最大迭代次數(shù)，比如使用數(shù)據(jù)集迭代 100 次后停止訓(xùn)練；第二種為將數(shù)據(jù)分為訓(xùn)練集與驗(yàn)證集，當(dāng)訓(xùn)練集的誤差降低而驗(yàn)證集的誤差升高，則停止訓(xùn)練。6、請(qǐng)簡(jiǎn)

56、述 k 近鄰法中 k 的取值對(duì)模型的影響?？己酥R(shí)點(diǎn)：考核知識(shí)點(diǎn)：K K 近鄰法近鄰法參見(jiàn)講稿章節(jié)：參見(jiàn)講稿章節(jié)：6-2附 2.2.6（考核知識(shí)點(diǎn)解釋）：對(duì)于 k 近鄰法中 k 的取值：選擇較小的 k 值，相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)，學(xué)習(xí)的“近似誤差”會(huì)減小，“估計(jì)誤差”會(huì)增大，預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的點(diǎn)實(shí)例點(diǎn)非常敏感。k 值減小意味著整體模型變得復(fù)雜，容易發(fā)生過(guò)擬合。選擇較大的 k 值，學(xué)習(xí)的“近似誤差”會(huì)增大，“估計(jì)誤差”會(huì)減小，與輸入實(shí)例較遠(yuǎn)（不相似）的訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)起作用。k 值增大意味著整體模型變得簡(jiǎn)單。在應(yīng)用中，k 值一般取一個(gè)比較小的數(shù)值，通常采用交叉驗(yàn)證法來(lái)選取最優(yōu)的

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 作業(yè)報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《數(shù)據(jù)科學(xué)導(dǎo)論》復(fù)習(xí)資料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《數(shù)據(jù)科學(xué)導(dǎo)論》復(fù)習(xí)資料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔