數(shù)據(jù)挖掘 機器學習 考試簡答題_第1頁
數(shù)據(jù)挖掘 機器學習 考試簡答題_第2頁
數(shù)據(jù)挖掘 機器學習 考試簡答題_第3頁
數(shù)據(jù)挖掘 機器學習 考試簡答題_第4頁
數(shù)據(jù)挖掘 機器學習 考試簡答題_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1.何謂數(shù)據(jù)挖掘?它有哪些方面的功能?答:從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、 人們事先不知道的又是潛在有用的信息和知識的過程稱為數(shù)據(jù)挖掘分) 數(shù)據(jù)挖掘的功能包括概念描述關聯(lián)分析類與預測聚類分析趨勢分析、 孤立點分析以及偏差分析等(3 分)2. 列舉 4 種監(jiān)督式學習算法?答:K-近鄰算法(k-Nearest Neighbors (1 分)線性回歸(Linear Regression) (1 分)邏輯回歸(Logistic Regression) (1 分)支持向量機(1 分)(備注:列出任意 4 種即可得分)3. 過擬合問題產(chǎn)生的原因有哪些以及解決過擬合的辦

2、法有哪些?答:產(chǎn)生的原因:(1)使用的模型比較復雜,學習能力過強。 (1 分)(2)有噪聲存在 (1 分)(3)數(shù)據(jù)量有限 (1 分)解決過擬合的辦法:(1)提前終止(當驗證集上的效果變差的時候) (1 分)(2)數(shù)據(jù)集擴增 (1 分)(3)尋找最優(yōu)參數(shù) (1 分)4.支持向量機有哪些優(yōu)缺點?答:優(yōu)勢:(1)在高維空間非常高效 (1 分)(2)即使在數(shù)據(jù)維度比樣本大的情況下仍然有效 (1 分)(3)在決策函數(shù)中使用訓練集的子集,因此它也是高效利用內存的 (1 分) 缺點:(1如果特征數(shù)量比樣本數(shù)量大得多在選擇核函數(shù)時要避免過擬合 (1 分) (2)支持向量機通過尋找支持向量找到最優(yōu)分割平面,是

3、典型的二分類問題, 因此無法解決多分類問題。 (1 分)(3)不直接提供概率估計 (1 分)5、數(shù)據(jù)挖掘的兩大目標分為預測和描述,監(jiān)督學習和無監(jiān)督學習分別對應哪類目標?監(jiān)督 學習和無監(jiān)督學習的定義是什么?分別從監(jiān)督類學習和無監(jiān)督類學習中找一類算法的實例 應用進行舉例說明。答:1.監(jiān)督學習對應預測,無監(jiān)督學習對應描述2.監(jiān)督學習:從標記的訓練數(shù)據(jù)來推斷一個功能的機器學習任務無監(jiān)督學習:根據(jù)類別未知(沒有標記)的訓練樣本解決模式識別中的各種 問題。3.監(jiān)督學習舉例:分類算法,利用分類算法進行垃圾電子郵件的分類。無監(jiān)督學習舉例:聚類算法。利用聚類算法,如網(wǎng)購平臺,通過用戶購物喜好等 進行聚類,即客戶

4、群體的劃分1.請談談 K 近鄰算法的優(yōu)缺點有哪些?答:優(yōu)點:簡單,易于理解,易于實現(xiàn);只需保存訓練樣本和標記,無須估計參數(shù),無須訓練。不易受最小錯誤概率的影響。 (3 分)缺點:K 的選擇不固定;預測結果容易受含噪聲數(shù)據(jù)的影響;當樣本不平衡時新樣本的類別偏向于訓練樣本中數(shù)量占優(yōu)的類別容易導致預 測錯誤;具有較高的計算復雜度和內存消耗因為對每一個未知樣本都要計算它到全體 已知樣本的距離,才能求得它的 K 個最近鄰。 (3 分)2.何謂聚類?它與分類有什么異同?答:聚類是將物理或抽象對象的集合分組成為多個類或簇的過程得在同一個簇中 的對象之間具有較高的相似度,而不同簇中的對象差別較大 分)聚類與分

5、類的不同聚類要劃分的類是未知的分類則是可按已知規(guī)則進行聚 類是一種無指導學習它不依賴預先定義的類和帶類標號的訓練實例屬于觀察 式學習,分類則屬于有指導的學習,是示例式學習 分)3.請用偽代碼的形式描述 K-Means 算法的過程?答:(1)從一系列數(shù)據(jù) D 中任意選擇 K 個對象作為初始簇的中心 (1 ) (2)根據(jù)數(shù)據(jù)到聚類中心的距離,對每個對象進行分配 (1 )(3)更新聚類中心位置,即計算每個簇中所有對象的質心,將聚類中心移動到 質心位置 (1 分)(4)重復過程(2) (1 分)(5)直到聚類中心不再發(fā)生變化 (2 分)4.什么是降維分析?以及常用的降維算法有哪些?答:降維分析是指從高

6、維數(shù)據(jù)空間到低維數(shù)據(jù)空間的變化過程目的是為了降低時 間復雜度和空間復雜度或者是去掉數(shù)據(jù)集中夾雜的噪聲或者是為了使用較少 的特征進行解釋,方便我們更好地解釋數(shù)據(jù)以及實現(xiàn)數(shù)據(jù)的可視化 (3 分) 常用的降維算法有:主成分分析,因子分析,獨立成分分析 (3 分)1、請描述下數(shù)據(jù)挖掘的工作流程和步驟一般包括哪些?答:問題設定-特征工程-模型選擇-模型訓練模型評測-模型應用2、請談談你對貝葉斯算法中先驗概率、后驗概率、條件概率的理解,以及怎么 利用后驗概率計算條件概率(可用公式表達)?答:先驗概率事件發(fā)生前的預判概率可以是基于歷史數(shù)據(jù)的統(tǒng)計可以由背景 常識得出,也可以是人的主觀觀點給出。后驗概率結果發(fā)生

7、后反推事件發(fā)生原因的概率或者說基于先驗概率求得 的反向條件概率。條件概率一個事件發(fā)生后另一個事件發(fā)生的概率。一般的形式為 P(x|y)表 示 y 發(fā)生的條件下 x 發(fā)生的概率。可用貝葉斯公式把后驗概率和條件概率、先驗概率聯(lián)系起來,相互推算:3、你對于人工智能的未來怎么看?請談談它可能對人類社會造成哪些利弊? 答:開放式回答,沒有標準答案。主要看學生對知識的綜合理解以及邏輯思維能力4、技術性元數(shù)據(jù) MataData 一般包括哪些信息?答:數(shù)據(jù)源信息數(shù)據(jù)轉換的描述數(shù)據(jù)倉庫內對象和數(shù)據(jù)結構的定義數(shù)據(jù)清理和 數(shù)據(jù)更新時使用的規(guī)則源數(shù)據(jù)到目的數(shù)據(jù)的映射表以及用戶訪問權限數(shù)據(jù) 備份歷史記錄,數(shù)據(jù)導入歷史記

8、錄和信息發(fā)布歷史記錄3、數(shù)據(jù)倉庫和數(shù)據(jù)集市有什么相同和區(qū)別之處? 答:對比內范圍數(shù)據(jù)主題源其他特征數(shù)據(jù)倉應用獨立集中式,企業(yè)級(可能) 規(guī)劃的歷史的,詳細的和概括的 輕微不規(guī)范的多個主題多個內部和外部源 靈活的面向數(shù)據(jù)長期大單一的復雜結構數(shù)據(jù)集 特定的 DSS 應用用戶域的離散化可能是臨時組織的(無規(guī)劃) 一些歷史的、詳細的和概括的 高度不規(guī)范用戶關心的某一個中心主題 很少的內部和外部源嚴格的面向工程短期開始小,逐步變大多,半復雜性結構,合并復雜1、請說明 OLAP 和 OLTP 的區(qū)別? 答:OLTPOLAP用戶功能操作人員,底層管理人員 日常操作型事務處理決策人員、高級管理人員 分析和決策

9、數(shù)據(jù)庫設計目標數(shù)據(jù)特征存取規(guī)模工作單元用戶數(shù)數(shù)據(jù)庫大小面向應用當前的,最新的,細節(jié)的,二維的與分立的通常一次讀或寫數(shù)十條記錄一個事務通常是成千上萬個用戶通常是在 GB 級(100MB1GB)面向主題歷史的、聚集的、多維的、集 成的與統(tǒng)一的可能讀取百萬條以上記錄一個復雜查詢 可能只有幾十個或上百個用戶 通常在 TB 級(100G1TB 及以上)第 章 管規(guī)則與協(xié)同過濾1)簡述 Apriori 算法原理。Apriori 性質:一個項集是頻繁的,那么它的所有子集都是頻繁的。一個項集 的支持度不會超過其任何子集的支持度。該算法采用逐層的方法找出頻繁項集, 首先找出 1 頻繁-項集通過迭代方法利用頻繁

10、k-1-項集生成 k 候選項集掃描數(shù) 據(jù)庫后從候選 集中指出頻繁 k-項集,直到生成的候選項集為空。2)什么說強聯(lián)規(guī)則一定都是有的,請例說之。并不是所有的強關聯(lián)規(guī)則都是有效的例如一個谷類早餐的零售商對 5000 名學生的調查的案例。數(shù)據(jù)表明 60% 的學生打籃球, 學生吃這類早餐, 40%的學生即打籃球吃這類早餐假設支持度閾值 置信度閾值 基 于上面數(shù)據(jù)和假設我們可挖掘出強關聯(lián)規(guī) “(打籃球 吃早餐)” ,因為其 (打籃 ) ( 吃早餐 的支持度都大于支持度閾值,都是頻繁項,而規(guī)則的置信度 c=40%/60%=66.6% 也大于置信度閾值。然而上的關聯(lián)規(guī)則很容易產(chǎn)生誤解吃早餐的比例為 66%。

11、 也就是說,打籃球與吃早餐實際上是負關聯(lián)的。3)明頻繁集所有非子集必須也頻繁的 nl ) / n( 證明 1反證法。根據(jù)定義,如果項集I滿足最小支持度閾值 ,則I不是頻繁的,即p( I ) min_ 。如果項 添加到 I ,則結果項集間(即 I A )不可能比 I 頻繁出現(xiàn)。因此I A 不是頻繁的, ( I )min_sup。矛盾。 證明 2設 X 是一個項目集事務數(shù)據(jù)庫 中支持 X 的元組數(shù)為 s對 X 的任一非空 子集為 Y,設 T 中支持 Y 的元組數(shù)為 s1。根據(jù)項目集支持數(shù)的定義容易知道支持 的元組一定支持 Y以 s1 s,即 support (Y support (X按假設:項目集

12、 X 是頻繁項目集,即 support(X) minsupport,所以 support (Y ) X) minsupport因此 Y 是頻繁項目集。4)Apriori 的一種變將事務據(jù)庫 中事務劃為若干個重疊的部分證明在 D 是頻繁任何項集至在 D 中的一個部分中是頻的。證明 :給定頻繁項 l l 的子 s ,證明規(guī)則“l(fā) ”的置信度不可能大于“ (l ”的置信度。其中 s 子集。根據(jù)定義規(guī)則 B 的置信度為 A ) / ( ) n A表示項集A出 現(xiàn) 的 次 數(shù)規(guī)則l 的 置 信 度 為 : s ( (l ) / n s規(guī)則 (l 的置信度同理可得:因為 的子集,n( s ,所以規(guī)則“l(fā) ”的置信度不可能大于“ (l ”的置信度。5)詞解釋:立點、繁項集、支度、可度、聯(lián)規(guī)則孤立點:指數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的異常數(shù)據(jù)。 頻繁項集:指

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論