大數(shù)據(jù)分析方法與應(yīng)用課后習(xí)題及答案耿秀麗

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-10-31 格式：DOCX 頁(yè)數(shù)：26 大?。?39.93KB 積分：30 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)分析方法與應(yīng)用課后習(xí)題及答案耿秀麗_第2頁(yè)

大數(shù)據(jù)分析方法與應(yīng)用課后習(xí)題及答案耿秀麗_第3頁(yè)

大數(shù)據(jù)分析方法與應(yīng)用課后習(xí)題及答案耿秀麗_第4頁(yè)

大數(shù)據(jù)分析方法與應(yīng)用課后習(xí)題及答案耿秀麗_第5頁(yè)

已閱讀5頁(yè)，還剩21頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章課后習(xí)題及答案1.大數(shù)據(jù)的4V特征是什么？Volume（體量巨大）、Variety（種類繁多）、Velocity（處理速度快）和Value（價(jià)值密度低）是大數(shù)據(jù)的4個(gè)主要特征。2.請(qǐng)簡(jiǎn)述大數(shù)據(jù)處理流程。大數(shù)據(jù)分析是一個(gè)目的明確的過(guò)程，其過(guò)程概括起來(lái)主要包括：目標(biāo)確定、數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)建模與分析、數(shù)據(jù)可視化、結(jié)果分析和報(bào)告。3.分布式計(jì)算在大數(shù)據(jù)分析中有哪些作用？提高計(jì)算效率、提高系統(tǒng)可靠性、實(shí)現(xiàn)更高的擴(kuò)展性、降低計(jì)算成本。4.你認(rèn)為在5G時(shí)代下大數(shù)據(jù)還有哪些新應(yīng)用？（1）“大國(guó)糧倉(cāng)”龍江5G數(shù)字農(nóng)場(chǎng)（北大荒）中國(guó)聯(lián)通“大國(guó)糧倉(cāng)”5G數(shù)字農(nóng)場(chǎng)項(xiàng)目，基于中國(guó)聯(lián)通5G網(wǎng)絡(luò)，應(yīng)用于北大荒農(nóng)場(chǎng)，打造世界先進(jìn)的5G數(shù)字農(nóng)場(chǎng)，打通“人、地、機(jī)、物、環(huán)”生產(chǎn)作業(yè)全要素，貫穿“耕種管收”全環(huán)節(jié)，以生產(chǎn)經(jīng)營(yíng)管理為核心，搭建“1+1+N”架構(gòu)，即1張5G核心網(wǎng)，完成農(nóng)業(yè)生產(chǎn)“感聯(lián)智控”；1個(gè)農(nóng)業(yè)智腦，整合物聯(lián)、數(shù)據(jù)、業(yè)務(wù)、AI、GIS等中臺(tái)，進(jìn)行統(tǒng)一的平臺(tái)支撐和智能服務(wù)；聚焦“黑土地保護(hù)+無(wú)人化作業(yè)”形成“N”項(xiàng)5G智慧農(nóng)業(yè)應(yīng)用，激活農(nóng)業(yè)發(fā)展要素資源，提高生產(chǎn)效率，降低生產(chǎn)成本，實(shí)現(xiàn)黑土地防治管護(hù)、無(wú)人農(nóng)機(jī)智能作業(yè)等全方位創(chuàng)新場(chǎng)景，實(shí)現(xiàn)水、肥、藥施用量節(jié)約20%以上，人力成本降低10%以上，每畝增產(chǎn)5-10%。通過(guò)5G賦能萬(wàn)畝良田，設(shè)施、裝備、機(jī)械數(shù)字化、智能化改造，實(shí)現(xiàn)全產(chǎn)業(yè)鏈智慧農(nóng)業(yè)。（2）5G助力天津港打造智慧、綠色的世界一流港口天津港是京津冀的海上門(mén)戶，是“一帶一路”的戰(zhàn)略支點(diǎn)，也是中國(guó)聯(lián)通在港口領(lǐng)域重要戰(zhàn)略合作伙伴之一。天津聯(lián)通攜手天津港匠心打造5G智慧港口，采用“邊生產(chǎn)、邊改造”的建設(shè)方式，相繼攻克世界性智慧港口建設(shè)諸多難題，落地了5G智能無(wú)人集卡、5G岸橋遠(yuǎn)程控制、5G智能理貨、5G智能加解鎖站、四大5G創(chuàng)新應(yīng)用場(chǎng)景，成為全球首個(gè)獲批建設(shè)的港口自動(dòng)駕駛示范區(qū)、實(shí)現(xiàn)全球首個(gè)無(wú)人集卡場(chǎng)景下陸側(cè)“一鍵著箱”、實(shí)現(xiàn)國(guó)內(nèi)首家集裝箱智能理貨系統(tǒng)內(nèi)外理一體化運(yùn)行、建成全球首臺(tái)集裝箱地面智能解鎖站、建成全球首個(gè)集裝箱設(shè)備任務(wù)集成管理系統(tǒng)ETMS。5.請(qǐng)舉例說(shuō)明生活中大數(shù)據(jù)的應(yīng)用。

第2章課后習(xí)題及答案1.總體和樣本的定義？答案：總體是具有特定屬性的對(duì)象的全體，樣本是某個(gè)總體的一部分。2.區(qū)分以下數(shù)據(jù)哪些是總體，哪些是樣本？（1）從某大學(xué)6000個(gè)宿舍中隨機(jī)抽查100間宿舍進(jìn)行安全檢查。（2）從一批燈泡中隨機(jī)挑選20個(gè)抽樣檢查。（3）對(duì)某小區(qū)所有的老人進(jìn)行身體檢查。答：（1）（2）是樣本；（3）是總體3.定性數(shù)據(jù)和定量數(shù)據(jù)的定義？答：定性數(shù)據(jù)（也稱為名義數(shù)據(jù)）是一種用于描述各種類別或?qū)傩缘臄?shù)據(jù)。它們表示不同的類型，但沒(méi)有排序或量化關(guān)系。定性數(shù)據(jù)僅提供了有關(guān)事物所屬類別的信息，而不提供數(shù)量或程度的度量；定量數(shù)據(jù)是以數(shù)字表現(xiàn)的數(shù)據(jù)，它可以被測(cè)量、計(jì)算和比較。在研究中，定量數(shù)據(jù)常用于收集、分析和解釋現(xiàn)象和事實(shí)。4.截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的定義？答：截面數(shù)是指在同一時(shí)間點(diǎn)上對(duì)某個(gè)總體進(jìn)行測(cè)量所得到的數(shù)據(jù)。這種數(shù)據(jù)收集方法通常是在同一時(shí)間點(diǎn)上進(jìn)行的，因此被稱為截面數(shù)據(jù)；時(shí)間序列數(shù)據(jù)是一種按時(shí)間順序排列的觀測(cè)值的集合，這些觀測(cè)值通常按照固定的時(shí)間間隔采集。5.協(xié)方差和相關(guān)系數(shù)的定義？答：協(xié)方差是描述兩個(gè)隨機(jī)變量之間關(guān)系的統(tǒng)計(jì)量。它用于衡量?jī)蓚€(gè)變量在同一時(shí)間段內(nèi)的變動(dòng)趨勢(shì)是否同向或相反；相關(guān)系數(shù)定量地刻畫(huà)兩個(gè)隨機(jī)變量的相關(guān)程度。

第3章課后習(xí)題及答案1.設(shè)SSR=36，SSE=4，n=18。（1）計(jì)算判定系數(shù)R2并解釋其意義。（2）計(jì)算估計(jì)標(biāo)準(zhǔn)誤差Se并解釋其意義。解：（1）R2=90%表示在因變量y取值的變差中，有90%可以由x與y之間的線性關(guān)系來(lái)解釋。（2）Se=0.5表示，當(dāng)用x來(lái)預(yù)測(cè)y時(shí)，平均的預(yù)測(cè)誤差為0.5。2.下面是7個(gè)地區(qū)2000年的人均國(guó)內(nèi)生產(chǎn)總值（GDP）和人均消費(fèi)水平的統(tǒng)計(jì)數(shù)據(jù)：表3-82000年統(tǒng)計(jì)數(shù)據(jù)地區(qū)人均GDP/元人均消費(fèi)水平/元北京224607326遼寧112264490上海3454711546江西48512396河南54442208貴州26621608陜西45492035求：（1）人均GDP作自變量，人均消費(fèi)水平作因變量，繪制散點(diǎn)圖，并說(shuō)明二者之間的關(guān)系。（2）計(jì)算兩個(gè)變量之間的線性相關(guān)系數(shù)，說(shuō)明兩個(gè)變量之間的關(guān)系強(qiáng)度。（3）求出估計(jì)的回歸方程，并解釋回歸系數(shù)的實(shí)際意義。（4）計(jì)算判定系數(shù)，并解釋其意義。（5）檢驗(yàn)回歸方程線性關(guān)系的顯著性（）。（6）如果某地區(qū)的人均GDP為5000元，預(yù)測(cè)其人均消費(fèi)水平。（7）求人均GDP為5000元時(shí)，人均消費(fèi)水平95%的置信區(qū)間和預(yù)測(cè)區(qū)間。解：（1）可能存在線性關(guān)系。（2）相關(guān)系數(shù)：表3-9系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)T顯著性相關(guān)性B標(biāo)準(zhǔn)誤差Beta零階偏部分1常量734.693139.5405.2650.003人均GDP0.3090.0080.99836.4920.0000.9980.9980.998a因變量：人均消費(fèi)水平有很強(qiáng)的線性關(guān)系。（3）回歸方程：y=734.693+0.309x?；貧w系數(shù)的含義：人均GDP每增加1元，人均消費(fèi)增加0.309元。（4）表3-10模型匯總模型RR2調(diào)整R2標(biāo)準(zhǔn)估計(jì)的誤差10.998a0.9960.996247.303a預(yù)測(cè)變量（常量）：人均GDP。人均GDP對(duì)人均消費(fèi)的影響達(dá)到99.6%。（5）F檢驗(yàn)：表3-11ANVOA模型平方和df均方FSig.1回歸81444968.680181444968.6801331.6920.000殘差305795.034561159.007總計(jì)81750763.7146a預(yù)測(cè)變量：（常量），人均GDP。b因變量：人均消費(fèi)水平?；貧w系數(shù)的檢驗(yàn)：表3-12t檢驗(yàn)?zāi)Ｐ头菢?biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)t顯著性相關(guān)性B標(biāo)準(zhǔn)誤差Deta零階偏部分1常量734.693139.5405.2650.003人均GDP0.3090.0080.99836.4920.0000.9980.9980.998a因變量：人均消費(fèi)水平。（6）某地區(qū)的人均GDP為5000元，預(yù)測(cè)其人均消費(fèi)水平為：y=734.693+0.309×5000=2278.693（元）（7）人均GDP為5000元時(shí)，人均消費(fèi)水平95%的置信區(qū)間為[1990.74915，2565.46399]，預(yù)測(cè)區(qū)間為[1580.46315，2975.74999]。3.從n=20的樣本中得到的有關(guān)回歸結(jié)果是：SSR=60，SSE=40.要檢驗(yàn)x與y之間的線性關(guān)系是否顯著，即檢驗(yàn)假設(shè)：H0：β1=0。求：（1）線性關(guān)系檢驗(yàn)的統(tǒng)計(jì)量F值是多少？（2）給定顯著性水平=0.05，是多少？（3）是拒絕原假設(shè)還是不拒絕原假設(shè)？（4）假定x與y之間是負(fù)相關(guān)，計(jì)算相關(guān)系數(shù)r。（5）檢驗(yàn)x與y之間的線性關(guān)系是否顯著？解：（1）SSR的自由度為k=1；SSE的自由度為n-k-1=18；因此。（2）（3）拒絕原假設(shè)，線性關(guān)系顯著。（4），由于是負(fù)相關(guān)，因此r=0.7746。（5）從F檢驗(yàn)看線性關(guān)系顯著。4.以下是某地搜集到的新房屋的銷售價(jià)格y和房屋的面積x的數(shù)據(jù)：房屋面積（m2）11511080135105銷售價(jià)格（萬(wàn)元）24.821.618.429.222求：（1）畫(huà)出數(shù)據(jù)對(duì)應(yīng)的散點(diǎn)圖。（2）求線性回歸方程，并在散點(diǎn)圖中加上回歸直線。（3）據(jù)（2）的結(jié)果估計(jì)當(dāng)房屋面積為150m2時(shí)的銷售價(jià)格。（4）求第2個(gè)點(diǎn)的殘差。解：（1）數(shù)據(jù)對(duì)應(yīng)的散點(diǎn)圖如圖所示：圖3-24銷售價(jià)格與房屋面積散點(diǎn)圖（2），，，。設(shè)所求回歸直線方程為，則，，故所求回歸直線方程為。（3）據(jù)（2），當(dāng)x=150m2時(shí)，銷售價(jià)格的估計(jì)值為：（萬(wàn)元）5.某汽車生產(chǎn)商欲了解廣告費(fèi)用x對(duì)銷售量y的影響，收集了過(guò)去12年的有關(guān)數(shù)據(jù)。通過(guò)計(jì)算得到下面的有關(guān)結(jié)果：表3-13方差分析表變差來(lái)源dfSSMSFSignificanceF回歸2.17E—09殘差40158.07———總計(jì)111642866.67——表3-14參數(shù)估計(jì)表Coefficients標(biāo)準(zhǔn)誤差tStatP-valueIntercept363.689162.455295.8231910.000168XVariablel1.4202110.07109119.977492.17E—09求：（1）完成上面的方差分析表。（2）汽車銷售量的變差中有多少是由于廣告費(fèi)用的變動(dòng)引起的？（3）銷售量與廣告費(fèi)用之間的相關(guān)系數(shù)是多少？（4）寫(xiě)出估計(jì)的回歸方程并解釋回歸系數(shù)的實(shí)際意義。（5）檢驗(yàn)線性關(guān)系的顯著性（a=0.05）解：（1）變差來(lái)源dfSSMSFSignificanceF回歸11602708.61602708.6399.10000652.17E—09殘差1040158.074015.807——總計(jì)111642866.67———（2）R2=0.9756，汽車銷售量的變差中有97.56%是由于廣告費(fèi)用的變動(dòng)引起的。（3）r=0.9877。（4）回歸系數(shù)的意義：廣告費(fèi)用每增加一個(gè)單位，汽車銷量就增加1.42個(gè)單位。（5）回歸系數(shù)的檢驗(yàn)：p=2.17E—09<阿爾法，回歸系數(shù)不等于0，顯著?；貧w直線的檢驗(yàn)：p=2.17E—09<阿爾法，回歸直線顯著。6.根據(jù)兩個(gè)自變量得到的多元回歸方程為，并且已知n=10，SST=6724.125，SSR=6216.375，，。求：（1）在a=0.05的顯著性水平下，x1,x2與y的線性關(guān)系是否顯著？（2）在a=0.05的顯著性水平下，是否顯著？在a=0.05的顯著性水平下，是否顯著？解：（1）回歸方程的顯著性檢驗(yàn)：假設(shè)：H0：H1：，不全等于0SSE=SST-SSR=6724.125-6216.375=507.75，，認(rèn)為線性關(guān)系顯著。（2）回歸系數(shù)的顯著性檢驗(yàn)：假設(shè)：H0：H1：，，認(rèn)為y與x1線性關(guān)系顯著。（3）回歸系數(shù)的顯著性檢驗(yàn)：假設(shè)：H0：H1：，，認(rèn)為y與x2線性關(guān)系顯著。7.根據(jù)下面輸出的回歸結(jié)果，說(shuō)明模型中設(shè)計(jì)多少個(gè)自變量，多少個(gè)觀察值？寫(xiě)出回歸方程，并根據(jù)F，Se，R2及調(diào)整的Ra2的值對(duì)模型進(jìn)行討論。表3-15Summaryoutput回歸統(tǒng)計(jì)MultipleR0.842407RSquare0.709650AdjustedRSquare0.630463標(biāo)準(zhǔn)誤差109.429596觀測(cè)值15表3-16方差分析dfSSMSFSignificanceF回歸3321946.8018107315.60068.9617590.002724殘差11131723.198211974.84總計(jì)14453670Coefficients標(biāo)準(zhǔn)誤差tStatP-valueIntercept657.0534167.4595393.9236550.002378XVariable15.7103111.7918363.1868490.008655XVariable2-0.4169170.322193-1.2939980.222174XVariable3-3.4714811.442935-2.4058470.034870解：自變量3個(gè)，觀察值15個(gè)。回歸方程：擬合優(yōu)度：判定系數(shù)R2=0.70965，調(diào)整的=0.630462，說(shuō)明三個(gè)自變量對(duì)因變量的影響的比例占到63%。回歸方程的檢驗(yàn)：F檢驗(yàn)的p=0.002724，在顯著性為5%的情況下，整個(gè)回歸方程線性關(guān)系顯著。回歸系數(shù)的檢驗(yàn)：的t檢驗(yàn)的p=0.008655，在顯著性為5%的情況下，y與x1線性關(guān)系顯著。的t檢驗(yàn)的p=0.222174，在顯著性為5%的情況下，y與x2線性關(guān)系不顯著。的t檢驗(yàn)的p=0.034870，在顯著性為5%的情況下，y與x3線性關(guān)系顯著。因此，可以考慮采用逐步回歸去除x2，重新構(gòu)建線性回歸模型。

第4章課后習(xí)題及答案1.在對(duì)變量進(jìn)行分類時(shí)，度量變量之間的相似性常用的相似性系數(shù)有：夾角余弦和相關(guān)系數(shù)兩種。2.常用的系統(tǒng)聚類方法主要有以下八種：最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。3.簡(jiǎn)述K-Means算法的具體步驟。（1）數(shù)據(jù)預(yù)處理，包括歸一化、離群點(diǎn)、異常值等的處理。（2）隨機(jī)選取K個(gè)簇中心。（3）定義代價(jià)函數(shù)，或者說(shuō)定義分配原則。（4）令t=0,1,2,…不斷迭代，重復(fù)下面過(guò)程直到代價(jià)函數(shù)收斂：將每個(gè)樣本分配到距離最近的簇，并重新計(jì)算該類簇的中心。（5）得到K個(gè)聚類。（6）結(jié)束。4.K-Means算法的優(yōu)缺點(diǎn)是什么？如何對(duì)其進(jìn)行調(diào)優(yōu)？?jī)?yōu)點(diǎn)：（1）該算法是解決聚類問(wèn)題的一種經(jīng)典算法，簡(jiǎn)單、快速。（2）對(duì)處理大數(shù)據(jù)集，該算法是相對(duì)可伸縮和高效率的。（3）因?yàn)樗膹?fù)雜度是O(n,k,t)，其中n是所有對(duì)象的數(shù)目，k是簇的數(shù)目，t是迭代的次數(shù)。通常k<<n且t<<n。不同于其他算法，K-Means最大的優(yōu)點(diǎn)是K值可以根據(jù)實(shí)際需求自行調(diào)節(jié)，以達(dá)到控制類簇內(nèi)樣本點(diǎn)數(shù)量的目的。（4）當(dāng)結(jié)果簇是密集的，而簇與簇之間區(qū)別明顯時(shí)，它的效果較好。缺點(diǎn)：（1）在簇的平均值被定義的情況下才能使用，這對(duì)于處理符號(hào)屬性的數(shù)據(jù)不適用。（2）必須事先給出k（要生成的簇的數(shù)目），而且對(duì)初值敏感，對(duì)于不同的初始值，可能會(huì)導(dǎo)致不同結(jié)果。經(jīng)常發(fā)生得到次優(yōu)劃分的情況。解決方法是多次嘗試不同的初始值。（3）它對(duì)于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的，少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響調(diào)優(yōu)：（1）數(shù)據(jù)歸一化：K均值聚類本質(zhì)上是一種基于歐式距離度量的數(shù)據(jù)劃分方法，均值和方差大的維度將對(duì)數(shù)據(jù)的聚類結(jié)果產(chǎn)生決定性的影響，所以未做歸一化處理和統(tǒng)一單位的數(shù)據(jù)是無(wú)法直接參與運(yùn)算和比較的。（2）離群點(diǎn)處理：離群點(diǎn)或者少量的噪聲數(shù)據(jù)就會(huì)對(duì)均值產(chǎn)生較大的影響，導(dǎo)致中心偏移，因此使用K均值聚類算法之前通常需要對(duì)數(shù)據(jù)做預(yù)處理。5.K最近鄰算法的三要素是什么？距離度量、k值選擇和分類決策規(guī)則。6.簡(jiǎn)述模糊C-均值的優(yōu)缺點(diǎn)。優(yōu)點(diǎn)：（1）能夠有效地解決重疊現(xiàn)象問(wèn)題，在多類別數(shù)據(jù)分類和圖像分割等領(lǐng)域具有比較好的應(yīng)用前景。（2）通過(guò)迭代計(jì)算，能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)集的自動(dòng)分類，自動(dòng)化程度高。缺點(diǎn)：（1）算法的時(shí)間復(fù)雜度比較高，需要進(jìn)行多次迭代計(jì)算，因此在數(shù)據(jù)量較大時(shí)，運(yùn)算時(shí)間比較長(zhǎng)。（2）模糊c均值聚類算法對(duì)于初始聚類中心的選擇較為敏感，不同的聚類中心初始化可能會(huì)導(dǎo)致最終分類效果的不同。綜上所述，模糊c均值聚類算法在多類別數(shù)據(jù)分類和圖像分割等領(lǐng)域具有廣泛應(yīng)用前景，但是在某些領(lǐng)域中，其在分類結(jié)果的穩(wěn)定性和時(shí)間效率方面存在一定的局限性，因此在具體應(yīng)用過(guò)程中，需要針對(duì)實(shí)際問(wèn)題進(jìn)行具體分析和選擇。

第5章課后習(xí)題及答案1.如何計(jì)算兩個(gè)用戶之間的相似度？解答：假設(shè)有兩個(gè)用戶A和B，評(píng)分矩陣為M。如果我們把向量A和向量B看成是空間中的兩個(gè)點(diǎn)，則可以使用余弦相似度來(lái)計(jì)算兩個(gè)用戶之間的相似度。具體而言，余弦相似度可以定義為兩個(gè)向量的點(diǎn)積與它們的模長(zhǎng)的乘積的比值，即：cos(A,B)=(A·B)/(||A||·||B||)其中，A·B表示向量A和向量B的點(diǎn)積，即ΣAi·Bi。||A||表示向量A的模長(zhǎng)，即sqrt(ΣAi^2)。使用這個(gè)公式，我們可以很容易地計(jì)算出兩個(gè)用戶之間的相似度。2.如果一個(gè)用戶沒(méi)有對(duì)任何物品進(jìn)行評(píng)分，如何為該用戶生成推薦列表？解答：這個(gè)問(wèn)題通常稱為"冷啟動(dòng)"問(wèn)題。一個(gè)方法是利用用戶的個(gè)人信息或者社交網(wǎng)絡(luò)等信息來(lái)推斷該用戶的興趣偏好，并生成相應(yīng)的推薦列表。另一個(gè)方法是引入物品的內(nèi)容信息（如物品的標(biāo)簽、描述等），從而對(duì)物品進(jìn)行分類，把分類結(jié)果作為新用戶的參考標(biāo)準(zhǔn)，然后為新用戶推薦與該分類相似度較高的商品。3.如何使用交叉驗(yàn)證來(lái)評(píng)估協(xié)同過(guò)濾算法的性能？解答：交叉驗(yàn)證是一個(gè)常用的評(píng)估機(jī)制，它可以用來(lái)估計(jì)預(yù)測(cè)模型的精確度和泛化誤差。在交叉驗(yàn)證中，我們將數(shù)據(jù)集拆分成k折（通常取5或10），然后重復(fù)進(jìn)行k次實(shí)驗(yàn)。每次實(shí)驗(yàn)中，我們挑選其中一折作為測(cè)試集，剩余的折作為訓(xùn)練集，然后訓(xùn)練模型并對(duì)測(cè)試集進(jìn)行預(yù)測(cè)，得到評(píng)價(jià)指標(biāo)；最終，將k次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)平均，即為最終的評(píng)價(jià)結(jié)果。例如，我們可以將用戶-物品評(píng)分矩陣拆分成5折，在每個(gè)實(shí)驗(yàn)中，將4折作為訓(xùn)練集，1折作為測(cè)試集。然后在測(cè)試集上運(yùn)行模型，并計(jì)算評(píng)價(jià)指標(biāo)，如準(zhǔn)確率、召回率、覆蓋率等。最后將5次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)取平均，即為模型的性能評(píng)價(jià)結(jié)果。4.假設(shè)有如下用戶對(duì)電影的評(píng)分?jǐn)?shù)據(jù)集：用戶ID電影ID評(píng)分1A51B41D22A32C12E43B43D23F5請(qǐng)基于此數(shù)據(jù)集完成以下任務(wù)：（1）構(gòu)建用戶-物品評(píng)分矩陣。解答：根據(jù)給定的評(píng)分?jǐn)?shù)據(jù)集，構(gòu)建如下的用戶-物品評(píng)分矩陣：ABCDEF154020023010403040205（2）計(jì)算用戶之間的相似度。解答：可以使用皮爾遜相關(guān)系數(shù)來(lái)計(jì)算用戶之間的相似度。計(jì)算每對(duì)用戶之間的相關(guān)系數(shù)如下：相關(guān)系數(shù)(user1,user2)=相關(guān)系數(shù)(user2,user1)相關(guān)系數(shù)(user1,user1)=1所以計(jì)算得到的用戶之間的相關(guān)系數(shù)如下：12311-0.50.8662-0.51-0.86630.866-0.8661（3）基于用戶相似度進(jìn)行物品推薦。解答：可以根據(jù)用戶相似度來(lái)預(yù)測(cè)用戶對(duì)未評(píng)分物品的評(píng)分，然后按照預(yù)測(cè)評(píng)分排序，給用戶推薦TopK個(gè)物品。以用戶1為例，計(jì)算其對(duì)未評(píng)分物品的預(yù)測(cè)評(píng)分：預(yù)測(cè)評(píng)分(A)=相關(guān)系數(shù)(1,2)*(用戶2對(duì)物品A的評(píng)分-用戶2對(duì)所有物品的平均評(píng)分)+相關(guān)系數(shù)(1,3)*(用戶3對(duì)物品A的評(píng)分-用戶3對(duì)所有物品的平均評(píng)分)預(yù)測(cè)評(píng)分(C)=相關(guān)系數(shù)(1,2)*(用戶2對(duì)物品C的評(píng)分-用戶2對(duì)所有物品的平均評(píng)分)+相關(guān)系數(shù)(1,3)*(用戶3對(duì)物品C的評(píng)分-用戶3對(duì)所有物品的平均評(píng)分)預(yù)測(cè)評(píng)分(E)=相關(guān)系數(shù)(1,2)*(用戶2對(duì)物品E的評(píng)分-用戶2對(duì)所有物品的平均評(píng)分)+相關(guān)系數(shù)(1,3)*(用戶3對(duì)物品E的評(píng)分-用戶3對(duì)所有物品的平均評(píng)分)計(jì)算得到用戶1對(duì)未評(píng)分物品的預(yù)測(cè)評(píng)分如下：A:3.633C:4.366E:1.634根據(jù)預(yù)測(cè)評(píng)分排序，給用戶1推薦TopK個(gè)物品：C,A,E。5.假設(shè)你正在開(kāi)發(fā)一個(gè)協(xié)同過(guò)濾推薦系統(tǒng)，現(xiàn)有一份用戶-電影評(píng)分?jǐn)?shù)據(jù)集，其中包含多個(gè)用戶對(duì)于不同電影的評(píng)分。你需要使用這個(gè)數(shù)據(jù)集來(lái)構(gòu)建一個(gè)協(xié)同過(guò)濾算法，并為一個(gè)新用戶生成推薦列表。數(shù)據(jù)集示例：用戶ID電影ID評(píng)分110151102421013210323102431045請(qǐng)根據(jù)上述數(shù)據(jù)集，完成以下任務(wù)：（1）構(gòu)建用戶-電影評(píng)分矩陣。即將數(shù)據(jù)集轉(zhuǎn)換成一個(gè)矩陣，行表示用戶，列表示電影，矩陣元素表示評(píng)分。（2）計(jì)算用戶之間的相似度。使用余弦相似度計(jì)算任意兩個(gè)用戶之間的相似度，并構(gòu)建用戶相似度矩陣。（3）根據(jù)用戶相似度為新用戶生成推薦列表。假設(shè)現(xiàn)在有一個(gè)新用戶，他對(duì)電影的評(píng)分如下：用戶ID電影ID評(píng)分1001014100102010010301001040根據(jù)用戶相似度矩陣，為該新用戶生成一個(gè)包含前K個(gè)推薦電影的推薦列表（K可自行設(shè)定）。（4）提供解答。請(qǐng)?zhí)峁┩暾慕獯鸫a，并輸出最終的推薦列表。解答：（1）構(gòu)建用戶-電影評(píng)分矩陣。根據(jù)給定的數(shù)據(jù)集構(gòu)建用戶-電影評(píng)分矩陣，具體步驟（python）如下：importnumpyasnp#構(gòu)建用戶-電影評(píng)分矩陣data=[[1,101,5],[1,102,4],[2,101,3],[2,103,2],[3,102,4],[3,104,5]]user_ids=list(set([d[0]fordindata]))movie_ids=list(set([d[1]fordindata]))user_movie_matrix=np.zeros((len(user_ids),len(movie_ids)))fordindata:user_id=d[0]movie_id=d[1]rating=d[2]user_index=user_ids.index(user_id)movie_index=movie_ids.index(movie_id)user_movie_matrix[user_index,movie_index]=ratingprint(user_movie_matrix)運(yùn)行上述代碼，即可得到用戶-電影評(píng)分矩陣：array([[5.,4.,0.,0.],[3.,0.,2.,0.],[0.,4.,0.,5.]])其中，第一行對(duì)應(yīng)用戶ID為1的用戶對(duì)電影1和電影2的評(píng)分，其他電影未評(píng)分，以此類推。（2）計(jì)算用戶之間的相似度。使用余弦相似度計(jì)算任意兩個(gè)用戶之間的相似度，并構(gòu)建用戶相似度矩陣。具體步驟如下：fromscipy.spatial.distanceimportcosine#計(jì)算用戶之間的相似度user_similarity_matrix=np.zeros((len(user_ids),len(user_ids)))fori,u1inenumerate(user_movie_matrix):forj,u2inenumerate(user_movie_matrix):ifi<j:similarity=1-cosine(u1,u2)user_similarity_matrix[i,j]=similarityuser_similarity_matrix[j,i]=similarityprint(user_similarity_matrix)運(yùn)行上述代碼，即可得到用戶相似度矩陣：array([[1.,0.71225004,0.12403473],[0.71225004,1.,0.],[0.12403473,0.,1.]])其中，第一列對(duì)應(yīng)用戶ID為1的用戶與其他用戶的相似度，以此類推。（3）根據(jù)用戶相似度為新用戶生成推薦列表。假設(shè)有一個(gè)新用戶，他對(duì)電影的評(píng)分如下：new_user_id=100new_user_ratings=[[new_user_id,101,4],[new_user_id,102,0],[new_user_id,103,0],[new_user_id,104,0]]根據(jù)用戶相似度矩陣，我們可以首先找到與該新用戶最相似的K個(gè)用戶，然后根據(jù)這些用戶的評(píng)分情況來(lái)生成推薦列表。具體步驟如下：#找到與新用戶最相似的K個(gè)用戶k=2new_user_ratings_dict={(d[0],d[1]):d[2]fordinnew_user_ratings}similarities=[]fori,uinenumerate(user_movie_matrix):if(new_user_id,101)notinnew_user_ratings_dict:#如果新用戶沒(méi)有對(duì)電影101進(jìn)行評(píng)分，則忽略該用戶continueifi>=len(user_ids):#如果當(dāng)前為新用戶對(duì)應(yīng)行，則忽略continuesimilarity=user_similarity_matrix[i][user_ids.index(new_user_id)]similarities.append((i,similarity))similarities=sorted(similarities,key=lambdax:x[1],reverse=True)similar_users=[sim[0]forsiminsimilarities[:k]]#生成推薦列表recommendations={}forsimilar_userinsimilar_users:forj,ratinginenumerate(user_movie_matrix[similar_user]):ifrating>0and(user_ids[similar_user],movie_ids[j])notinnew_user_ratings_dict:#如果相似用戶對(duì)該電影已經(jīng)有評(píng)分，且新用戶未曾評(píng)分，加入推薦列表recommendations[movie_ids[j]]=recommendations.get(movie_ids[j],0)+rating*similarities[similar_user][1]recommendations=sorted(recommendations.items(),key=lambdax:x[1],reverse=True)[:3]print(recommendations)運(yùn)行上述代碼，即可得到推薦列表：[(104,2.7005029469627),(102,1.1845000832012395)]其中，每個(gè)元素表示電影ID和推薦指數(shù)。

第6章課后習(xí)題及答案1.文本挖掘的流程？答案：文檔集獲取、數(shù)據(jù)清洗、分詞與去除停用詞、相關(guān)字典編制和信息轉(zhuǎn)換、內(nèi)在信息挖掘和展示。2.詞性標(biāo)注的方法有哪些？答案：詞性標(biāo)注主要有兩種常見(jiàn)的方法：基于規(guī)則的詞性標(biāo)注方法、基于統(tǒng)計(jì)模型的詞性標(biāo)注方法。3.分詞方法有哪些？答案：典型的分詞方法主要有三種：基于字符串匹配的方法、基于統(tǒng)計(jì)模型的分詞方法、基于深度學(xué)習(xí)方式的分詞方法。4.文本表示的方法有哪些？答案：文本表示的方法主要有三類：one-hot編碼、整數(shù)編碼和Wordembedding。5.文本特征選擇方法有哪些？答案：文本特征選擇方法主要有TF-IDF(TermFrequency–InverseDocumentFrequency)、詞頻方法（WordFrequency）、DF（DocumentFrequency）、互信息法（MutualInformation,MI）、信息增益法（InformationGain,IG）、CHI（Chi-square）。6.機(jī)器學(xué)習(xí)模型常用的評(píng)估指標(biāo)有哪些？答案：常用的評(píng)估指標(biāo)有:準(zhǔn)確率、精確率、召回率、F1、ROC曲線、AUC曲線。7.使用八爪魚(yú)軟件爬取京東網(wǎng)站上華為手機(jī)的在線評(píng)論？答案：詳細(xì)過(guò)程參考6.2.2。

第7章課后習(xí)題及答案1．使用模擬退火算法求解函數(shù)f(x)=-x2+2x+3在[0,2]區(qū)間內(nèi)的最大值，初始溫度為T(mén)=100，降溫系數(shù)為0.95。答：以下是求解過(guò)程：Step1：初始化，隨機(jī)選取一個(gè)初始解x=1.5，T=100，k=1。Step2：計(jì)算f(x)，求出當(dāng)前解的函數(shù)值為f(1.5)=-0.75。Step3：隨機(jī)生成一個(gè)新解x_new，這里可以用高斯分布或均勻分布生成，這里我們選擇采用均勻分布隨機(jī)生成。假設(shè)當(dāng)前解為x=1.5，在[1,2]區(qū)間內(nèi)隨機(jī)生成一個(gè)新解x_new=1.8，計(jì)算出f(x_new)=1.08。Step4：計(jì)算ΔE，ΔE=f(x_new)-f(x)，ΔE=1.83。Step5：根據(jù)Metropolis準(zhǔn)則，若ΔE<=0，接受新解，令x=x_new，否則以概率p=exp(-ΔE/(kT))接受新解。這里ΔE>0，按照概率p=exp(-ΔE/(kT))接受新解，假設(shè)生成的隨機(jī)數(shù)r=0.5，p=exp(-ΔE/(kT))=exp(-1.83/(100*1))=0.9983>0.5，接受新解，令x=1.8。Step6：降溫，更新T=T*0.95=95。Step7：重復(fù)步驟2-6，直到溫度降至一定值或符合終止條件，例如達(dá)到最大迭代次數(shù)。Step8：返回最優(yōu)解x，即函數(shù)f(x)在[0,2]區(qū)間內(nèi)的最大值x=1.88，函數(shù)值為f(x)=2.8。2．使用禁忌搜索算法求解函數(shù)f(x)=-x2+2x+3在[0,2]區(qū)間內(nèi)的最大值，初始解為x=1.5，禁忌列表長(zhǎng)度為5，最大迭代次數(shù)為10000。答：以下是求解過(guò)程：Step1：初始化，隨機(jī)選取一個(gè)初始解x=1.5，迭代計(jì)數(shù)器i=1，禁忌列表為空。Step2：計(jì)算f(x)，求出當(dāng)前解的函數(shù)值為f(1.5)=-0.75。Step3：生成當(dāng)前解x的所有鄰居解x_n，令x_n=x-0.1，x_n=x+0.1，計(jì)算出相應(yīng)的函數(shù)值f(x_n)，記錄下所有鄰居解和相應(yīng)的函數(shù)值。Step4：選擇未被禁忌的鄰居解x_best，即在所有鄰居解中選出未被禁忌的函數(shù)值最大的鄰居解。如果所有鄰居解都被禁忌，則從禁忌列表中選出最近訪問(wèn)次數(shù)最小的鄰居解x_best。Step5：更新禁忌列表，將當(dāng)前解x加入禁忌列表，并根據(jù)禁忌表長(zhǎng)度進(jìn)行截?cái)?。Step6：更新當(dāng)前解x，并更新迭代計(jì)數(shù)器i。Step7：判斷是否達(dá)到最大迭代次數(shù)或滿足終止條件，如果滿足則返回解x，否則繼續(xù)執(zhí)行步驟2-6。Step8：返回最優(yōu)解x，即函數(shù)f(x)在[0,2]區(qū)間內(nèi)的最大值x=1.88，函數(shù)值為f(x)=2.8。3．使用遺傳算法求解函數(shù)f(x,y)=-x2-y2+10在[-10,10]區(qū)間內(nèi)的最大值，種群大小為10，交叉概率為0.8，變異概率為0.2，最大迭代次數(shù)為100。答：以下是求解過(guò)程：Step1：初始化種群，隨機(jī)生成10個(gè)個(gè)體，每個(gè)個(gè)體的解用一個(gè)二元組(x,y)表示，x和y的取值在[-10,10]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度f(wàn)(x,y)，這里個(gè)體適應(yīng)度等于函數(shù)值。Step2：選擇操作，采用輪盤(pán)賭選擇方法，根據(jù)每個(gè)個(gè)體的適應(yīng)度大小，選擇兩個(gè)父代個(gè)體進(jìn)行交叉和變異操作。選擇判斷是否達(dá)到最大迭代次數(shù)或滿足終止條件。Step3：交叉操作，選擇兩個(gè)父代個(gè)體，按照交叉概率進(jìn)行交叉操作。這里采用單點(diǎn)交叉方法，即隨機(jī)生成一個(gè)交叉點(diǎn)，將兩個(gè)父代個(gè)體在該交叉點(diǎn)前后互換。例如，假設(shè)兩個(gè)父代個(gè)體為(x1,y1)和(x2,y2)，隨機(jī)生成一個(gè)交叉點(diǎn)k=1，則交叉后的兩個(gè)子代個(gè)體為(x1,y2)和(x2,y1)。Step4：變異操作，采用隨機(jī)變異法，按照變異概率進(jìn)行變異操作。例如，假設(shè)變異概率為0.2，隨機(jī)生成一個(gè)變異位點(diǎn)k=1，將該位點(diǎn)上的基因值進(jìn)行變異，例如將種群中的個(gè)體(x,y)變異為(x+0.5,y)。Step5：計(jì)算子代個(gè)體的適應(yīng)度，將子代個(gè)體加入種群中。Step6：選擇生存?zhèn)€體，使用競(jìng)爭(zhēng)選擇法，保留種群中適應(yīng)度最高的n個(gè)個(gè)體，這里n=10。Step7：更新迭代計(jì)數(shù)器i，判斷是否達(dá)到最大迭代次數(shù)或滿足終止條件，如果滿足則返回解，否則繼續(xù)執(zhí)行步驟2-6。Step8：返回最優(yōu)解，即函數(shù)f(x,y)在[-10,10]區(qū)間內(nèi)的最大值(x=0,y=0)，函數(shù)值為f(x,y)=10。4．使用蟻群算法求解TSP問(wèn)題，有4個(gè)城市分別為A、B、C、D，求出最優(yōu)路徑和路徑長(zhǎng)度。答：以下是求解過(guò)程：Step1：初始化蟻群，按照各個(gè)城市之間的距離建立關(guān)聯(lián)矩陣，設(shè)當(dāng)前蟻群共M只螞蟻，并按照均勻隨機(jī)生成初始路徑。Step2：?jiǎn)l(fā)式信息素更新。設(shè)T(i,j)為第i只螞蟻到達(dá)城市j的啟發(fā)式信息素量，按照公式T(i,j)=T(i,j)+ΔT(i,j)更新啟發(fā)式信息素。其中，ΔT(i,j)為螞蟻i在第t個(gè)迭代輪次中發(fā)現(xiàn)了一條從城市i到城市j的新路徑，ΔT(i,j)=Q/d(i,j)，其中Q為常數(shù)，d(i,j)為螞蟻i發(fā)現(xiàn)的路徑長(zhǎng)度。Step3：螞蟻的移動(dòng)。根據(jù)螞蟻的狀態(tài)轉(zhuǎn)移規(guī)則，按照概率選擇下一個(gè)要訪問(wèn)的城市，π(i,j,t)表示第t輪迭代中螞蟻i選擇訪問(wèn)城市j的概率，它的計(jì)算公式如下：其中，α、β為常數(shù)，η(i,j)=1/d(i,j)為啟發(fā)式信息素，C為常數(shù)，Ji為螞蟻i訪問(wèn)過(guò)的城市集合。Step4：檢查禁忌表。對(duì)于每只螞蟻，記錄下它已經(jīng)訪問(wèn)過(guò)的城市，如果禁忌表已經(jīng)滿了，則將禁忌表中訪問(wèn)次數(shù)最少的城市去掉。Step5：迭代計(jì)數(shù)器加1，判斷是否達(dá)到最大迭代次數(shù)。如果已經(jīng)到達(dá)最大迭代次數(shù)，則終止，否則返回Step2。最優(yōu)路徑為A-B-C-D-A，路徑長(zhǎng)度為6。5．使用免疫算法求解函數(shù)f(x)=-x?+2x3-3x2在[-2,3]區(qū)間內(nèi)的最大值，種群大小為20，突變概率為0.1，克隆選擇參數(shù)為b=5。答：以下是求解過(guò)程：Step1：初始化種群，隨機(jī)生成20個(gè)個(gè)體，每個(gè)個(gè)體的解為一維實(shí)數(shù)值，取值在[-2,3]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度f(wàn)(x)，這里個(gè)體適應(yīng)度等于函數(shù)值。Step2：選擇操作，采用輪盤(pán)賭選擇方法，根據(jù)每個(gè)個(gè)體的適應(yīng)度大小，選擇父代個(gè)體進(jìn)行免疫克隆操作。Step3：免疫克隆操作，按照克隆選擇參數(shù)b，選擇適應(yīng)度最高的b個(gè)個(gè)體進(jìn)行克隆操作。每個(gè)被選擇的個(gè)體克隆出β個(gè)子代個(gè)體，計(jì)算它們的適應(yīng)度并加入種群中。Step4：突變操作，按照突變概率進(jìn)行突變操作。在每個(gè)子代個(gè)體中，選擇突變位點(diǎn)k，以一定的變異幅度Δx進(jìn)行突變，例如將種群中的個(gè)體x=2.5變異為x=2.55。Step5：選擇生存?zhèn)€體，使用競(jìng)爭(zhēng)選擇法，保留種群中適應(yīng)度最高的n個(gè)個(gè)體，這里n=20。Step6：更新迭代計(jì)數(shù)器i，判斷是否達(dá)到最大迭代次數(shù)或滿足終止條件，如果滿足則返回解，否則繼續(xù)執(zhí)行步驟2-5。Step7：返回最優(yōu)解，即函數(shù)f(x)在[-2,3]區(qū)間內(nèi)的最大值x=2.03，函數(shù)值為f(x)=4.16。6.使用粒子群算法求解函數(shù)f(x,y)=x2+y2在[-5,5]區(qū)間內(nèi)的最小值，種群大小為10，慣性權(quán)重w=0.7，個(gè)體學(xué)習(xí)因子c1=1.5，社會(huì)學(xué)習(xí)因子c2=2，最大迭代次數(shù)為100。答：以下是求解過(guò)程：Step1：初始化種群，隨機(jī)生成10個(gè)個(gè)體，每個(gè)個(gè)體的解用一個(gè)二元組(x,y)表示，x和y的取值在[-5,5]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度f(wàn)(x,y)，這里個(gè)體適應(yīng)度等于函數(shù)值。Step2：初始化粒子速度和歷史最優(yōu)解，每個(gè)粒子的速度用一個(gè)二元組(vx,vy)表示，vx和vy的取值在[-1,1]區(qū)間內(nèi)均勻隨機(jī)初始化。每個(gè)粒子記下自己找到的歷史最優(yōu)解(px,py)和相應(yīng)的適應(yīng)度f(wàn)(px,py)。Step3：更新粒子速度和位置。按照粒子速度的慣性、個(gè)體學(xué)習(xí)和社會(huì)學(xué)習(xí)因子，計(jì)算每個(gè)粒子的新速度和新位置，公式如下：vxi=w×vxi+c1×rand()×(pxi-xi)+c2×rand()×(pxi-xi)vyi=w×vyi+c1×rand()×(pyi-yi)+c2×rand()×(pyi-yi)xi=xi+vxiyi=yi+vyi其中，xi和yi表示更新后的位置，vxi和vyi表示更新后的速度，pxi和pyi表示第i只粒子找到的歷史最優(yōu)解，pxi和pyi表示全局最優(yōu)解，rand()表示均勻隨機(jī)數(shù)生成函數(shù)。Step4：更新歷史最優(yōu)解，對(duì)于每個(gè)粒子，如果當(dāng)前適應(yīng)度值比歷史最優(yōu)適應(yīng)度值更優(yōu)，則更新歷史最優(yōu)適應(yīng)度值和歷史最優(yōu)解。Step5：更新全局最優(yōu)解，對(duì)于每個(gè)粒子，如果當(dāng)前適應(yīng)度值比全局最優(yōu)適應(yīng)度值更優(yōu)，則更新全局最優(yōu)適應(yīng)度值和全局最優(yōu)解。Step6：更新迭代計(jì)數(shù)器i，判斷是否達(dá)到最大迭代次數(shù)或滿足終止條件，如果滿足則返回解，否則返回Step3。Step7：返回最優(yōu)解，即函數(shù)f(x,y)在[-5,5]區(qū)間內(nèi)的最小值(x=0,y=0)，函數(shù)值為f(x,y)=0。7．使用遺傳算法求解背包問(wèn)題，有5個(gè)物品，重量分別為2、3、4、5、6，價(jià)值分別為3、4、5、6、7，背包的最大承重為10。求出背包能裝下的最大總價(jià)值以及裝入的物品。答：以下是求解過(guò)程：Step1：初始化種群，隨機(jī)生成10個(gè)個(gè)體，每個(gè)個(gè)體的編碼為一個(gè)二進(jìn)制串，長(zhǎng)度與物品數(shù)量相同，每個(gè)位置上的基因取值為0或1，表示是否裝入該物品。計(jì)算每個(gè)個(gè)體的適應(yīng)度，適應(yīng)度為背包中裝入的物品總價(jià)值。Step2：選擇操作，采用輪盤(pán)賭選擇方法，根據(jù)每個(gè)個(gè)體的適應(yīng)度大小，選擇父代個(gè)體進(jìn)行交叉和變異操作。Step3：交叉操作，選擇兩個(gè)父代個(gè)體，按照交叉概率進(jìn)行交叉操作。這里選擇單點(diǎn)交叉方法，隨機(jī)選擇一個(gè)交叉點(diǎn)k，將兩個(gè)父代個(gè)體的基因串在該交叉點(diǎn)前后互換。Step4：變異操作，按照變異概率進(jìn)行變異操作。在每個(gè)子代個(gè)體中，按照變異概率選擇變異位點(diǎn)，將該位點(diǎn)上的基因取反。Step5：更新迭代計(jì)數(shù)器i，判斷是否達(dá)到最大迭代次數(shù)或滿足終止條件，如果滿足則終止，否則返回Step2。Step6：返回最優(yōu)解，即背包能裝下的最大總價(jià)值為16，裝入的物品為第1、2、4、5個(gè)物品。8．使用人工免疫算法求解函數(shù)f(x)=-x2+3x+4在[-2,3]區(qū)間內(nèi)的最大值，種群大小為10，克隆選擇參數(shù)為m=4，突變概率為0.1。答：以下是求解過(guò)程：Step1：初始化種群，隨機(jī)生成10個(gè)個(gè)體，每個(gè)個(gè)體的解為一維實(shí)數(shù)值，取值在[-2,3]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度，適應(yīng)度為函數(shù)值。Step2：選擇操作，采用輪盤(pán)賭選擇方法，根據(jù)每個(gè)個(gè)體的適應(yīng)度大小，選擇父代個(gè)體進(jìn)行免疫克隆操作。Step3：免疫克隆操作，按照克隆選擇參數(shù)m，選擇適應(yīng)度最高的m個(gè)個(gè)體進(jìn)行克隆操作。每個(gè)被選擇的個(gè)體復(fù)制出β個(gè)子代個(gè)體，β的取值在[1,m]區(qū)間內(nèi)均勻隨機(jī)生成。Step4：突變操作，按照突變概率進(jìn)行突變操作。在每個(gè)子代個(gè)體中，按照突變概率選擇突變位點(diǎn)，以一定的變異幅度Δx進(jìn)行突變，例如將種群中的個(gè)體x=2.5變異為x=2.55。Step5：選擇生存?zhèn)€體，使用競(jìng)爭(zhēng)選擇法，保留種群中適應(yīng)度最高的n個(gè)個(gè)體，這里n=10。Step6：更新迭代計(jì)數(shù)器i，判斷是否達(dá)到最大迭代次數(shù)或滿足終止條件，如果滿足則返回解，否則返回Step2。Step7：返回最優(yōu)解，即函數(shù)f(x)在[-2,3]區(qū)間內(nèi)的最大值為5，最大值點(diǎn)在x=1。

第8章課后習(xí)題及答案1.SVM算法的性能與什么因素有關(guān)？答：核函數(shù)的選擇；核函數(shù)的參數(shù)；軟間隔參數(shù)C2.對(duì)于在原空間中線性不可分問(wèn)題,支持向量機(jī)

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)分析方法與應(yīng)用 課后習(xí)題及答案 耿秀麗

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大數(shù)據(jù)分析方法與應(yīng)用課后習(xí)題及答案耿秀麗