大數(shù)據(jù)分析方法與應(yīng)用 課后習(xí)題及答案 耿秀麗_第1頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課后習(xí)題及答案 耿秀麗_第2頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課后習(xí)題及答案 耿秀麗_第3頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課后習(xí)題及答案 耿秀麗_第4頁(yè)
大數(shù)據(jù)分析方法與應(yīng)用 課后習(xí)題及答案 耿秀麗_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章課后習(xí)題及答案1.大數(shù)據(jù)的4V特征是什么?Volume(體量巨大)、Variety(種類(lèi)繁多)、Velocity(處理速度快)和Value(價(jià)值密度低)是大數(shù)據(jù)的4個(gè)主要特征。2.請(qǐng)簡(jiǎn)述大數(shù)據(jù)處理流程。大數(shù)據(jù)分析是一個(gè)目的明確的過(guò)程,其過(guò)程概括起來(lái)主要包括:目標(biāo)確定、數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)建模與分析、數(shù)據(jù)可視化、結(jié)果分析和報(bào)告。3.分布式計(jì)算在大數(shù)據(jù)分析中有哪些作用?提高計(jì)算效率、提高系統(tǒng)可靠性、實(shí)現(xiàn)更高的擴(kuò)展性、降低計(jì)算成本。4.你認(rèn)為在5G時(shí)代下大數(shù)據(jù)還有哪些新應(yīng)用?(1)“大國(guó)糧倉(cāng)”龍江5G數(shù)字農(nóng)場(chǎng)(北大荒)中國(guó)聯(lián)通“大國(guó)糧倉(cāng)”5G數(shù)字農(nóng)場(chǎng)項(xiàng)目,基于中國(guó)聯(lián)通5G網(wǎng)絡(luò),應(yīng)用于北大荒農(nóng)場(chǎng),打造世界先進(jìn)的5G數(shù)字農(nóng)場(chǎng),打通“人、地、機(jī)、物、環(huán)”生產(chǎn)作業(yè)全要素,貫穿“耕種管收”全環(huán)節(jié),以生產(chǎn)經(jīng)營(yíng)管理為核心,搭建“1+1+N”架構(gòu),即1張5G核心網(wǎng),完成農(nóng)業(yè)生產(chǎn)“感聯(lián)智控”;1個(gè)農(nóng)業(yè)智腦,整合物聯(lián)、數(shù)據(jù)、業(yè)務(wù)、AI、GIS等中臺(tái),進(jìn)行統(tǒng)一的平臺(tái)支撐和智能服務(wù);聚焦“黑土地保護(hù)+無(wú)人化作業(yè)”形成“N”項(xiàng)5G智慧農(nóng)業(yè)應(yīng)用,激活農(nóng)業(yè)發(fā)展要素資源,提高生產(chǎn)效率,降低生產(chǎn)成本,實(shí)現(xiàn)黑土地防治管護(hù)、無(wú)人農(nóng)機(jī)智能作業(yè)等全方位創(chuàng)新場(chǎng)景,實(shí)現(xiàn)水、肥、藥施用量節(jié)約20%以上,人力成本降低10%以上,每畝增產(chǎn)5-10%。通過(guò)5G賦能萬(wàn)畝良田,設(shè)施、裝備、機(jī)械數(shù)字化、智能化改造,實(shí)現(xiàn)全產(chǎn)業(yè)鏈智慧農(nóng)業(yè)。(2)5G助力天津港打造智慧、綠色的世界一流港口天津港是京津冀的海上門(mén)戶(hù),是“一帶一路”的戰(zhàn)略支點(diǎn),也是中國(guó)聯(lián)通在港口領(lǐng)域重要戰(zhàn)略合作伙伴之一。天津聯(lián)通攜手天津港匠心打造5G智慧港口,采用“邊生產(chǎn)、邊改造”的建設(shè)方式,相繼攻克世界性智慧港口建設(shè)諸多難題,落地了5G智能無(wú)人集卡、5G岸橋遠(yuǎn)程控制、5G智能理貨、5G智能加解鎖站、四大5G創(chuàng)新應(yīng)用場(chǎng)景,成為全球首個(gè)獲批建設(shè)的港口自動(dòng)駕駛示范區(qū)、實(shí)現(xiàn)全球首個(gè)無(wú)人集卡場(chǎng)景下陸側(cè)“一鍵著箱”、實(shí)現(xiàn)國(guó)內(nèi)首家集裝箱智能理貨系統(tǒng)內(nèi)外理一體化運(yùn)行、建成全球首臺(tái)集裝箱地面智能解鎖站、建成全球首個(gè)集裝箱設(shè)備任務(wù)集成管理系統(tǒng)ETMS。5.請(qǐng)舉例說(shuō)明生活中大數(shù)據(jù)的應(yīng)用。

第2章課后習(xí)題及答案1.總體和樣本的定義?答案:總體是具有特定屬性的對(duì)象的全體,樣本是某個(gè)總體的一部分。2.區(qū)分以下數(shù)據(jù)哪些是總體,哪些是樣本?(1)從某大學(xué)6000個(gè)宿舍中隨機(jī)抽查100間宿舍進(jìn)行安全檢查。(2)從一批燈泡中隨機(jī)挑選20個(gè)抽樣檢查。(3)對(duì)某小區(qū)所有的老人進(jìn)行身體檢查。答:(1)(2)是樣本;(3)是總體3.定性數(shù)據(jù)和定量數(shù)據(jù)的定義?答:定性數(shù)據(jù)(也稱(chēng)為名義數(shù)據(jù))是一種用于描述各種類(lèi)別或?qū)傩缘臄?shù)據(jù)。它們表示不同的類(lèi)型,但沒(méi)有排序或量化關(guān)系。定性數(shù)據(jù)僅提供了有關(guān)事物所屬類(lèi)別的信息,而不提供數(shù)量或程度的度量;定量數(shù)據(jù)是以數(shù)字表現(xiàn)的數(shù)據(jù),它可以被測(cè)量、計(jì)算和比較。在研究中,定量數(shù)據(jù)常用于收集、分析和解釋現(xiàn)象和事實(shí)。4.截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的定義?答:截面數(shù)是指在同一時(shí)間點(diǎn)上對(duì)某個(gè)總體進(jìn)行測(cè)量所得到的數(shù)據(jù)。這種數(shù)據(jù)收集方法通常是在同一時(shí)間點(diǎn)上進(jìn)行的,因此被稱(chēng)為截面數(shù)據(jù);時(shí)間序列數(shù)據(jù)是一種按時(shí)間順序排列的觀測(cè)值的集合,這些觀測(cè)值通常按照固定的時(shí)間間隔采集。5.協(xié)方差和相關(guān)系數(shù)的定義?答:協(xié)方差是描述兩個(gè)隨機(jī)變量之間關(guān)系的統(tǒng)計(jì)量。它用于衡量?jī)蓚€(gè)變量在同一時(shí)間段內(nèi)的變動(dòng)趨勢(shì)是否同向或相反;相關(guān)系數(shù)定量地刻畫(huà)兩個(gè)隨機(jī)變量的相關(guān)程度。

第3章課后習(xí)題及答案1.設(shè)SSR=36,SSE=4,n=18。(1)計(jì)算判定系數(shù)R2并解釋其意義。(2)計(jì)算估計(jì)標(biāo)準(zhǔn)誤差Se并解釋其意義。解:(1)R2=90%表示在因變量y取值的變差中,有90%可以由x與y之間的線(xiàn)性關(guān)系來(lái)解釋。(2)Se=0.5表示,當(dāng)用x來(lái)預(yù)測(cè)y時(shí),平均的預(yù)測(cè)誤差為0.5。2.下面是7個(gè)地區(qū)2000年的人均國(guó)內(nèi)生產(chǎn)總值(GDP)和人均消費(fèi)水平的統(tǒng)計(jì)數(shù)據(jù):表3-82000年統(tǒng)計(jì)數(shù)據(jù)地區(qū)人均GDP/元人均消費(fèi)水平/元北京224607326遼寧112264490上海3454711546江西48512396河南54442208貴州26621608陜西45492035求:(1)人均GDP作自變量,人均消費(fèi)水平作因變量,繪制散點(diǎn)圖,并說(shuō)明二者之間的關(guān)系。(2)計(jì)算兩個(gè)變量之間的線(xiàn)性相關(guān)系數(shù),說(shuō)明兩個(gè)變量之間的關(guān)系強(qiáng)度。(3)求出估計(jì)的回歸方程,并解釋回歸系數(shù)的實(shí)際意義。(4)計(jì)算判定系數(shù),并解釋其意義。(5)檢驗(yàn)回歸方程線(xiàn)性關(guān)系的顯著性()。(6)如果某地區(qū)的人均GDP為5000元,預(yù)測(cè)其人均消費(fèi)水平。(7)求人均GDP為5000元時(shí),人均消費(fèi)水平95%的置信區(qū)間和預(yù)測(cè)區(qū)間。解:(1)可能存在線(xiàn)性關(guān)系。(2)相關(guān)系數(shù):表3-9系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)T顯著性相關(guān)性B標(biāo)準(zhǔn)誤差Beta零階偏部分1常量734.693139.5405.2650.003人均GDP0.3090.0080.99836.4920.0000.9980.9980.998a因變量:人均消費(fèi)水平有很強(qiáng)的線(xiàn)性關(guān)系。(3)回歸方程:y=734.693+0.309x?;貧w系數(shù)的含義:人均GDP每增加1元,人均消費(fèi)增加0.309元。(4)表3-10模型匯總模型RR2調(diào)整R2標(biāo)準(zhǔn)估計(jì)的誤差10.998a0.9960.996247.303a預(yù)測(cè)變量(常量):人均GDP。人均GDP對(duì)人均消費(fèi)的影響達(dá)到99.6%。(5)F檢驗(yàn):表3-11ANVOA模型平方和df均方FSig.1回歸81444968.680181444968.6801331.6920.000殘差305795.034561159.007總計(jì)81750763.7146a預(yù)測(cè)變量:(常量),人均GDP。b因變量:人均消費(fèi)水平。回歸系數(shù)的檢驗(yàn):表3-12t檢驗(yàn)?zāi)P头菢?biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)t顯著性相關(guān)性B標(biāo)準(zhǔn)誤差Deta零階偏部分1常量734.693139.5405.2650.003人均GDP0.3090.0080.99836.4920.0000.9980.9980.998a因變量:人均消費(fèi)水平。(6)某地區(qū)的人均GDP為5000元,預(yù)測(cè)其人均消費(fèi)水平為:y=734.693+0.309×5000=2278.693(元)(7)人均GDP為5000元時(shí),人均消費(fèi)水平95%的置信區(qū)間為[1990.74915,2565.46399],預(yù)測(cè)區(qū)間為[1580.46315,2975.74999]。3.從n=20的樣本中得到的有關(guān)回歸結(jié)果是:SSR=60,SSE=40.要檢驗(yàn)x與y之間的線(xiàn)性關(guān)系是否顯著,即檢驗(yàn)假設(shè):H0:β1=0。求:(1)線(xiàn)性關(guān)系檢驗(yàn)的統(tǒng)計(jì)量F值是多少?(2)給定顯著性水平=0.05,是多少?(3)是拒絕原假設(shè)還是不拒絕原假設(shè)?(4)假定x與y之間是負(fù)相關(guān),計(jì)算相關(guān)系數(shù)r。(5)檢驗(yàn)x與y之間的線(xiàn)性關(guān)系是否顯著?解:(1)SSR的自由度為k=1;SSE的自由度為n-k-1=18;因此。(2)(3)拒絕原假設(shè),線(xiàn)性關(guān)系顯著。(4),由于是負(fù)相關(guān),因此r=0.7746。(5)從F檢驗(yàn)看線(xiàn)性關(guān)系顯著。4.以下是某地搜集到的新房屋的銷(xiāo)售價(jià)格y和房屋的面積x的數(shù)據(jù):房屋面積(m2)11511080135105銷(xiāo)售價(jià)格(萬(wàn)元)24.821.618.429.222求:(1)畫(huà)出數(shù)據(jù)對(duì)應(yīng)的散點(diǎn)圖。(2)求線(xiàn)性回歸方程,并在散點(diǎn)圖中加上回歸直線(xiàn)。(3)據(jù)(2)的結(jié)果估計(jì)當(dāng)房屋面積為150m2時(shí)的銷(xiāo)售價(jià)格。(4)求第2個(gè)點(diǎn)的殘差。解:(1)數(shù)據(jù)對(duì)應(yīng)的散點(diǎn)圖如圖所示:圖3-24銷(xiāo)售價(jià)格與房屋面積散點(diǎn)圖(2),,,。設(shè)所求回歸直線(xiàn)方程為,則,,故所求回歸直線(xiàn)方程為。(3)據(jù)(2),當(dāng)x=150m2時(shí),銷(xiāo)售價(jià)格的估計(jì)值為:(萬(wàn)元)5.某汽車(chē)生產(chǎn)商欲了解廣告費(fèi)用x對(duì)銷(xiāo)售量y的影響,收集了過(guò)去12年的有關(guān)數(shù)據(jù)。通過(guò)計(jì)算得到下面的有關(guān)結(jié)果:表3-13方差分析表變差來(lái)源dfSSMSFSignificanceF回歸2.17E—09殘差40158.07———總計(jì)111642866.67——表3-14參數(shù)估計(jì)表Coefficients標(biāo)準(zhǔn)誤差tStatP-valueIntercept363.689162.455295.8231910.000168XVariablel1.4202110.07109119.977492.17E—09求:(1)完成上面的方差分析表。(2)汽車(chē)銷(xiāo)售量的變差中有多少是由于廣告費(fèi)用的變動(dòng)引起的?(3)銷(xiāo)售量與廣告費(fèi)用之間的相關(guān)系數(shù)是多少?(4)寫(xiě)出估計(jì)的回歸方程并解釋回歸系數(shù)的實(shí)際意義。(5)檢驗(yàn)線(xiàn)性關(guān)系的顯著性(a=0.05)解:(1)變差來(lái)源dfSSMSFSignificanceF回歸11602708.61602708.6399.10000652.17E—09殘差1040158.074015.807——總計(jì)111642866.67———(2)R2=0.9756,汽車(chē)銷(xiāo)售量的變差中有97.56%是由于廣告費(fèi)用的變動(dòng)引起的。(3)r=0.9877。(4)回歸系數(shù)的意義:廣告費(fèi)用每增加一個(gè)單位,汽車(chē)銷(xiāo)量就增加1.42個(gè)單位。(5)回歸系數(shù)的檢驗(yàn):p=2.17E—09<阿爾法,回歸系數(shù)不等于0,顯著。回歸直線(xiàn)的檢驗(yàn):p=2.17E—09<阿爾法,回歸直線(xiàn)顯著。6.根據(jù)兩個(gè)自變量得到的多元回歸方程為,并且已知n=10,SST=6724.125,SSR=6216.375,,。求:(1)在a=0.05的顯著性水平下,x1,x2與y的線(xiàn)性關(guān)系是否顯著?(2)在a=0.05的顯著性水平下,是否顯著?在a=0.05的顯著性水平下,是否顯著?解:(1)回歸方程的顯著性檢驗(yàn):假設(shè):H0:H1:,不全等于0SSE=SST-SSR=6724.125-6216.375=507.75,,認(rèn)為線(xiàn)性關(guān)系顯著。(2)回歸系數(shù)的顯著性檢驗(yàn):假設(shè):H0:H1:,,認(rèn)為y與x1線(xiàn)性關(guān)系顯著。(3)回歸系數(shù)的顯著性檢驗(yàn):假設(shè):H0:H1:,,認(rèn)為y與x2線(xiàn)性關(guān)系顯著。7.根據(jù)下面輸出的回歸結(jié)果,說(shuō)明模型中設(shè)計(jì)多少個(gè)自變量,多少個(gè)觀察值?寫(xiě)出回歸方程,并根據(jù)F,Se,R2及調(diào)整的Ra2的值對(duì)模型進(jìn)行討論。表3-15Summaryoutput回歸統(tǒng)計(jì)MultipleR0.842407RSquare0.709650AdjustedRSquare0.630463標(biāo)準(zhǔn)誤差109.429596觀測(cè)值15表3-16方差分析dfSSMSFSignificanceF回歸3321946.8018107315.60068.9617590.002724殘差11131723.198211974.84總計(jì)14453670Coefficients標(biāo)準(zhǔn)誤差tStatP-valueIntercept657.0534167.4595393.9236550.002378XVariable15.7103111.7918363.1868490.008655XVariable2-0.4169170.322193-1.2939980.222174XVariable3-3.4714811.442935-2.4058470.034870解:自變量3個(gè),觀察值15個(gè)?;貧w方程:擬合優(yōu)度:判定系數(shù)R2=0.70965,調(diào)整的=0.630462,說(shuō)明三個(gè)自變量對(duì)因變量的影響的比例占到63%?;貧w方程的檢驗(yàn):F檢驗(yàn)的p=0.002724,在顯著性為5%的情況下,整個(gè)回歸方程線(xiàn)性關(guān)系顯著。回歸系數(shù)的檢驗(yàn):的t檢驗(yàn)的p=0.008655,在顯著性為5%的情況下,y與x1線(xiàn)性關(guān)系顯著。的t檢驗(yàn)的p=0.222174,在顯著性為5%的情況下,y與x2線(xiàn)性關(guān)系不顯著。的t檢驗(yàn)的p=0.034870,在顯著性為5%的情況下,y與x3線(xiàn)性關(guān)系顯著。因此,可以考慮采用逐步回歸去除x2,重新構(gòu)建線(xiàn)性回歸模型。

第4章課后習(xí)題及答案1.在對(duì)變量進(jìn)行分類(lèi)時(shí),度量變量之間的相似性常用的相似性系數(shù)有:夾角余弦和相關(guān)系數(shù)兩種。2.常用的系統(tǒng)聚類(lèi)方法主要有以下八種:最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類(lèi)平均法、可變類(lèi)平均法、可變法和離差平方和法。3.簡(jiǎn)述K-Means算法的具體步驟。(1)數(shù)據(jù)預(yù)處理,包括歸一化、離群點(diǎn)、異常值等的處理。(2)隨機(jī)選取K個(gè)簇中心。(3)定義代價(jià)函數(shù),或者說(shuō)定義分配原則。(4)令t=0,1,2,…不斷迭代,重復(fù)下面過(guò)程直到代價(jià)函數(shù)收斂:將每個(gè)樣本分配到距離最近的簇,并重新計(jì)算該類(lèi)簇的中心。(5)得到K個(gè)聚類(lèi)。(6)結(jié)束。4.K-Means算法的優(yōu)缺點(diǎn)是什么?如何對(duì)其進(jìn)行調(diào)優(yōu)??jī)?yōu)點(diǎn):(1)該算法是解決聚類(lèi)問(wèn)題的一種經(jīng)典算法,簡(jiǎn)單、快速。(2)對(duì)處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮和高效率的。(3)因?yàn)樗膹?fù)雜度是O(n,k,t),其中n是所有對(duì)象的數(shù)目,k是簇的數(shù)目,t是迭代的次數(shù)。通常k<<n且t<<n。不同于其他算法,K-Means最大的優(yōu)點(diǎn)是K值可以根據(jù)實(shí)際需求自行調(diào)節(jié),以達(dá)到控制類(lèi)簇內(nèi)樣本點(diǎn)數(shù)量的目的。(4)當(dāng)結(jié)果簇是密集的,而簇與簇之間區(qū)別明顯時(shí),它的效果較好。缺點(diǎn):(1)在簇的平均值被定義的情況下才能使用,這對(duì)于處理符號(hào)屬性的數(shù)據(jù)不適用。(2)必須事先給出k(要生成的簇的數(shù)目),而且對(duì)初值敏感,對(duì)于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果。經(jīng)常發(fā)生得到次優(yōu)劃分的情況。解決方法是多次嘗試不同的初始值。(3)它對(duì)于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的,少量的該類(lèi)數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響調(diào)優(yōu):(1)數(shù)據(jù)歸一化:K均值聚類(lèi)本質(zhì)上是一種基于歐式距離度量的數(shù)據(jù)劃分方法,均值和方差大的維度將對(duì)數(shù)據(jù)的聚類(lèi)結(jié)果產(chǎn)生決定性的影響,所以未做歸一化處理和統(tǒng)一單位的數(shù)據(jù)是無(wú)法直接參與運(yùn)算和比較的。(2)離群點(diǎn)處理:離群點(diǎn)或者少量的噪聲數(shù)據(jù)就會(huì)對(duì)均值產(chǎn)生較大的影響,導(dǎo)致中心偏移,因此使用K均值聚類(lèi)算法之前通常需要對(duì)數(shù)據(jù)做預(yù)處理。5.K最近鄰算法的三要素是什么?距離度量、k值選擇和分類(lèi)決策規(guī)則。6.簡(jiǎn)述模糊C-均值的優(yōu)缺點(diǎn)。優(yōu)點(diǎn):(1)能夠有效地解決重疊現(xiàn)象問(wèn)題,在多類(lèi)別數(shù)據(jù)分類(lèi)和圖像分割等領(lǐng)域具有比較好的應(yīng)用前景。(2)通過(guò)迭代計(jì)算,能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)集的自動(dòng)分類(lèi),自動(dòng)化程度高。缺點(diǎn):(1)算法的時(shí)間復(fù)雜度比較高,需要進(jìn)行多次迭代計(jì)算,因此在數(shù)據(jù)量較大時(shí),運(yùn)算時(shí)間比較長(zhǎng)。(2)模糊c均值聚類(lèi)算法對(duì)于初始聚類(lèi)中心的選擇較為敏感,不同的聚類(lèi)中心初始化可能會(huì)導(dǎo)致最終分類(lèi)效果的不同。綜上所述,模糊c均值聚類(lèi)算法在多類(lèi)別數(shù)據(jù)分類(lèi)和圖像分割等領(lǐng)域具有廣泛應(yīng)用前景,但是在某些領(lǐng)域中,其在分類(lèi)結(jié)果的穩(wěn)定性和時(shí)間效率方面存在一定的局限性,因此在具體應(yīng)用過(guò)程中,需要針對(duì)實(shí)際問(wèn)題進(jìn)行具體分析和選擇。

第5章課后習(xí)題及答案1.如何計(jì)算兩個(gè)用戶(hù)之間的相似度?解答:假設(shè)有兩個(gè)用戶(hù)A和B,評(píng)分矩陣為M。如果我們把向量A和向量B看成是空間中的兩個(gè)點(diǎn),則可以使用余弦相似度來(lái)計(jì)算兩個(gè)用戶(hù)之間的相似度。具體而言,余弦相似度可以定義為兩個(gè)向量的點(diǎn)積與它們的模長(zhǎng)的乘積的比值,即:cos(A,B)=(A·B)/(||A||·||B||)其中,A·B表示向量A和向量B的點(diǎn)積,即ΣAi·Bi。||A||表示向量A的模長(zhǎng),即sqrt(ΣAi^2)。使用這個(gè)公式,我們可以很容易地計(jì)算出兩個(gè)用戶(hù)之間的相似度。2.如果一個(gè)用戶(hù)沒(méi)有對(duì)任何物品進(jìn)行評(píng)分,如何為該用戶(hù)生成推薦列表?解答:這個(gè)問(wèn)題通常稱(chēng)為"冷啟動(dòng)"問(wèn)題。一個(gè)方法是利用用戶(hù)的個(gè)人信息或者社交網(wǎng)絡(luò)等信息來(lái)推斷該用戶(hù)的興趣偏好,并生成相應(yīng)的推薦列表。另一個(gè)方法是引入物品的內(nèi)容信息(如物品的標(biāo)簽、描述等),從而對(duì)物品進(jìn)行分類(lèi),把分類(lèi)結(jié)果作為新用戶(hù)的參考標(biāo)準(zhǔn),然后為新用戶(hù)推薦與該分類(lèi)相似度較高的商品。3.如何使用交叉驗(yàn)證來(lái)評(píng)估協(xié)同過(guò)濾算法的性能?解答:交叉驗(yàn)證是一個(gè)常用的評(píng)估機(jī)制,它可以用來(lái)估計(jì)預(yù)測(cè)模型的精確度和泛化誤差。在交叉驗(yàn)證中,我們將數(shù)據(jù)集拆分成k折(通常取5或10),然后重復(fù)進(jìn)行k次實(shí)驗(yàn)。每次實(shí)驗(yàn)中,我們挑選其中一折作為測(cè)試集,剩余的折作為訓(xùn)練集,然后訓(xùn)練模型并對(duì)測(cè)試集進(jìn)行預(yù)測(cè),得到評(píng)價(jià)指標(biāo);最終,將k次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)平均,即為最終的評(píng)價(jià)結(jié)果。例如,我們可以將用戶(hù)-物品評(píng)分矩陣拆分成5折,在每個(gè)實(shí)驗(yàn)中,將4折作為訓(xùn)練集,1折作為測(cè)試集。然后在測(cè)試集上運(yùn)行模型,并計(jì)算評(píng)價(jià)指標(biāo),如準(zhǔn)確率、召回率、覆蓋率等。最后將5次實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)取平均,即為模型的性能評(píng)價(jià)結(jié)果。4.假設(shè)有如下用戶(hù)對(duì)電影的評(píng)分?jǐn)?shù)據(jù)集:用戶(hù)ID電影ID評(píng)分1A51B41D22A32C12E43B43D23F5請(qǐng)基于此數(shù)據(jù)集完成以下任務(wù):(1)構(gòu)建用戶(hù)-物品評(píng)分矩陣。解答:根據(jù)給定的評(píng)分?jǐn)?shù)據(jù)集,構(gòu)建如下的用戶(hù)-物品評(píng)分矩陣:ABCDEF154020023010403040205(2)計(jì)算用戶(hù)之間的相似度。解答:可以使用皮爾遜相關(guān)系數(shù)來(lái)計(jì)算用戶(hù)之間的相似度。計(jì)算每對(duì)用戶(hù)之間的相關(guān)系數(shù)如下:相關(guān)系數(shù)(user1,user2)=相關(guān)系數(shù)(user2,user1)相關(guān)系數(shù)(user1,user1)=1所以計(jì)算得到的用戶(hù)之間的相關(guān)系數(shù)如下:12311-0.50.8662-0.51-0.86630.866-0.8661(3)基于用戶(hù)相似度進(jìn)行物品推薦。解答:可以根據(jù)用戶(hù)相似度來(lái)預(yù)測(cè)用戶(hù)對(duì)未評(píng)分物品的評(píng)分,然后按照預(yù)測(cè)評(píng)分排序,給用戶(hù)推薦TopK個(gè)物品。以用戶(hù)1為例,計(jì)算其對(duì)未評(píng)分物品的預(yù)測(cè)評(píng)分:預(yù)測(cè)評(píng)分(A)=相關(guān)系數(shù)(1,2)*(用戶(hù)2對(duì)物品A的評(píng)分-用戶(hù)2對(duì)所有物品的平均評(píng)分)+相關(guān)系數(shù)(1,3)*(用戶(hù)3對(duì)物品A的評(píng)分-用戶(hù)3對(duì)所有物品的平均評(píng)分)預(yù)測(cè)評(píng)分(C)=相關(guān)系數(shù)(1,2)*(用戶(hù)2對(duì)物品C的評(píng)分-用戶(hù)2對(duì)所有物品的平均評(píng)分)+相關(guān)系數(shù)(1,3)*(用戶(hù)3對(duì)物品C的評(píng)分-用戶(hù)3對(duì)所有物品的平均評(píng)分)預(yù)測(cè)評(píng)分(E)=相關(guān)系數(shù)(1,2)*(用戶(hù)2對(duì)物品E的評(píng)分-用戶(hù)2對(duì)所有物品的平均評(píng)分)+相關(guān)系數(shù)(1,3)*(用戶(hù)3對(duì)物品E的評(píng)分-用戶(hù)3對(duì)所有物品的平均評(píng)分)計(jì)算得到用戶(hù)1對(duì)未評(píng)分物品的預(yù)測(cè)評(píng)分如下:A:3.633C:4.366E:1.634根據(jù)預(yù)測(cè)評(píng)分排序,給用戶(hù)1推薦TopK個(gè)物品:C,A,E。5.假設(shè)你正在開(kāi)發(fā)一個(gè)協(xié)同過(guò)濾推薦系統(tǒng),現(xiàn)有一份用戶(hù)-電影評(píng)分?jǐn)?shù)據(jù)集,其中包含多個(gè)用戶(hù)對(duì)于不同電影的評(píng)分。你需要使用這個(gè)數(shù)據(jù)集來(lái)構(gòu)建一個(gè)協(xié)同過(guò)濾算法,并為一個(gè)新用戶(hù)生成推薦列表。數(shù)據(jù)集示例:用戶(hù)ID電影ID評(píng)分110151102421013210323102431045請(qǐng)根據(jù)上述數(shù)據(jù)集,完成以下任務(wù):(1)構(gòu)建用戶(hù)-電影評(píng)分矩陣。即將數(shù)據(jù)集轉(zhuǎn)換成一個(gè)矩陣,行表示用戶(hù),列表示電影,矩陣元素表示評(píng)分。(2)計(jì)算用戶(hù)之間的相似度。使用余弦相似度計(jì)算任意兩個(gè)用戶(hù)之間的相似度,并構(gòu)建用戶(hù)相似度矩陣。(3)根據(jù)用戶(hù)相似度為新用戶(hù)生成推薦列表。假設(shè)現(xiàn)在有一個(gè)新用戶(hù),他對(duì)電影的評(píng)分如下:用戶(hù)ID電影ID評(píng)分1001014100102010010301001040根據(jù)用戶(hù)相似度矩陣,為該新用戶(hù)生成一個(gè)包含前K個(gè)推薦電影的推薦列表(K可自行設(shè)定)。(4)提供解答。請(qǐng)?zhí)峁┩暾慕獯鸫a,并輸出最終的推薦列表。解答:(1)構(gòu)建用戶(hù)-電影評(píng)分矩陣。根據(jù)給定的數(shù)據(jù)集構(gòu)建用戶(hù)-電影評(píng)分矩陣,具體步驟(python)如下:importnumpyasnp#構(gòu)建用戶(hù)-電影評(píng)分矩陣data=[[1,101,5],[1,102,4],[2,101,3],[2,103,2],[3,102,4],[3,104,5]]user_ids=list(set([d[0]fordindata]))movie_ids=list(set([d[1]fordindata]))user_movie_matrix=np.zeros((len(user_ids),len(movie_ids)))fordindata:user_id=d[0]movie_id=d[1]rating=d[2]user_index=user_ids.index(user_id)movie_index=movie_ids.index(movie_id)user_movie_matrix[user_index,movie_index]=ratingprint(user_movie_matrix)運(yùn)行上述代碼,即可得到用戶(hù)-電影評(píng)分矩陣:array([[5.,4.,0.,0.],[3.,0.,2.,0.],[0.,4.,0.,5.]])其中,第一行對(duì)應(yīng)用戶(hù)ID為1的用戶(hù)對(duì)電影1和電影2的評(píng)分,其他電影未評(píng)分,以此類(lèi)推。(2)計(jì)算用戶(hù)之間的相似度。使用余弦相似度計(jì)算任意兩個(gè)用戶(hù)之間的相似度,并構(gòu)建用戶(hù)相似度矩陣。具體步驟如下:fromscipy.spatial.distanceimportcosine#計(jì)算用戶(hù)之間的相似度user_similarity_matrix=np.zeros((len(user_ids),len(user_ids)))fori,u1inenumerate(user_movie_matrix):forj,u2inenumerate(user_movie_matrix):ifi<j:similarity=1-cosine(u1,u2)user_similarity_matrix[i,j]=similarityuser_similarity_matrix[j,i]=similarityprint(user_similarity_matrix)運(yùn)行上述代碼,即可得到用戶(hù)相似度矩陣:array([[1.,0.71225004,0.12403473],[0.71225004,1.,0.],[0.12403473,0.,1.]])其中,第一列對(duì)應(yīng)用戶(hù)ID為1的用戶(hù)與其他用戶(hù)的相似度,以此類(lèi)推。(3)根據(jù)用戶(hù)相似度為新用戶(hù)生成推薦列表。假設(shè)有一個(gè)新用戶(hù),他對(duì)電影的評(píng)分如下:new_user_id=100new_user_ratings=[[new_user_id,101,4],[new_user_id,102,0],[new_user_id,103,0],[new_user_id,104,0]]根據(jù)用戶(hù)相似度矩陣,我們可以首先找到與該新用戶(hù)最相似的K個(gè)用戶(hù),然后根據(jù)這些用戶(hù)的評(píng)分情況來(lái)生成推薦列表。具體步驟如下:#找到與新用戶(hù)最相似的K個(gè)用戶(hù)k=2new_user_ratings_dict={(d[0],d[1]):d[2]fordinnew_user_ratings}similarities=[]fori,uinenumerate(user_movie_matrix):if(new_user_id,101)notinnew_user_ratings_dict:#如果新用戶(hù)沒(méi)有對(duì)電影101進(jìn)行評(píng)分,則忽略該用戶(hù)continueifi>=len(user_ids):#如果當(dāng)前為新用戶(hù)對(duì)應(yīng)行,則忽略continuesimilarity=user_similarity_matrix[i][user_ids.index(new_user_id)]similarities.append((i,similarity))similarities=sorted(similarities,key=lambdax:x[1],reverse=True)similar_users=[sim[0]forsiminsimilarities[:k]]#生成推薦列表recommendations={}forsimilar_userinsimilar_users:forj,ratinginenumerate(user_movie_matrix[similar_user]):ifrating>0and(user_ids[similar_user],movie_ids[j])notinnew_user_ratings_dict:#如果相似用戶(hù)對(duì)該電影已經(jīng)有評(píng)分,且新用戶(hù)未曾評(píng)分,加入推薦列表recommendations[movie_ids[j]]=recommendations.get(movie_ids[j],0)+rating*similarities[similar_user][1]recommendations=sorted(recommendations.items(),key=lambdax:x[1],reverse=True)[:3]print(recommendations)運(yùn)行上述代碼,即可得到推薦列表:[(104,2.7005029469627),(102,1.1845000832012395)]其中,每個(gè)元素表示電影ID和推薦指數(shù)。

第6章課后習(xí)題及答案1.文本挖掘的流程?答案:文檔集獲取、數(shù)據(jù)清洗、分詞與去除停用詞、相關(guān)字典編制和信息轉(zhuǎn)換、內(nèi)在信息挖掘和展示。2.詞性標(biāo)注的方法有哪些?答案:詞性標(biāo)注主要有兩種常見(jiàn)的方法:基于規(guī)則的詞性標(biāo)注方法、基于統(tǒng)計(jì)模型的詞性標(biāo)注方法。3.分詞方法有哪些?答案:典型的分詞方法主要有三種:基于字符串匹配的方法、基于統(tǒng)計(jì)模型的分詞方法、基于深度學(xué)習(xí)方式的分詞方法。4.文本表示的方法有哪些?答案:文本表示的方法主要有三類(lèi):one-hot編碼、整數(shù)編碼和Wordembedding。5.文本特征選擇方法有哪些?答案:文本特征選擇方法主要有TF-IDF(TermFrequency–InverseDocumentFrequency)、詞頻方法(WordFrequency)、DF(DocumentFrequency)、互信息法(MutualInformation,MI)、信息增益法(InformationGain,IG)、CHI(Chi-square)。6.機(jī)器學(xué)習(xí)模型常用的評(píng)估指標(biāo)有哪些?答案:常用的評(píng)估指標(biāo)有:準(zhǔn)確率、精確率、召回率、F1、ROC曲線(xiàn)、AUC曲線(xiàn)。7.使用八爪魚(yú)軟件爬取京東網(wǎng)站上華為手機(jī)的在線(xiàn)評(píng)論?答案:詳細(xì)過(guò)程參考6.2.2。

第7章課后習(xí)題及答案1.使用模擬退火算法求解函數(shù)f(x)=-x2+2x+3在[0,2]區(qū)間內(nèi)的最大值,初始溫度為T(mén)=100,降溫系數(shù)為0.95。答:以下是求解過(guò)程:Step1:初始化,隨機(jī)選取一個(gè)初始解x=1.5,T=100,k=1。Step2:計(jì)算f(x),求出當(dāng)前解的函數(shù)值為f(1.5)=-0.75。Step3:隨機(jī)生成一個(gè)新解x_new,這里可以用高斯分布或均勻分布生成,這里我們選擇采用均勻分布隨機(jī)生成。假設(shè)當(dāng)前解為x=1.5,在[1,2]區(qū)間內(nèi)隨機(jī)生成一個(gè)新解x_new=1.8,計(jì)算出f(x_new)=1.08。Step4:計(jì)算ΔE,ΔE=f(x_new)-f(x),ΔE=1.83。Step5:根據(jù)Metropolis準(zhǔn)則,若ΔE<=0,接受新解,令x=x_new,否則以概率p=exp(-ΔE/(kT))接受新解。這里ΔE>0,按照概率p=exp(-ΔE/(kT))接受新解,假設(shè)生成的隨機(jī)數(shù)r=0.5,p=exp(-ΔE/(kT))=exp(-1.83/(100*1))=0.9983>0.5,接受新解,令x=1.8。Step6:降溫,更新T=T*0.95=95。Step7:重復(fù)步驟2-6,直到溫度降至一定值或符合終止條件,例如達(dá)到最大迭代次數(shù)。Step8:返回最優(yōu)解x,即函數(shù)f(x)在[0,2]區(qū)間內(nèi)的最大值x=1.88,函數(shù)值為f(x)=2.8。2.使用禁忌搜索算法求解函數(shù)f(x)=-x2+2x+3在[0,2]區(qū)間內(nèi)的最大值,初始解為x=1.5,禁忌列表長(zhǎng)度為5,最大迭代次數(shù)為10000。答:以下是求解過(guò)程:Step1:初始化,隨機(jī)選取一個(gè)初始解x=1.5,迭代計(jì)數(shù)器i=1,禁忌列表為空。Step2:計(jì)算f(x),求出當(dāng)前解的函數(shù)值為f(1.5)=-0.75。Step3:生成當(dāng)前解x的所有鄰居解x_n,令x_n=x-0.1,x_n=x+0.1,計(jì)算出相應(yīng)的函數(shù)值f(x_n),記錄下所有鄰居解和相應(yīng)的函數(shù)值。Step4:選擇未被禁忌的鄰居解x_best,即在所有鄰居解中選出未被禁忌的函數(shù)值最大的鄰居解。如果所有鄰居解都被禁忌,則從禁忌列表中選出最近訪(fǎng)問(wèn)次數(shù)最小的鄰居解x_best。Step5:更新禁忌列表,將當(dāng)前解x加入禁忌列表,并根據(jù)禁忌表長(zhǎng)度進(jìn)行截?cái)?。Step6:更新當(dāng)前解x,并更新迭代計(jì)數(shù)器i。Step7:判斷是否達(dá)到最大迭代次數(shù)或滿(mǎn)足終止條件,如果滿(mǎn)足則返回解x,否則繼續(xù)執(zhí)行步驟2-6。Step8:返回最優(yōu)解x,即函數(shù)f(x)在[0,2]區(qū)間內(nèi)的最大值x=1.88,函數(shù)值為f(x)=2.8。3.使用遺傳算法求解函數(shù)f(x,y)=-x2-y2+10在[-10,10]區(qū)間內(nèi)的最大值,種群大小為10,交叉概率為0.8,變異概率為0.2,最大迭代次數(shù)為100。答:以下是求解過(guò)程:Step1:初始化種群,隨機(jī)生成10個(gè)個(gè)體,每個(gè)個(gè)體的解用一個(gè)二元組(x,y)表示,x和y的取值在[-10,10]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度f(wàn)(x,y),這里個(gè)體適應(yīng)度等于函數(shù)值。Step2:選擇操作,采用輪盤(pán)賭選擇方法,根據(jù)每個(gè)個(gè)體的適應(yīng)度大小,選擇兩個(gè)父代個(gè)體進(jìn)行交叉和變異操作。選擇判斷是否達(dá)到最大迭代次數(shù)或滿(mǎn)足終止條件。Step3:交叉操作,選擇兩個(gè)父代個(gè)體,按照交叉概率進(jìn)行交叉操作。這里采用單點(diǎn)交叉方法,即隨機(jī)生成一個(gè)交叉點(diǎn),將兩個(gè)父代個(gè)體在該交叉點(diǎn)前后互換。例如,假設(shè)兩個(gè)父代個(gè)體為(x1,y1)和(x2,y2),隨機(jī)生成一個(gè)交叉點(diǎn)k=1,則交叉后的兩個(gè)子代個(gè)體為(x1,y2)和(x2,y1)。Step4:變異操作,采用隨機(jī)變異法,按照變異概率進(jìn)行變異操作。例如,假設(shè)變異概率為0.2,隨機(jī)生成一個(gè)變異位點(diǎn)k=1,將該位點(diǎn)上的基因值進(jìn)行變異,例如將種群中的個(gè)體(x,y)變異為(x+0.5,y)。Step5:計(jì)算子代個(gè)體的適應(yīng)度,將子代個(gè)體加入種群中。Step6:選擇生存?zhèn)€體,使用競(jìng)爭(zhēng)選擇法,保留種群中適應(yīng)度最高的n個(gè)個(gè)體,這里n=10。Step7:更新迭代計(jì)數(shù)器i,判斷是否達(dá)到最大迭代次數(shù)或滿(mǎn)足終止條件,如果滿(mǎn)足則返回解,否則繼續(xù)執(zhí)行步驟2-6。Step8:返回最優(yōu)解,即函數(shù)f(x,y)在[-10,10]區(qū)間內(nèi)的最大值(x=0,y=0),函數(shù)值為f(x,y)=10。4.使用蟻群算法求解TSP問(wèn)題,有4個(gè)城市分別為A、B、C、D,求出最優(yōu)路徑和路徑長(zhǎng)度。答:以下是求解過(guò)程:Step1:初始化蟻群,按照各個(gè)城市之間的距離建立關(guān)聯(lián)矩陣,設(shè)當(dāng)前蟻群共M只螞蟻,并按照均勻隨機(jī)生成初始路徑。Step2:?jiǎn)l(fā)式信息素更新。設(shè)T(i,j)為第i只螞蟻到達(dá)城市j的啟發(fā)式信息素量,按照公式T(i,j)=T(i,j)+ΔT(i,j)更新啟發(fā)式信息素。其中,ΔT(i,j)為螞蟻i在第t個(gè)迭代輪次中發(fā)現(xiàn)了一條從城市i到城市j的新路徑,ΔT(i,j)=Q/d(i,j),其中Q為常數(shù),d(i,j)為螞蟻i發(fā)現(xiàn)的路徑長(zhǎng)度。Step3:螞蟻的移動(dòng)。根據(jù)螞蟻的狀態(tài)轉(zhuǎn)移規(guī)則,按照概率選擇下一個(gè)要訪(fǎng)問(wèn)的城市,π(i,j,t)表示第t輪迭代中螞蟻i選擇訪(fǎng)問(wèn)城市j的概率,它的計(jì)算公式如下: 其中,α、β為常數(shù),η(i,j)=1/d(i,j)為啟發(fā)式信息素,C為常數(shù),Ji為螞蟻i訪(fǎng)問(wèn)過(guò)的城市集合。Step4:檢查禁忌表。對(duì)于每只螞蟻,記錄下它已經(jīng)訪(fǎng)問(wèn)過(guò)的城市,如果禁忌表已經(jīng)滿(mǎn)了,則將禁忌表中訪(fǎng)問(wèn)次數(shù)最少的城市去掉。Step5:迭代計(jì)數(shù)器加1,判斷是否達(dá)到最大迭代次數(shù)。如果已經(jīng)到達(dá)最大迭代次數(shù),則終止,否則返回Step2。最優(yōu)路徑為A-B-C-D-A,路徑長(zhǎng)度為6。5.使用免疫算法求解函數(shù)f(x)=-x?+2x3-3x2在[-2,3]區(qū)間內(nèi)的最大值,種群大小為20,突變概率為0.1,克隆選擇參數(shù)為b=5。答:以下是求解過(guò)程:Step1:初始化種群,隨機(jī)生成20個(gè)個(gè)體,每個(gè)個(gè)體的解為一維實(shí)數(shù)值,取值在[-2,3]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度f(wàn)(x),這里個(gè)體適應(yīng)度等于函數(shù)值。Step2:選擇操作,采用輪盤(pán)賭選擇方法,根據(jù)每個(gè)個(gè)體的適應(yīng)度大小,選擇父代個(gè)體進(jìn)行免疫克隆操作。Step3:免疫克隆操作,按照克隆選擇參數(shù)b,選擇適應(yīng)度最高的b個(gè)個(gè)體進(jìn)行克隆操作。每個(gè)被選擇的個(gè)體克隆出β個(gè)子代個(gè)體,計(jì)算它們的適應(yīng)度并加入種群中。Step4:突變操作,按照突變概率進(jìn)行突變操作。在每個(gè)子代個(gè)體中,選擇突變位點(diǎn)k,以一定的變異幅度Δx進(jìn)行突變,例如將種群中的個(gè)體x=2.5變異為x=2.55。Step5:選擇生存?zhèn)€體,使用競(jìng)爭(zhēng)選擇法,保留種群中適應(yīng)度最高的n個(gè)個(gè)體,這里n=20。Step6:更新迭代計(jì)數(shù)器i,判斷是否達(dá)到最大迭代次數(shù)或滿(mǎn)足終止條件,如果滿(mǎn)足則返回解,否則繼續(xù)執(zhí)行步驟2-5。Step7:返回最優(yōu)解,即函數(shù)f(x)在[-2,3]區(qū)間內(nèi)的最大值x=2.03,函數(shù)值為f(x)=4.16。6.使用粒子群算法求解函數(shù)f(x,y)=x2+y2在[-5,5]區(qū)間內(nèi)的最小值,種群大小為10,慣性權(quán)重w=0.7,個(gè)體學(xué)習(xí)因子c1=1.5,社會(huì)學(xué)習(xí)因子c2=2,最大迭代次數(shù)為100。答:以下是求解過(guò)程:Step1:初始化種群,隨機(jī)生成10個(gè)個(gè)體,每個(gè)個(gè)體的解用一個(gè)二元組(x,y)表示,x和y的取值在[-5,5]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度f(wàn)(x,y),這里個(gè)體適應(yīng)度等于函數(shù)值。Step2:初始化粒子速度和歷史最優(yōu)解,每個(gè)粒子的速度用一個(gè)二元組(vx,vy)表示,vx和vy的取值在[-1,1]區(qū)間內(nèi)均勻隨機(jī)初始化。每個(gè)粒子記下自己找到的歷史最優(yōu)解(px,py)和相應(yīng)的適應(yīng)度f(wàn)(px,py)。Step3:更新粒子速度和位置。按照粒子速度的慣性、個(gè)體學(xué)習(xí)和社會(huì)學(xué)習(xí)因子,計(jì)算每個(gè)粒子的新速度和新位置,公式如下:vxi=w×vxi+c1×rand()×(pxi-xi)+c2×rand()×(pxi-xi)vyi=w×vyi+c1×rand()×(pyi-yi)+c2×rand()×(pyi-yi)xi=xi+vxiyi=yi+vyi其中,xi和yi表示更新后的位置,vxi和vyi表示更新后的速度,pxi和pyi表示第i只粒子找到的歷史最優(yōu)解,pxi和pyi表示全局最優(yōu)解,rand()表示均勻隨機(jī)數(shù)生成函數(shù)。Step4:更新歷史最優(yōu)解,對(duì)于每個(gè)粒子,如果當(dāng)前適應(yīng)度值比歷史最優(yōu)適應(yīng)度值更優(yōu),則更新歷史最優(yōu)適應(yīng)度值和歷史最優(yōu)解。Step5:更新全局最優(yōu)解,對(duì)于每個(gè)粒子,如果當(dāng)前適應(yīng)度值比全局最優(yōu)適應(yīng)度值更優(yōu),則更新全局最優(yōu)適應(yīng)度值和全局最優(yōu)解。Step6:更新迭代計(jì)數(shù)器i,判斷是否達(dá)到最大迭代次數(shù)或滿(mǎn)足終止條件,如果滿(mǎn)足則返回解,否則返回Step3。Step7:返回最優(yōu)解,即函數(shù)f(x,y)在[-5,5]區(qū)間內(nèi)的最小值(x=0,y=0),函數(shù)值為f(x,y)=0。7.使用遺傳算法求解背包問(wèn)題,有5個(gè)物品,重量分別為2、3、4、5、6,價(jià)值分別為3、4、5、6、7,背包的最大承重為10。求出背包能裝下的最大總價(jià)值以及裝入的物品。答:以下是求解過(guò)程:Step1:初始化種群,隨機(jī)生成10個(gè)個(gè)體,每個(gè)個(gè)體的編碼為一個(gè)二進(jìn)制串,長(zhǎng)度與物品數(shù)量相同,每個(gè)位置上的基因取值為0或1,表示是否裝入該物品。計(jì)算每個(gè)個(gè)體的適應(yīng)度,適應(yīng)度為背包中裝入的物品總價(jià)值。Step2:選擇操作,采用輪盤(pán)賭選擇方法,根據(jù)每個(gè)個(gè)體的適應(yīng)度大小,選擇父代個(gè)體進(jìn)行交叉和變異操作。Step3:交叉操作,選擇兩個(gè)父代個(gè)體,按照交叉概率進(jìn)行交叉操作。這里選擇單點(diǎn)交叉方法,隨機(jī)選擇一個(gè)交叉點(diǎn)k,將兩個(gè)父代個(gè)體的基因串在該交叉點(diǎn)前后互換。Step4:變異操作,按照變異概率進(jìn)行變異操作。在每個(gè)子代個(gè)體中,按照變異概率選擇變異位點(diǎn),將該位點(diǎn)上的基因取反。Step5:更新迭代計(jì)數(shù)器i,判斷是否達(dá)到最大迭代次數(shù)或滿(mǎn)足終止條件,如果滿(mǎn)足則終止,否則返回Step2。Step6:返回最優(yōu)解,即背包能裝下的最大總價(jià)值為16,裝入的物品為第1、2、4、5個(gè)物品。8.使用人工免疫算法求解函數(shù)f(x)=-x2+3x+4在[-2,3]區(qū)間內(nèi)的最大值,種群大小為10,克隆選擇參數(shù)為m=4,突變概率為0.1。答:以下是求解過(guò)程:Step1:初始化種群,隨機(jī)生成10個(gè)個(gè)體,每個(gè)個(gè)體的解為一維實(shí)數(shù)值,取值在[-2,3]區(qū)間內(nèi)均勻隨機(jī)生成。計(jì)算每個(gè)個(gè)體的適應(yīng)度,適應(yīng)度為函數(shù)值。Step2:選擇操作,采用輪盤(pán)賭選擇方法,根據(jù)每個(gè)個(gè)體的適應(yīng)度大小,選擇父代個(gè)體進(jìn)行免疫克隆操作。Step3:免疫克隆操作,按照克隆選擇參數(shù)m,選擇適應(yīng)度最高的m個(gè)個(gè)體進(jìn)行克隆操作。每個(gè)被選擇的個(gè)體復(fù)制出β個(gè)子代個(gè)體,β的取值在[1,m]區(qū)間內(nèi)均勻隨機(jī)生成。Step4:突變操作,按照突變概率進(jìn)行突變操作。在每個(gè)子代個(gè)體中,按照突變概率選擇突變位點(diǎn),以一定的變異幅度Δx進(jìn)行突變,例如將種群中的個(gè)體x=2.5變異為x=2.55。Step5:選擇生存?zhèn)€體,使用競(jìng)爭(zhēng)選擇法,保留種群中適應(yīng)度最高的n個(gè)個(gè)體,這里n=10。Step6:更新迭代計(jì)數(shù)器i,判斷是否達(dá)到最大迭代次數(shù)或滿(mǎn)足終止條件,如果滿(mǎn)足則返回解,否則返回Step2。Step7:返回最優(yōu)解,即函數(shù)f(x)在[-2,3]區(qū)間內(nèi)的最大值為5,最大值點(diǎn)在x=1。

第8章課后習(xí)題及答案1.SVM算法的性能與什么因素有關(guān)?答:核函數(shù)的選擇;核函數(shù)的參數(shù);軟間隔參數(shù)C2.對(duì)于在原空間中線(xiàn)性不可分問(wèn)題,支持向量機(jī)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論