




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
電影推薦需求業(yè)務(wù)背景人工智能應(yīng)用素養(yǎng)MinimalistwindAI在1987年,中國接入世界互聯(lián)網(wǎng)。至今已35年,期間我國的網(wǎng)民規(guī)模與互聯(lián)網(wǎng)普及率從無到有,從小到大。同時(shí),像互聯(lián)網(wǎng)產(chǎn)品:微信、淘寶、愛奇藝等等,現(xiàn)在已經(jīng)滲透到我們生活的方方面面。電影推薦需求業(yè)務(wù)背景在不計(jì)其數(shù)的電影數(shù)據(jù)中,查找人們喜愛的影片,難度不斷增加。MinimalistwindAI我國網(wǎng)民數(shù)不斷增多,互聯(lián)網(wǎng)普及率逐年攀升電影推薦需求業(yè)務(wù)背景圖歷年網(wǎng)絡(luò)規(guī)模與互聯(lián)網(wǎng)普及率MinimalistwindAI網(wǎng)絡(luò)視頻用戶規(guī)模不斷增加,用戶使用率名列前茅電影推薦需求業(yè)務(wù)背景圖近年網(wǎng)絡(luò)視頻用戶規(guī)模圖2021年互聯(lián)網(wǎng)應(yīng)用的使用率MinimalistwindAI電影行業(yè)發(fā)展前景良好電影推薦需求業(yè)務(wù)背景圖電影網(wǎng)單日電影票房感謝您的觀看!以上是
本節(jié)全部內(nèi)容電影推薦案例實(shí)現(xiàn)總體框架流程人工智能應(yīng)用素養(yǎng)01目錄CONTENTS實(shí)現(xiàn)流程02實(shí)現(xiàn)準(zhǔn)備實(shí)現(xiàn)流程實(shí)現(xiàn)流程1PartMinimalistwindAI如果要簡單實(shí)現(xiàn)電影推薦,需要哪些步驟呢?實(shí)現(xiàn)流程圖電影推薦流程圖需要注意的是,本案例與各個(gè)網(wǎng)址使用的推薦系統(tǒng)之間有一定的差距,本案例的目的在于帶領(lǐng)大家領(lǐng)略推薦系統(tǒng)的魅力。實(shí)現(xiàn)準(zhǔn)備2PartMinimalistwindAIPython是一個(gè)面向?qū)ο蟮哪_本語言,具有解釋性、編譯性、互動(dòng)性及很強(qiáng)的可讀性,受到了廣大開發(fā)者的青睞。實(shí)現(xiàn)準(zhǔn)備圖IEEESpectrum統(tǒng)計(jì)的編程語言排行榜1.開發(fā)語言IEEESpectrum雜志統(tǒng)計(jì)的2021年編程語言排行榜。其中,Python排名第一。MinimalistwindAI實(shí)現(xiàn)準(zhǔn)備2.開發(fā)環(huán)境JupyterNotebook是一個(gè)強(qiáng)大的網(wǎng)頁P(yáng)ython編輯器。在啟動(dòng)后,提供一個(gè)Python運(yùn)行環(huán)境,開發(fā)者可以在其中進(jìn)行代碼的編寫、查看、輸出和可視化。它是一款可執(zhí)行端到端的數(shù)據(jù)科學(xué)工作流程的便攜工具,其中包括數(shù)據(jù)清理、統(tǒng)計(jì)建模、構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型、可視化數(shù)據(jù)等。感謝您的觀看!以上是
本節(jié)全部內(nèi)容案例數(shù)據(jù)準(zhǔn)備人工智能應(yīng)用素養(yǎng)01目錄CONTENTS案例數(shù)據(jù)集介紹及常見預(yù)處理02推薦系統(tǒng)所用庫03數(shù)據(jù)加載04數(shù)據(jù)劃分案例數(shù)據(jù)集介紹及常見預(yù)處理1PartMinimalistwindAIMovieLens是一個(gè)基于Web的研究型推薦系統(tǒng),從1997年秋季開始運(yùn)行,用于接收用戶對(duì)電影項(xiàng)目的評(píng)分,并提供相應(yīng)的電影推薦列表。MovieLens數(shù)據(jù)集通過MovieLens網(wǎng)站,從1997年9月19日到1998年4月22日,共匯總了來自943個(gè)用戶對(duì)1682部電影的100000個(gè)評(píng)分。案例數(shù)據(jù)集介紹及常見預(yù)處理1.MovieLens數(shù)據(jù)集介紹MinimalistwindAI本案例主要使用其中的ml-100k數(shù)據(jù)集。主要用到三個(gè)部分:u.data(評(píng)分)u.item(電影信息)u.user(用戶信息)案例數(shù)據(jù)集介紹及常見預(yù)處理1.MovieLens數(shù)據(jù)集介紹圖MovieLens數(shù)據(jù)集文件目錄情況MinimalistwindAI由于案例使用的數(shù)據(jù)集是經(jīng)過預(yù)處理過的,我們可以直接拿來使用,但事實(shí)上,我們一般拿到的數(shù)據(jù)都是原始數(shù)據(jù),可能會(huì)遇到異常數(shù)據(jù)、缺失值、噪聲值等一些情況,這時(shí)候就需要對(duì)這些數(shù)據(jù)進(jìn)行處理,否則就會(huì)降低后期訓(xùn)練模型的精度。案例數(shù)據(jù)集介紹及常見預(yù)處理2.數(shù)據(jù)完整性不足及一般應(yīng)對(duì)方法MinimalistwindAI常見的缺失值處理方法包括(但不局限于):案例數(shù)據(jù)集介紹及常見預(yù)處理2.數(shù)據(jù)完整性不足及一般應(yīng)對(duì)方法忽略數(shù)據(jù)人工填寫缺失值使用全局固定值填充使用屬性的中心度量(如均值、中位數(shù))進(jìn)行填充使用與給定元組屬于同一類的所有樣本的屬性均值或中位數(shù)填充使用回歸、決策樹等工具進(jìn)行推理推薦系統(tǒng)所用庫2PartMinimalistwindAISurprise(SimplePythonRecommendationSystemEngine)是一款推薦系統(tǒng)庫,是scikit系列中的一個(gè)。簡單易用,同時(shí)支持多種推薦算法(基礎(chǔ)算法、協(xié)同過濾、矩陣分解等)。推薦系統(tǒng)所用庫推薦系統(tǒng)所用庫Surprise庫如何安裝?一般情況可以直接用:建議使用Anaconda的方式安裝:數(shù)據(jù)加載3PartMinimalistwindAI數(shù)據(jù)加載,由Reader和Dataset兩個(gè)類來提供功能,具體的思路是由Reader提供讀取數(shù)據(jù)的格式,然后Dataset按照Reader的設(shè)置來完成對(duì)數(shù)據(jù)的載入。數(shù)據(jù)加載Reader類和Dataset類數(shù)據(jù)加載代碼實(shí)現(xiàn)代碼解析:01行:從Surprise庫中導(dǎo)入Dataset和Reader兩個(gè)包。02行:解析數(shù)據(jù)。其中,line_format:定義每行格式,默認(rèn)空格分割;sep:設(shè)置分隔符。03行:加載數(shù)據(jù)。數(shù)據(jù)劃分Part4數(shù)據(jù)劃分在機(jī)器學(xué)習(xí)中,通常將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集。它們的功能分別為:訓(xùn)練數(shù)據(jù)集(TrainDataset):用來構(gòu)建機(jī)器學(xué)習(xí)模型。驗(yàn)證數(shù)據(jù)集(ValidationDataset):輔助構(gòu)建模型,用于在構(gòu)建過程中評(píng)估模型,為模型提供無偏估計(jì),進(jìn)而調(diào)整模型的超參數(shù)。測試數(shù)據(jù)集(TestDataset):評(píng)估訓(xùn)練完成的最終模型的性能。1.數(shù)據(jù)劃分原理圖三類數(shù)據(jù)集在模型訓(xùn)練和評(píng)估過程中的使用順序數(shù)據(jù)劃分常見數(shù)據(jù)集劃分方法:留出法1.數(shù)據(jù)劃分原理K-折交叉驗(yàn)證法自助法數(shù)據(jù)劃分train_test_split()函數(shù)是交叉驗(yàn)證中常用的函數(shù),其功能是用來隨機(jī)劃分樣本數(shù)據(jù)為訓(xùn)練集和測試集的,當(dāng)然也可以人為的切片劃分。因此我們可以看出,train_test_split()函數(shù)的優(yōu)點(diǎn)就是隨機(jī)客觀的劃分?jǐn)?shù)據(jù),減少人為因素。2.train_test_split()函數(shù)數(shù)據(jù)劃分3.代碼實(shí)現(xiàn)代碼解析:01行:從surprise.model_selection中導(dǎo)入劃分?jǐn)?shù)據(jù)集函數(shù)train_test_split()。02行:劃分訓(xùn)練集和測試集。這里用到了關(guān)鍵函數(shù)train_test_split(),根據(jù)自己的需要進(jìn)行訓(xùn)練集trainset和測試集testset的分割。感謝您的觀看!以上是
本節(jié)全部內(nèi)容訓(xùn)練參數(shù)優(yōu)化人工智能應(yīng)用素養(yǎng)01目錄CONTENTS基礎(chǔ)推薦算法02KNNBaseline模型調(diào)參03案例調(diào)參實(shí)現(xiàn)基礎(chǔ)推薦算法1PartMinimalistwindAI基于近鄰的推薦算法是比較基礎(chǔ)的推薦算法,在學(xué)術(shù)界和工業(yè)界應(yīng)用十分廣泛。這里所說的基于近鄰的推薦算法指的是協(xié)同過濾(CollaborativeFiltering)算法。基于近鄰的協(xié)同過濾推薦算法有兩種,分別為:基于物品的協(xié)同過濾(Item-CF-Based)算法基于用戶的協(xié)同過濾(User-CF-Based)算法基礎(chǔ)推薦算法MinimalistwindAI通過用戶的歷史行為數(shù)據(jù)發(fā)現(xiàn)用戶喜歡的物品,并對(duì)這些偏好進(jìn)行度量和打分,然后根據(jù)不同用戶對(duì)相同物品的評(píng)分或偏好程度來評(píng)測用戶之間的相似性,對(duì)有相同偏好的用戶進(jìn)行物品推薦?;A(chǔ)推薦算法1.UserCF算法的原理先“找到相似同戶”再“找到他們喜歡的物品”
圖基于用戶的協(xié)同過濾推薦的例子MinimalistwindAI通過不同用戶對(duì)物品的評(píng)分來評(píng)測物品之間的相似性,從而基于物品的相似性做推薦。簡而言之,是給用戶推薦他之前喜歡物品的相似物品?;A(chǔ)推薦算法2.ItemCF算法的原理先“找到用戶喜歡的物品”再“找到喜歡物品的相似物品”
圖基于物品的協(xié)同過濾推薦的例子3.對(duì)比分析:UserCF算法和ItemCF算法從適用場景上看基礎(chǔ)推薦算法從推薦系統(tǒng)多樣性上看從用戶特點(diǎn)上看KNNBaseline模型調(diào)參2PartKNNBaseline模型調(diào)參什么是調(diào)參?調(diào)參即超參數(shù)優(yōu)化,是指從超參數(shù)空間中選擇一組合適的超參數(shù),以權(quán)衡好模型的偏差和方差,從而提高模型效果和性能。常用的調(diào)參方法有:人工手動(dòng)調(diào)參網(wǎng)格搜索隨機(jī)搜索貝葉斯調(diào)參KNNBaseline模型調(diào)參網(wǎng)格搜索,搜索的是參數(shù),即在指定的參數(shù)范圍內(nèi),按步長依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器,從所有的參數(shù)中找到在驗(yàn)證集上精度最高的參數(shù),是一個(gè)訓(xùn)練和比較的過程。網(wǎng)格搜索適用于三四個(gè)(或者更少)的超參數(shù)。GridSearchCV調(diào)參案例調(diào)參實(shí)現(xiàn)3PartMinimalistwindAI本案例使用網(wǎng)格搜索法(GridSearchCV)調(diào)參的實(shí)現(xiàn)代碼如下:案例調(diào)參實(shí)現(xiàn)MinimalistwindAI網(wǎng)格搜索運(yùn)行效果:案例調(diào)參實(shí)現(xiàn)輸出結(jié)果:感謝您的觀看!以上是
本節(jié)全部內(nèi)容模型訓(xùn)練人工智能應(yīng)用素養(yǎng)01目錄CONTENTS相似度計(jì)算02模型訓(xùn)練相似度計(jì)算1PartMinimalistwindAI相似度計(jì)算在推薦系統(tǒng)和數(shù)據(jù)挖掘中有著廣泛的應(yīng)用場景。在協(xié)同過濾算法中,可以利用相似度計(jì)算用戶之間或者物品之間的相似度。在利用k-means進(jìn)行聚類時(shí),利用相似度計(jì)算公式計(jì)算個(gè)體到簇類中心的距離,進(jìn)而判斷個(gè)體所屬的類別。利用KNN進(jìn)行分類時(shí),利用相似度計(jì)算個(gè)體與已知類別之間的相似性,從而判斷個(gè)體所屬的類別等?!嗨贫扔?jì)算MinimalistwindAI幾個(gè)常見的相識(shí)度計(jì)算方法
相似度計(jì)算MinimalistwindAI幾個(gè)常見的相識(shí)度計(jì)算方法
相似度計(jì)算模型訓(xùn)練2Part模型訓(xùn)練調(diào)用KNNBaseline模型進(jìn)行訓(xùn)練,代碼為:代碼解析:01行:建立KNNBaseline模型,參數(shù)為網(wǎng)格搜索出的最優(yōu)參數(shù)。02行:對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。感謝您的觀看!以上是
本節(jié)全部內(nèi)容評(píng)估訓(xùn)練模型人工智能應(yīng)用素養(yǎng)01目錄CONTENTS機(jī)器學(xué)習(xí)模型效果常見評(píng)估方法02代碼實(shí)現(xiàn)及解讀機(jī)器學(xué)習(xí)模型效果常見評(píng)估方法1PartMinimalistwindAI在機(jī)器學(xué)習(xí)中,性能指標(biāo)(Metrics)是衡量一個(gè)模型好壞的關(guān)鍵。對(duì)學(xué)習(xí)器的泛化性能進(jìn)行評(píng)估,不僅需要有效可行的試驗(yàn)估計(jì)方法,還需要有衡量模型泛化能力的評(píng)估標(biāo)準(zhǔn),這就是性能度量(performancemeasure)。機(jī)器學(xué)習(xí)模型效果常見評(píng)估方法MinimalistwindAI在使用機(jī)器學(xué)習(xí)算法的過程中,針對(duì)不同的場景需要不同的評(píng)價(jià)指標(biāo),常用的機(jī)器學(xué)習(xí)算法包括分類,回歸,聚類等幾大類型。平均絕對(duì)誤差(MAE)平均絕對(duì)百分誤差(MAPE)均方誤差(MSE)均方根誤差(RMSE)決定系數(shù)R平方(??^2)機(jī)器學(xué)習(xí)模型效果常見評(píng)估方法回歸模型MinimalistwindAI在使用機(jī)器學(xué)習(xí)算法的過程中,針對(duì)不同的場景需要不同的評(píng)價(jià)指標(biāo),常用的機(jī)器學(xué)習(xí)算法包括分類,回歸,聚類等幾大類型。
機(jī)器學(xué)習(xí)模型效果常見評(píng)估方法分類模型類別實(shí)際的類別預(yù)測的類別
1010代碼實(shí)現(xiàn)及解讀2Part代碼實(shí)現(xiàn)及解讀本案例使用了均方根誤差(RMSE)對(duì)電影推薦準(zhǔn)確度進(jìn)行評(píng)估,代碼為:代碼解析:01行:從Surprise庫中調(diào)用accuracy包。02行:使用testset進(jìn)行預(yù)測03行:準(zhǔn)確度評(píng)估。感謝您的觀看!以上是
本節(jié)全部內(nèi)容訓(xùn)練模型使用人工智能應(yīng)用素養(yǎng)1.模型數(shù)據(jù)與業(yè)務(wù)場景數(shù)據(jù)轉(zhuǎn)化訓(xùn)練模型使用由于很多業(yè)務(wù)數(shù)據(jù)不能直接表達(dá)成可訓(xùn)練模型數(shù)據(jù),因此,在對(duì)模型進(jìn)行訓(xùn)練之前,我們需要將電影名與計(jì)算機(jī)可識(shí)別的ID互相轉(zhuǎn)換。電影數(shù)據(jù)與模型數(shù)據(jù)轉(zhuǎn)化代碼為:2.模型訓(xùn)練結(jié)果展示訓(xùn)練模型使用以TwelveMonkeys(1995)這部電影為依據(jù),為用戶推薦出相似的10部電影。實(shí)現(xiàn)代碼如下:2.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國二氧化碳校驗(yàn)器數(shù)據(jù)監(jiān)測研究報(bào)告
- 統(tǒng)編版二年級(jí)語文下冊第七單元達(dá)標(biāo)測試卷(含答案)
- 四升五語文知識(shí)銜接專項(xiàng)訓(xùn)練 專題二·漢字 同步練習(xí)(含答案)人教統(tǒng)編版
- 高叉理論考試試題及答案
- 環(huán)宇技校焊工考試題及答案
- 2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識(shí)強(qiáng)化訓(xùn)練試卷A卷附答案
- 河南單招培訓(xùn)試題及答案
- 2023-2024學(xué)年廣東省廣州市華南師大附屬番禺學(xué)校七年級(jí)(下)月考數(shù)學(xué)試卷(含答案)
- 采購與安裝分包合同(2篇)
- 農(nóng)業(yè)技術(shù)推廣數(shù)字化平臺(tái)建設(shè)方案
- 2025年食品供應(yīng)商合同范本
- 《網(wǎng)絡(luò)信息安全教學(xué)》課件
- 徐州2025年江蘇徐州市口腔醫(yī)院招聘非在編醫(yī)務(wù)人員53人筆試歷年參考題庫附帶答案詳解-1
- 2025年01月2025中國作家協(xié)會(huì)所屬單位公開招聘11人筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 用色彩情感引發(fā)共鳴社交媒體運(yùn)營秘訣
- 2025年江西機(jī)電職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年江蘇旅游職業(yè)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2024年江西司法警官職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
- 2025年上海市租房合同標(biāo)準(zhǔn)樣本(2篇)
- 四年級(jí) 人教版 數(shù)學(xué) 第三單元《乘法運(yùn)算律(四)(例8) -解決問題策略的多樣化》課件
- 2025年全國法制宣傳日普法知識(shí)競賽題庫及答案(共200題)
評(píng)論
0/150
提交評(píng)論