




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
11本地部署并運(yùn)行DeepSeek 21.1為什么要在本地部署DeepSeek 21.2DeepSeek本地部署三個步驟 21.3DeepSeek本地運(yùn)行使用演示 42DeepSeek零基礎(chǔ)必知 52.1LLM基礎(chǔ)概念 52.2Transformer基礎(chǔ)架構(gòu) 62.3LLM基本訓(xùn)練方法 72.3.1預(yù)訓(xùn)練(Pretraining) 72.3.2監(jiān)督微調(diào)(SupervisedFine-Tuning,SFT) 72.3.3強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL) 73DeepSeek-R1精華圖解 73.1DeepSeek-R1完整訓(xùn)練過程 7 8 83.2含R1-Zero的中間推理模型訓(xùn)練過程 93.3通用強(qiáng)化學(xué)習(xí)訓(xùn)練過程 3.4總結(jié)DeepSeek-R1 111本地部署并運(yùn)行DeepSeek1.1為什么要在本地部署DeepSeek1.保護(hù)隱私與數(shù)據(jù)安全。數(shù)據(jù)不外傳:本地運(yùn)行模型可以完全避免數(shù)據(jù)上2.可定制化與優(yōu)化。支持微調(diào)(Fine-tuning可以根據(jù)特定業(yè)務(wù)需求對模3.離線運(yùn)行,適用于無網(wǎng)絡(luò)環(huán)境??稍陔x線環(huán)境下運(yùn)行:適用于無互聯(lián)網(wǎng)本教程搭建本教程搭建DeepSeek好處?本教程接入的是DeepSeek推理模型R1,開源免費(fèi),性能強(qiáng)勁?本教程搭建方法零成本,不需花一分錢。?為了照顧到大部分讀者,推薦的搭建方法已將電腦配置要求降1.2DeepSeek本地部署三個步驟第一步,使用的是ollama管理各種不同大模型,ollama比較直接、干凈,不知道去哪里下載的,可以直接在我的公眾號后臺回復(fù):教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的安裝后,打開命令窗口,輸入ollama,然后就能看到它的相關(guān)指令,一共教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的至此在我們本地電腦,DeepSeek大模型就下載到我們本地電腦,接下來第三步就可以直接使用和它對話了。在cmd(Windows電腦)或terminal(蘋果電腦)執(zhí)行命令:ollamarundeepseek-r1:1.5b,很快就能進(jìn)入對話界面,如圖4:Ollama軟件啟動deepseek-r1界面1.3DeepSeek本地運(yùn)行使用演示基于上面步驟搭建完成后,接下來提問DeepSeek一個問題:請幫我分析Python編程如何從零開始學(xué)習(xí)?,下面是它的回答,首先會有一個think教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的2DeepSeek零基礎(chǔ)必知近年來,人工智能(AI)技術(shù)的快速發(fā)展催生了大型語言模型LargeLanguageModel,LLM的興起。LLM在自然語言處理(NLP)領(lǐng)域器翻譯等任務(wù)。LLM是一種基于深度學(xué)習(xí)的人工智能模型,其核心目標(biāo)是2.1LLM基礎(chǔ)概念模型參數(shù)。其中比較重要的比如deepsee教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的Group)訓(xùn)練的模型在本質(zhì)上存在一些重要區(qū)別。主要區(qū)別之一,大模型更和任務(wù)的數(shù)據(jù)。這種廣泛的學(xué)習(xí)使得大模型具備了較強(qiáng)的知識遷移能力和我們基于單一數(shù)據(jù)集訓(xùn)練的模型通常具有較強(qiáng)的針對性,但其知識范圍僅ScalingLaws大家可能在很多場合都見到過。它是一個什么法則呢?大模型之所以能基于大量多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練,并最終“學(xué)得好”,核心原因之一是ScalingLaws(擴(kuò)展規(guī)律)的指導(dǎo)和模型自身架構(gòu)的優(yōu)勢。取出通用的知識。而Transformer這種架構(gòu)正好完美做到了ScalingLaws,Transformer就是自然語言處理領(lǐng)域?qū)崿F(xiàn)擴(kuò)展規(guī)律的最好的網(wǎng)絡(luò)結(jié)構(gòu)。2.2Transformer基礎(chǔ)架構(gòu)LLM依賴于2017年Google提出的Transformer模型,該架構(gòu)相比傳統(tǒng)的RNN(遞歸神經(jīng)網(wǎng)絡(luò))和LSTM(長短時記憶網(wǎng)絡(luò))具有更高的訓(xùn)練效率和力機(jī)制(Self-Attention模型在處理文本時,會自動關(guān)注句子中的重要單詞,理解不同詞語間的聯(lián)系。2.多頭注意力(Multi-HeadAttention使用多個注意力頭同時分析不同的語義信息,使得模型的理解能力更強(qiáng)。3.前饋神經(jīng)網(wǎng)絡(luò)(FFN非線性變換模塊,提升模型的表達(dá)能力。4.位置編碼(PositionalEncoding在沒有循環(huán)結(jié)構(gòu)的情況下,幫助模型理解單詞的順序信息。TransformerTransformer結(jié)構(gòu)的優(yōu)勢教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的2.3LLM基本訓(xùn)練方法2.3.1預(yù)訓(xùn)練(Pretraining)LLM訓(xùn)練通常采用大規(guī)模無監(jiān)督學(xué)習(xí),即:1.從互聯(lián)網(wǎng)上收集大2.3.2監(jiān)督微調(diào)(SupervisedFine-Tuning,SFT)在預(yù)訓(xùn)練之后,通常需要對模型進(jìn)行監(jiān)督微調(diào)(SFT使用人工標(biāo)注的數(shù)2.3.3強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL)采用強(qiáng)化學(xué)習(xí)(RL)方法進(jìn)行優(yōu)化,主要通過人類反饋強(qiáng)化學(xué)習(xí)(RLHF,ReinforcementLearningfromHumanFeedback強(qiáng)化學(xué)習(xí)(強(qiáng)化學(xué)習(xí)(RLHF)優(yōu)化過程3DeepSeek-R1精華圖解3.1DeepSeek-R1完整訓(xùn)練過程DeepSeek-R1主要亮點(diǎn)在于出色的數(shù)學(xué)和邏輯推理能力,區(qū)別于一般的通用AI模型。其訓(xùn)練方式結(jié)合了強(qiáng)化學(xué)習(xí)(RL)與監(jiān)督微調(diào)(SFT創(chuàng)造整個訓(xùn)練過程分為核心兩階段,第一步訓(xùn)練基于DeepSeek-V3論文中的基教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的訓(xùn)練起點(diǎn)。DeepSeek-R1的訓(xùn)練起點(diǎn)是DeepSeek-v3-Base,作為基礎(chǔ)模型3.1.1核心創(chuàng)新1:含R1-Zero的中間推理模型如圖7所示,推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(Reasoning-OrientedReinforcementLearn-ing)得到中間推理模型(Iterimreasoningmodel),圖8會詳細(xì)解釋中間模DeepSeek-R1核心貢獻(xiàn):首次驗(yàn)證了通過純強(qiáng)化學(xué)習(xí)也能大幅提升大模型推理能力,開源純強(qiáng)化學(xué)習(xí)推理模型DeepSeek-R1-Zero3.1.2核心創(chuàng)新2:通用強(qiáng)化學(xué)習(xí)第一階段R1-Zero雖然展現(xiàn)出驚人的推理能力提升,但是也出現(xiàn)了回復(fù)時語言混合,非推理任務(wù)回復(fù)效果差的問題,為了解決這些問題,DeepSeek如圖7所示,通用強(qiáng)化學(xué)習(xí)(GeneralReinforcementLearning)基于SFT-checkpoint,模型進(jìn)行通用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,優(yōu)化其在推理任務(wù)和其他教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的3.2含R1-Zero的中間推理模型訓(xùn)練過程中間模型占據(jù)主要訓(xùn)練精力的階段,實(shí)際上完全通過推理導(dǎo)向的強(qiáng)化學(xué)習(xí)直接訓(xùn)練而成,完全跳過了監(jiān)督微調(diào)(SFT如下圖8所示,只在強(qiáng)化學(xué)習(xí)的冷啟動階段使用了SFT。圖8:Interimreasoningmodel訓(xùn)練方法大規(guī)模推理導(dǎo)向的強(qiáng)化學(xué)習(xí)訓(xùn)練,必不可少的就是推理數(shù)據(jù),手動標(biāo)注就太繁瑣了,成本昂貴,所以DeepSeek團(tuán)隊為了解決這個問題,訓(xùn)了一個R1-Zero完全跳過SFT(監(jiān)督微調(diào))階段,直接使用強(qiáng)化學(xué)習(xí)訓(xùn)練,如下這樣做竟然達(dá)到了驚人的、意想不到的效果,推理超越OpenAIO1,如下致性結(jié)果(cons@16)的準(zhǔn)確率,可以看出線代表OpenAIO1的基準(zhǔn)表現(xiàn),圖中可以看到DeepSeek-R1-Zero的性能教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的逐步接近甚至超越了OpenAIO1.3.3通用強(qiáng)化學(xué)習(xí)訓(xùn)練過程最終偏好調(diào)整(PreferenceTuning如下圖11所示。通用強(qiáng)化學(xué)習(xí)訓(xùn)練過色。但由于其能力拓展至非推理類應(yīng)用,因此在這些應(yīng)用中引入了幫助性(helpfulness)和安全性(safety)獎勵模型(類似于Llama模型以優(yōu)化與這些應(yīng)用相關(guān)的提示處理能力。DeepSeek-R1是訓(xùn)練流程的終點(diǎn),結(jié)合了R1-Zero的推理能力和通用強(qiáng)化教程作者:郭震,工作8年目前美國AI博士在讀,公眾號:郭震AI,歡迎關(guān)注獲取更多原創(chuàng)教程。資料用心打磨且開源,是為了幫助更多人了解獲取AI知識,嚴(yán)禁拿此資料引流、出書、等形式的3.4總結(jié)DeepSeek-R1中間推理模型生成:通過推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(Reasoning-OrientedRL),通用性強(qiáng)的模型。最終,DeepSeek-R1將R1-Zero的推理能力與通用強(qiáng)化學(xué)習(xí)的適應(yīng)能力相結(jié)合,成為一個兼具強(qiáng)推理能力和任務(wù)廣泛適應(yīng)性的高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2 周末巧安排 教學(xué)設(shè)計-2024-2025學(xué)年道德與法治二年級上冊統(tǒng)編版
- 經(jīng)營權(quán)轉(zhuǎn)讓合同模板
- 合同樣本商業(yè)地產(chǎn)項(xiàng)目投資合作協(xié)議書
- 個人向公司借款合同簡例
- 1-1《子路、曾皙、冉有、公西華侍坐》教學(xué)設(shè)計-2024-2025學(xué)年高一語文下學(xué)期同步教學(xué)設(shè)計(統(tǒng)編版必修下冊)
- Module 3 Unit 9 Great cities of the world(教學(xué)設(shè)計)-2023-2024學(xué)年滬教牛津版(深圳用)英語六年級上冊
- 25《慢性子裁縫和急性子顧客》(教學(xué)設(shè)計)-2023-2024學(xué)年統(tǒng)編版語文三年級下冊
- 豬舍購銷合同范本
- 沉降檢測合同范本
- 毛毛新車網(wǎng)合同范本
- 代工生產(chǎn)合同范本
- 瑜伽課程合同轉(zhuǎn)讓協(xié)議書范本
- 個人經(jīng)營性貸款合同模板
- 課件:《教育強(qiáng)國建設(shè)規(guī)劃綱要(2024-2035年)》學(xué)習(xí)宣講
- 2025年山東化工職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年常考版參考題庫含答案解析
- 2025年全國幼兒園教師資格證考試教育理論知識押題試題庫及答案(共九套)
- 2024年鄭州電力高等??茖W(xué)校高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 產(chǎn)品試產(chǎn)流程
- 舞臺機(jī)械基礎(chǔ)知識培訓(xùn)
- 人教版數(shù)學(xué)八年級下冊 第16章 二次根式 單元測試(含答案)
- 中學(xué)班主任培訓(xùn)內(nèi)容
評論
0/150
提交評論