DeepSeek賦能數(shù)據(jù)分析_第1頁
DeepSeek賦能數(shù)據(jù)分析_第2頁
DeepSeek賦能數(shù)據(jù)分析_第3頁
DeepSeek賦能數(shù)據(jù)分析_第4頁
DeepSeek賦能數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

DeepSeek賦能數(shù)據(jù)分析武艷軍日期:2025年3月20日

目錄STNEMOC2DeepSeek本地部署3使用DeepSeek+提示詞

進行數(shù)據(jù)處理使用DeepSeek+Excel

進行數(shù)據(jù)處理1DeepSeek大模型初步4DeepSeek大模型初步01大語言模型(Large

Language

Mode

,

LLM),也稱預訓練模型(Pre-Trained

Model,

PTM),是一種人工智能模型,旨在理解和生成人類語言。它們在大量的文本數(shù)據(jù)上進行訓練,擁有幾十億的參數(shù),可執(zhí)行廣泛的任務,包括文本總結(jié)、翻譯、情感分析大語言模型LLM引發(fā)AI新熱潮等等。生成模型推理模型智能體?

OpenAI

GPT4o?

DeepSeek

R1?

自動駕駛機器人?

DeepSeek

V3?

OpenAIo1(當前L3)?

BERT?

OpenAIo3-mini?具身智能機器人?Gemini?

Gemini2.0?

Manus?Qwen2.5?

Grok3?

Kimi

1.5?

MetaGPTChatbot?

自然語言對話Reasoner?

基本的推理和問題解決能力Agent?代表用戶執(zhí)行基本任務,具備自主行動能力Sam

Altman

:AGI發(fā)展的五個階段當前處于推理者階段,正在向智能體階段發(fā)展DeepSeek

R1推理模型開辟了中國低成本開源路徑,

引爆市場通用人工智能AGI技術(shù)發(fā)展趨勢Innovator?參與發(fā)明和創(chuàng)造,

增強人類的創(chuàng)造力和創(chuàng)新能力功能,獨立管理

并執(zhí)行復雜的操作Organization?承擔整個組織的DeepSeek

,全稱杭州深度求索人工某著名企業(yè)。

DeepSeek是一家

創(chuàng)新型科技公司,成立于2023年7月17日,

使用數(shù)據(jù)蒸餾技術(shù),得到更為精煉、有用

的數(shù)據(jù)。由知名私募巨頭幻方量化孕育而生,

專注于開發(fā)先進的大語言模型(LLM)和相關(guān)技術(shù)。DeepSeek公司

?,男,

1985年出生,

廣東省湛江市覃巴鎮(zhèn)米歷

嶺村人,浙江大學畢業(yè),擁有信息與電子工程學系學士和碩

士學位某著名企業(yè)、

DeepSeek創(chuàng)始人。?

2008年起,

開始帶領(lǐng)團隊使用機器學習等技術(shù)探索全

自動量化交易,

在七年當中資金規(guī)模從8萬元增長到5億元。?2015年,

幻方量化正式成立。2016年,

幻方量化推出第一個AI模型,實現(xiàn)了所有量化策略的AI化轉(zhuǎn)型。2019年,其資金管理規(guī)模突破百億元。2020年開始,幻方的AI超級計算機“螢火一號”正式投入運作。2021年,

幻方投入十億建設(shè)“螢火二號”,

搭載了一萬達A100顯卡,

資產(chǎn)管理規(guī)模突破1000億元。?2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式進軍通用人工智能領(lǐng)域。2024年5月,DeepSeek發(fā)布了DeepSeek-V2;

同年12月27日,

DeepSeek-V3面世。

這款性能優(yōu)越且性價比極高的大語

言模型,被硅谷同行譽為“來自東方的神秘力量”。?2025年1月20日,

DeepSeek正式發(fā)布DeepSeek-R1模型;

同日,參加了總理座談會。2月17日,參加了總書記主持的民營企業(yè)家座談會。憑借約1260億美元(約合人民幣9000億元)

的個人

財富估值問鼎中國首富。DeepSeek:來自東方的神秘力量正式發(fā)布DeepSeek

R1模型,在大模型排名Arena中列第三名DeepSeek大模型發(fā)展歷程宣布開源第二代

MOE大模型DeepSeekV2推理模型DeepSeek

R1-

Lite預覽版上線發(fā)布首個大模型DeepSeek

LLMDeepSeekV3發(fā)布,并同步

開源模型權(quán)重DeepSeek開

源GEMM等核

心代碼推出DeepSeek

V2.5DeepSeek成

立2024年11月2024年12月2024年5月2023年7月2025年1月2024年9月2024年1月2025年2月DeepSeek7天實現(xiàn)1億用戶,成為增長最快的超級產(chǎn)品

DeepSeek通過核心能力突破+開源、低成本、國產(chǎn)化三大優(yōu)勢,

推動AI技術(shù)平權(quán)和國產(chǎn)AI生態(tài)繁榮,成功

進入全球大模型第一梯隊,

促使行業(yè)從唯規(guī)模論向性價比、高效能、工程化方向轉(zhuǎn)變。核心能力突破DeepSeek大模型核心技術(shù)突破,實現(xiàn)復雜推理任務的精準處理與高效執(zhí)行,覆蓋多模態(tài)場景應用。模型綜合性能躍居世界第一梯隊,技術(shù)指標與頂尖大模型相比不相上下。?DeepSeekV3可以對標GPT-4o,但訓練成本只有558萬美元,不到后者的二十分之一。?DeepSeek

R1在數(shù)據(jù)、代碼和推理任務上課對標

OpenAIo1。將國產(chǎn)模型與美國的代際差距從3-5年縮短至3-5個月,突破卡脖子技術(shù)瓶頸,

全面支持國內(nèi)產(chǎn)業(yè)智能化升級。相比于OpenAI的閉源策略,DeepSeek全量開源訓練代碼、數(shù)據(jù)清洗工具及微調(diào)框架,開發(fā)者可以快速構(gòu)建教育、金融、醫(yī)療等垂直領(lǐng)域應用,推動協(xié)同創(chuàng)新。開展大量模型架構(gòu)優(yōu)化和系統(tǒng)工程優(yōu)化,訓練成本顯著低于行業(yè)同類模型,打破高價壁壘;推理成本降低83%,API定價為行業(yè)平均價格的1/10,千億參數(shù)模型適配中小企業(yè)需求,加速商業(yè)化落地。DeepSeek大火的原因:核心能力突破、開源、超低成本、國產(chǎn)化

開源超低成本國產(chǎn)化DeepSeek使用方式02直接使用?

電腦端訪問官網(wǎng)(

ek)或第三方百度搜索、騰訊元寶等?

手機端下載DeepSeek

AppAPI調(diào)用API調(diào)用:

DeepSeek、硅基流動、阿里百煉、火山引擎等。獲取API秘鑰調(diào)用,適合開發(fā)者集成。本地部署個人部署:個人在本地設(shè)備運行應用,依賴自身資源。企業(yè)部署:企業(yè)內(nèi)網(wǎng)搭建私有化系統(tǒng),支持多用戶協(xié)作,

數(shù)據(jù)更加安全。一體機:直接購買部署了DeepSeek模型的具備一定算力的一體機。推理模型基座模型特點DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-Math-1.5B蒸餾模型,能力稍弱實際上是增加了推理能力的Qwen模型和

Llama模型DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7BDeepSeek-R1-Distill-Llama-8BLlama-3.1-8BDeepSeek-R1-Distill-Qwen-14BQwen2.5-14BDeepSeek-R1-Distill-Qwen-32BQwen2.5-32BDeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-IntructDeepSeek-R1-671BDeepSeek-V3-Base滿血版,能力最強大模型私有化部署方式:?Ollama部署:個人本地部署,方便快速,適用于蒸餾模型?vLLM部署:生產(chǎn)、開發(fā)、垂直領(lǐng)域私有化部署,精度可控,

更專業(yè)

?

其他模型簡稱CPU要求內(nèi)存要求GPU要求硬盤空間適用場景1.5B4核(Intel/AMD)8GB無(純CPU)或

2GB(GPU加速)3GB+舊筆記本電腦,簡單文本生成7B4核(多線程支持)16GB4GB8GB+本地開發(fā)測試,輕量級NLP任務8B6核16GB6GB8GB+代碼生成,邏輯推理14B8核32GB8GB15GB+企業(yè)級文本分析,長文本生成32B12核48GB16GB19GB+復雜場景對話,深度思考任務70B16核(服務器級)64GB24GB(多卡)70GB+創(chuàng)意寫作、算法設(shè)計671B32核(服務器集群)128GB80GB(4張A100)300GB+科研級任務,AGI探索最低配置指模型可以運行,但流暢度稍差。模型簡稱CPU要求內(nèi)存要求GPU要求硬盤空間適用場景1.5B6核(現(xiàn)代多核)16GB4GB(如GTX1650)5GB+實時聊天機器人、物聯(lián)網(wǎng)設(shè)備7B8核(現(xiàn)代多核)32GB8GB(如RTX3070)10GB+文本摘要、多輪對話系統(tǒng)8B10核(多線程)32GB10GB12GB+高精度輕量級任務14B12核64GB16GB(如RTX4090)20GB+合同分析、論文輔助寫作32B16核(如i9/Ryzen

9)128GB24GB(如RTX4090)30GB+法律/醫(yī)療咨詢、多模態(tài)預處理70B32核(服務器級)256GB40GB(如2張A100)100GB+金融預測、大規(guī)模數(shù)據(jù)分析671B64核(服務器集群)512GB160GB(8張A100)500GB+國家級AI研究、氣候建模推薦配置指模型可以流暢運行。1.入門級:直接使用方式對于個人來說最為方便,需要聯(lián)網(wǎng)。2.進階級:個人可以在本地部署小規(guī)模蒸餾模型,比如1.5B、

7B,建議使用Ollama來部署。3.進階級:個人可以在部分工具(比如Excel)中調(diào)用API。使用DeepSeek+提示詞進行數(shù)據(jù)處理03任務目標背景M2M3負面限定給誰用擔心的問題做什么期望效果DeepSeek提示詞技巧:通用公式內(nèi)心戲很多M1M4我要做XXX,要給XXX用,希望達到XXX效果,但擔心XXX問題例如:我要做一個山東三日游攻略,

給大學生用,

希望行程充實有趣,但擔心預算不夠影響體驗。DeepSeek提示詞技巧:通用公式深度思考正式

答?

DeepSeek提供強大的

數(shù)據(jù)診斷功能,幫助用

戶識別缺失值、異常值

和重復數(shù)據(jù)等問題,提

供數(shù)據(jù)質(zhì)量報告。?

DeepSeek可以開展標

準化、歸一化處理,

動填充缺失值和標注關(guān)

鍵變量影響因子。?

DeepSeek提供了豐富的統(tǒng)計分析功能,包括描述性統(tǒng)計、回歸分析、聚類分析等。用戶只需輸入相關(guān)數(shù)據(jù),DeepSeek即可自動進行分析,并生成詳細的統(tǒng)計報告?

DeepSeek可以幫助用

戶快速收集和處理大量

數(shù)據(jù),生成數(shù)據(jù)提取腳

本,支持從各種來源導

入數(shù)據(jù),包括Excel文件等?用戶可以將DeepSeek的分析結(jié)果與PowerBI等工具結(jié)合,進行數(shù)

據(jù)可視化,從而更直觀

地展示分析結(jié)果?

自動生成專業(yè)的分析報

告。報告中包含數(shù)據(jù)概

覽、分析結(jié)果、可視化

圖表等05數(shù)據(jù)

可視化03數(shù)據(jù)

預處理DeepSeek賦能數(shù)據(jù)分析過程數(shù)據(jù)

分析數(shù)據(jù)

收集報告

撰寫問題定義02040106嵌入DS模型提示詞工程DataAgentChatBIDeepSeek賦能數(shù)據(jù)分析的四種方式Excel、PowerBI核心痛點:用戶行為日志中30%字段缺失,且存在異常值,例如:異常時間戳(如:2999-01-01)。傳統(tǒng)方式:手動寫Python逐行排查,耗時。DeepSeek操作步驟一:輸入提示詞。#

DeepSeek生成代碼df['user_id'].fillna(method='ffill',

inplace=True)df['device_type'].fillna('未知',

inplace=True)df

=df[df['timestamp']

<=

pd.Timestamp.now()]df['price']

=df['price'].str.replace('$',

'').astype(float)請修復以下數(shù)據(jù)的質(zhì)量問題:1.缺失值:用前向填充補全user_id,device_type用“未知”填充2.異常值:刪除timestamp超過當前時間的數(shù)據(jù)行3.格式統(tǒng)一:將price從字符串“$12.5”轉(zhuǎn)為數(shù)值“12.5”場景1:數(shù)據(jù)清洗

核心價值:清洗耗時從3小時→

1分鐘,準確率100%。步驟二:生成代碼。案例說明:某電商Q2銷售額環(huán)比下降15%,業(yè)務方歸咎「流量不足」。DeepSeek操作步驟一:上傳數(shù)據(jù)集。包含流量、轉(zhuǎn)化率、客單價等指標。步驟二:提出問題?!罢埛治鯣MV下降的核心因素,并量化貢獻度”。步驟三:輸出結(jié)果。根本原因:轉(zhuǎn)化率從2.8%下降到1.9%(貢獻下降70%)細分洞察:-

搜索頁->詳情頁流失率上升25%(頁面加載時長增加3秒)-

加購->支付失敗率上升18%(因優(yōu)惠券校驗接口超時)核心價值:避免被錯誤歸因,節(jié)省1-2天手動拆解時間。DeepSeek提問錯誤示范:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論