版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)處理必修一:數(shù)據(jù)與計(jì)算(一輪復(fù)習(xí))表格數(shù)據(jù)處理常見數(shù)據(jù)問題及解決方法數(shù)據(jù)缺失:忽略或采用平均值、中間值或概率統(tǒng)計(jì)值填充數(shù)據(jù)重復(fù):進(jìn)一步審核的基礎(chǔ)上進(jìn)行合并或刪除數(shù)據(jù)異常——數(shù)據(jù)不符合一般規(guī)律:這些有可能是要去掉的噪聲,也有可能是含有重要信息的數(shù)據(jù)對(duì)象邏輯錯(cuò)誤——與實(shí)際不符,違背邏輯或規(guī)則:對(duì)應(yīng)的字段需要設(shè)置取值范圍判斷格式不一致:將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一格式后再進(jìn)行處理數(shù)據(jù)計(jì)算數(shù)據(jù)計(jì)算
(1)如圖1所示,區(qū)域G4:G14的數(shù)據(jù)是通過排名函數(shù)RANK計(jì)算得到,在G4中輸入公式___________________________,再利用自動(dòng)填充完成G5:G14的計(jì)算。(2)對(duì)圖1中浙江省各地市數(shù)據(jù)按“十年增幅”為關(guān)鍵字進(jìn)行降序排序,則排序的數(shù)據(jù)區(qū)域是_____________。=RANK(F4,F$4:F$14)A4:G14數(shù)據(jù)計(jì)算數(shù)據(jù)計(jì)算
(3)對(duì)A4:G15中的數(shù)據(jù)進(jìn)行兩次篩選操作,首先對(duì)“十年增量”列進(jìn)行篩選,篩選條件如圖2所示;再對(duì)“城市”列篩選,篩選條件如圖3所示,則篩選出的行數(shù)為_____1數(shù)據(jù)計(jì)算(4)根據(jù)圖1中數(shù)據(jù)制作了反應(yīng)各地區(qū)人口情況的圖表,如圖2所示,創(chuàng)建圖表的數(shù)據(jù)區(qū)域是_______。B4:D14圖表呈現(xiàn)圖表類型適合展現(xiàn)數(shù)據(jù)關(guān)系柱形圖大小關(guān)系折線圖變化趨勢(shì)餅圖數(shù)據(jù)構(gòu)成百分比雷達(dá)圖多項(xiàng)指標(biāo)比較散點(diǎn)圖變量之間的聯(lián)系氣泡圖變量之間的關(guān)系大數(shù)據(jù)處理大數(shù)據(jù)特點(diǎn)與大數(shù)據(jù)思維大數(shù)據(jù)特點(diǎn)(4V):數(shù)據(jù)體量大(Volume)類型多(Variety)速度快(Velocity):①產(chǎn)生速度快②處理速度快價(jià)值密度低(Value)大數(shù)據(jù)思維:①分析全體數(shù)據(jù),而不是抽樣數(shù)據(jù)②不追求數(shù)據(jù)的精確性,而能夠接受數(shù)據(jù)的混雜型③不強(qiáng)調(diào)對(duì)因果關(guān)系的探求,而更加注重相關(guān)性大數(shù)據(jù)大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)批處理Hadoop、Spark圖數(shù)據(jù)圖計(jì)算Pregel、GraphX流數(shù)據(jù)流計(jì)算Storm、Heron大數(shù)據(jù)處理思想大數(shù)據(jù)處理思想——“分治思想”。即將一個(gè)復(fù)雜的問題拆分成兩個(gè)或多個(gè)相同或相似的子問題,找到求這幾個(gè)問題的解法之后,把它們組合成求整個(gè)問題的解法。分解、解決、合并大數(shù)據(jù)處理框架靜態(tài)數(shù)據(jù)——批處理在處理時(shí)已經(jīng)收集完成、在計(jì)算時(shí)不會(huì)發(fā)生改變的數(shù)據(jù)。
Hbase(數(shù)據(jù)存儲(chǔ)與管理)數(shù)據(jù)以文件的形式、用多副本保存在不同的存儲(chǔ)節(jié)點(diǎn)中,并進(jìn)行分布式管理。HDFS用于云盤、網(wǎng)盤的底層。采用基于列的存儲(chǔ)方式,用于存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具有良好的橫向擴(kuò)展能力。靜態(tài)數(shù)據(jù)——批處理在處理時(shí)已經(jīng)收集完成、在計(jì)算時(shí)不會(huì)發(fā)生改變的數(shù)據(jù)。
Hbase(數(shù)據(jù)存儲(chǔ)與管理)靜態(tài)數(shù)據(jù)批處理軟件:Hadoop、Spark流數(shù)據(jù)——流計(jì)算不間斷地、持續(xù)地到達(dá)的實(shí)時(shí)數(shù)據(jù)。流數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間
的流逝而降低。
對(duì)采集的數(shù)據(jù)實(shí)時(shí)分析和計(jì)算并反饋實(shí)時(shí)結(jié)果。經(jīng)處理系統(tǒng)處理完成的數(shù)據(jù)流直接丟棄或存儲(chǔ)用戶可以實(shí)時(shí)查詢最新數(shù)據(jù)分析結(jié)果,數(shù)據(jù)不斷更新,實(shí)時(shí)推薦給用戶流計(jì)算應(yīng)用:廣告推送、個(gè)性化推薦、實(shí)時(shí)交通流計(jì)算軟件:Storm、Streams、S4、Puma流數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)區(qū)別
流處理系統(tǒng)和傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的區(qū)別:1、流處理系統(tǒng)處理的是實(shí)時(shí)的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預(yù)先存儲(chǔ)好的靜態(tài)數(shù)據(jù)。2、用戶通過流處理系統(tǒng)獲取的一般是實(shí)時(shí)結(jié)果,而傳統(tǒng)的數(shù)據(jù)處理方式獲取的都是過去某一個(gè)歷史時(shí)刻的快照。3、流處理系統(tǒng)會(huì)實(shí)時(shí)地把生成的結(jié)果不斷的推動(dòng)給用戶,傳統(tǒng)數(shù)據(jù)需要用戶主動(dòng)查詢才能獲取數(shù)據(jù)。圖數(shù)據(jù)——圖計(jì)算現(xiàn)實(shí)世界中以圖形式展現(xiàn)的數(shù)據(jù)。如社交網(wǎng)絡(luò)、道路交通等。圖處理軟件:Pregel、GraphX
文本數(shù)據(jù)處理文本數(shù)據(jù)處理應(yīng)用
020103050604搜索引擎自動(dòng)摘要機(jī)器翻譯論文查重文本分類垃圾郵件過濾文本數(shù)據(jù)處理過程
分詞數(shù)據(jù)分析特征提取結(jié)果呈現(xiàn)分詞分詞:將連續(xù)的子序列按照一定的規(guī)范重新組合成詞序列的過程
基于字典在分析句子時(shí)與詞典中的詞語(yǔ)進(jìn)行對(duì)比,詞典中出現(xiàn)的就劃分為詞基于統(tǒng)計(jì)依據(jù)上下文中相鄰字出現(xiàn)的頻率統(tǒng)計(jì),同時(shí)出現(xiàn)的次數(shù)越高就越有可能組成一個(gè)詞,一般與基于字典的分詞方法結(jié)合使用基于規(guī)則計(jì)算機(jī)模擬人的計(jì)算方式,根據(jù)大量的現(xiàn)有資料和規(guī)則進(jìn)行學(xué)習(xí),進(jìn)而分詞jieba分詞函數(shù)對(duì)應(yīng)模式cuts精準(zhǔn)分詞模式:將句子最精確地切分開cut(s,cut_all=Ture)全模式分詞:將句子中所有成詞的詞語(yǔ)都掃描出來(lái)cut_for_search(s)搜索引擎模式分詞:在精確模式的基礎(chǔ)上對(duì)長(zhǎng)詞再進(jìn)行切分,將更短的詞語(yǔ)切分出來(lái)jieba分詞s="我來(lái)到了西北皇家理工學(xué)院,發(fā)現(xiàn)這兒真不錯(cuò)"seg_list=jieba.cut(s,cut_all=True)我/來(lái)到/了/西北/皇家/理工/理工學(xué)/理工學(xué)院/工學(xué)/工學(xué)院/學(xué)院/,/發(fā)現(xiàn)/這兒/真不/真不錯(cuò)/不錯(cuò)s="我來(lái)到了西北皇家理工學(xué)院,發(fā)現(xiàn)這兒真不錯(cuò)"seg_list=jieba.cut(s,cut_all=False)我/來(lái)到/了/西北/皇家/理工學(xué)院/,/發(fā)現(xiàn)/這兒/真不錯(cuò)s="我來(lái)到了西北皇家理工學(xué)院,發(fā)現(xiàn)這兒真不錯(cuò)"seg_list=jieba.cut_for_search(s)我/來(lái)到/了/西北/皇家/理工/工學(xué)/學(xué)院/理工學(xué)/工學(xué)院/理工學(xué)院/,/發(fā)現(xiàn)/這兒/真不錯(cuò)特征提取在中文文本分析中采用字、詞、短語(yǔ)作為表示文本的特征項(xiàng)。特征提取方式:①根據(jù)專家知識(shí)挑選有價(jià)值的特征。②用數(shù)學(xué)建模的方法構(gòu)造評(píng)估函數(shù)自動(dòng)選取特征。
結(jié)果呈現(xiàn)——標(biāo)簽云
關(guān)鍵詞的視覺化描述。用文字大小等形式來(lái)表現(xiàn)詞語(yǔ)的重要性應(yīng)用于報(bào)紙、雜志等傳統(tǒng)媒體和互聯(lián)網(wǎng)結(jié)果呈現(xiàn)——文本情感分析
計(jì)算機(jī)通過技術(shù)對(duì)文本的主觀性、觀點(diǎn)、情緒進(jìn)行挖掘和分析,對(duì)文本的情感情緒做出分類的判斷。
主要應(yīng)用于輿情監(jiān)控、信息預(yù)測(cè),或用于判斷產(chǎn)品的口碑,進(jìn)而幫助生產(chǎn)者改進(jìn)產(chǎn)品人工智能AI緊密相關(guān)的領(lǐng)域
人工智能人工智能的概念人工智能:1、以機(jī)器(計(jì)算機(jī))為載體2、模仿、延伸和擴(kuò)展人類智能3、與生物智能有著重要區(qū)別。人工智能符號(hào)主義我感覺到頭暈、乏力、畏寒,體溫37.5℃這是發(fā)燒了,需要服用退燒藥,注意飲食清淡符號(hào)主義=知識(shí)庫(kù)+推理引擎典型案例:專家系統(tǒng)符號(hào)主義從海量數(shù)據(jù)出發(fā),尋找數(shù)據(jù)中蘊(yùn)含的模式——聯(lián)結(jié)主義聯(lián)結(jié)主義典型案例:深度學(xué)習(xí)、模式識(shí)別聯(lián)結(jié)主義行為主義結(jié)果反饋調(diào)整學(xué)習(xí)方式無(wú)效學(xué)習(xí)有效學(xué)習(xí)行為主義:從“交互——反饋”角度刻畫智能行為,是一種問題引導(dǎo)下的試錯(cuò)學(xué)習(xí)。典型案例:強(qiáng)化學(xué)習(xí)、掃地機(jī)器人行為主義人工智能領(lǐng)域人工智能依賴于領(lǐng)域知識(shí)和數(shù)據(jù)的人
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司土地出租合同模板
- 在線教育平臺(tái)課程評(píng)價(jià)與改進(jìn)合同
- 凍庫(kù)維修合同范例
- 全托管合同范例
- 臨時(shí)簡(jiǎn)易入股合同范例
- 嶺南師范學(xué)院《法學(xué)概論》2021-2022學(xué)年期末試卷
- 人工智能驅(qū)動(dòng)的物流配送路線優(yōu)化合同
- 臨沂大學(xué)《中外教育史B》2021-2022學(xué)年第一學(xué)期期末試卷
- 臨沂大學(xué)《中國(guó)地理B》2021-2022學(xué)年第一學(xué)期期末試卷
- 2024年市場(chǎng)開發(fā)合同:新興市場(chǎng)開拓
- 入網(wǎng)申請(qǐng)表模板
- 交流高壓架空輸電線路跨越石油天然氣管道的相關(guān)規(guī)定
- 初三全一冊(cè)單詞表漢語(yǔ)部分
- 48個(gè)國(guó)際音標(biāo)對(duì)應(yīng)的字母組合及例詞(WORD可打印版)
- 安裝工程質(zhì)量通病及消除通病措施(安八)
- 標(biāo)化工地安全文明施工管理細(xì)則
- 2022年冀教版六年級(jí)上冊(cè)英語(yǔ)期末試卷及答案
- 安全游玩動(dòng)物園PPT課件
- 有機(jī)肥PPT課件
- 電除塵拆除施工方案
- 線材基礎(chǔ)知識(shí)
評(píng)論
0/150
提交評(píng)論