




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
離散化連續(xù)數(shù)據(jù)教師:亢華愛北京信息職業(yè)技術學院商務數(shù)據(jù)分析與應用專業(yè)教學資源庫目錄Contents離散化連續(xù)數(shù)據(jù)概述1PART概述概述有時候我們會碰到這樣的需求,例如,將有關年齡的數(shù)據(jù)進行離散化(分桶)或拆分為“面元”,直白來說,就是將年齡分成幾個區(qū)間。Pandas的cut()函數(shù)能夠實現(xiàn)離散化操作語法格式Pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=Fa1se,duplicates='raise')概述參數(shù)含義(1)x:表示要分箱的數(shù)組,必須是一維的。(2)bins:接收int和序列類型的數(shù)據(jù)。如果傳入的是int類型的值,則表示在x范圍內(nèi)的等寬單元的數(shù)量(劃分為多少個等間距區(qū)間);如果傳入的是一個序列,則表示將x劃分在指定的序列中,若不在此序列中,則為NaN。(3)right:是否包含右端點,決定區(qū)間的開閉,默認為True。概述參數(shù)含義(4)labels:用于生成區(qū)間的標簽。(5)retbins:是否返回bin。(6)precision:精度,默認保留三位小數(shù)。(7)include_lowest:是否包含左端點。cut()函數(shù)會返回一個Categorical對象,我們可以將其看作一組表示面元名稱的字符串,它包含了分組的數(shù)量以及不同分類的名稱。2PART離散化連續(xù)數(shù)據(jù)離散化連續(xù)數(shù)據(jù)假設當前有一組年齡數(shù)據(jù),需要將這組年齡數(shù)據(jù)劃分為0?12歲、12?25歲、25?45歲、45?50歲、50歲以上共5種類型此圖是將這些數(shù)據(jù)經(jīng)過面元劃分前后的對比效果面元化處理過程接下來,我們通過一個示例來演示如何使用cut()函數(shù)將這組年齡數(shù)據(jù)進行面元劃分,具體代碼如下In[43]:importpandasaspd#使用pandas的cut函數(shù)劃分年齡組ages=[20,22,25,27,21,23,37,31,61,45,32]bins=[0,18,25,35,60,100].cuts=pd.cut(ages,bins)cutsOut[43]:[(18,25],(18,25],(18,25],(25,35],(18,25], …,(35,60],(25,35],(60,100],(35,60],(25,35]]Length:11Categories(5,interval[int64]):[(0,18]<(18,25]<(25,35]<(35,60)<(60,100))離散化連續(xù)數(shù)據(jù)離散化連續(xù)數(shù)據(jù)上述代碼中,定義了表示年齡數(shù)據(jù)集和劃分規(guī)則的變量ages和bins,然后調(diào)用cut()函數(shù)將ages按照bins的劃分規(guī)則進行離散化。上述示例返回了一個Categories類對象,它包含了面元劃分的個數(shù)以及各區(qū)間的范圍。Categories對象中的區(qū)間范圍跟數(shù)學符號中的“區(qū)間”一樣,都是用圓括號表示開區(qū)間,用方括號則表示閉區(qū)間。如果希望設置左閉右開區(qū)間,則可以在調(diào)用cut()函數(shù)時傳入right=False進行修改,示例代碼如下In[44]:pd.cut(ages,bins=bins,right=False)Out[44]:[[18,25],[18,25),[18,25),[25,35),[18,25), …,[35,60),[25,35),[60,100),[35,60),[25,35)]Length:11Categories(5,interval[int64]):[[0,18)<[18,25)<[25,35)<[35,60)<[60,100)]離散化連續(xù)數(shù)據(jù)參考
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 跨境電子商務的消費者保護政策研究
- 足球校隊戰(zhàn)術體系構建的核心理念
- 如何打破部門壁壘提升合作計劃
- 與社區(qū)聯(lián)動的教育活動設計計劃
- 制訂年度銷售增長計劃的思考
- 運動醫(yī)學科工作總結與健康促進活動計劃
- 財務支出監(jiān)管標準計劃
- 七年級必須收藏:名著《西游記》每回檢測題(6至10回)
- 提升班級文化品位的具體方法計劃
- 跨國公司如何通過全球采購提升競爭力
- 學校食堂廚師崗位職責
- 職業(yè)生涯規(guī)劃的步驟與方法課件
- 2024解析:第十五章電流和電路-講核心(解析版)
- 米勒黑曼策略銷售培訓
- 2024年下半年東方電氣長三角(杭州)創(chuàng)新研究院限公司第二批招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 【重點易錯題每日一練小紙條】二年級數(shù)學下冊
- 2024年小紅書初級營銷師題庫
- 2022年公務員多省聯(lián)考《申論》真題(重慶二卷)及答案解析
- -2012橋梁樁基施工方案
- 人教PEP版(2024)三年級上冊英語Unit 6《Useful numbers》單元作業(yè)設計
- 課題1 碳單質的多樣性(第1課時)課件九年級化學上冊人教版2024
評論
0/150
提交評論