離散化連續(xù)數(shù)據(jù)_第1頁
離散化連續(xù)數(shù)據(jù)_第2頁
離散化連續(xù)數(shù)據(jù)_第3頁
離散化連續(xù)數(shù)據(jù)_第4頁
離散化連續(xù)數(shù)據(jù)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

離散化連續(xù)數(shù)據(jù)教師:亢華愛北京信息職業(yè)技術學院商務數(shù)據(jù)分析與應用專業(yè)教學資源庫目錄Contents離散化連續(xù)數(shù)據(jù)概述1PART概述概述有時候我們會碰到這樣的需求,例如,將有關年齡的數(shù)據(jù)進行離散化(分桶)或拆分為“面元”,直白來說,就是將年齡分成幾個區(qū)間。Pandas的cut()函數(shù)能夠實現(xiàn)離散化操作語法格式Pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=Fa1se,duplicates='raise')概述參數(shù)含義(1)x:表示要分箱的數(shù)組,必須是一維的。(2)bins:接收int和序列類型的數(shù)據(jù)。如果傳入的是int類型的值,則表示在x范圍內(nèi)的等寬單元的數(shù)量(劃分為多少個等間距區(qū)間);如果傳入的是一個序列,則表示將x劃分在指定的序列中,若不在此序列中,則為NaN。(3)right:是否包含右端點,決定區(qū)間的開閉,默認為True。概述參數(shù)含義(4)labels:用于生成區(qū)間的標簽。(5)retbins:是否返回bin。(6)precision:精度,默認保留三位小數(shù)。(7)include_lowest:是否包含左端點。cut()函數(shù)會返回一個Categorical對象,我們可以將其看作一組表示面元名稱的字符串,它包含了分組的數(shù)量以及不同分類的名稱。2PART離散化連續(xù)數(shù)據(jù)離散化連續(xù)數(shù)據(jù)假設當前有一組年齡數(shù)據(jù),需要將這組年齡數(shù)據(jù)劃分為0?12歲、12?25歲、25?45歲、45?50歲、50歲以上共5種類型此圖是將這些數(shù)據(jù)經(jīng)過面元劃分前后的對比效果面元化處理過程接下來,我們通過一個示例來演示如何使用cut()函數(shù)將這組年齡數(shù)據(jù)進行面元劃分,具體代碼如下In[43]:importpandasaspd#使用pandas的cut函數(shù)劃分年齡組ages=[20,22,25,27,21,23,37,31,61,45,32]bins=[0,18,25,35,60,100].cuts=pd.cut(ages,bins)cutsOut[43]:[(18,25],(18,25],(18,25],(25,35],(18,25], …,(35,60],(25,35],(60,100],(35,60],(25,35]]Length:11Categories(5,interval[int64]):[(0,18]<(18,25]<(25,35]<(35,60)<(60,100))離散化連續(xù)數(shù)據(jù)離散化連續(xù)數(shù)據(jù)上述代碼中,定義了表示年齡數(shù)據(jù)集和劃分規(guī)則的變量ages和bins,然后調(diào)用cut()函數(shù)將ages按照bins的劃分規(guī)則進行離散化。上述示例返回了一個Categories類對象,它包含了面元劃分的個數(shù)以及各區(qū)間的范圍。Categories對象中的區(qū)間范圍跟數(shù)學符號中的“區(qū)間”一樣,都是用圓括號表示開區(qū)間,用方括號則表示閉區(qū)間。如果希望設置左閉右開區(qū)間,則可以在調(diào)用cut()函數(shù)時傳入right=False進行修改,示例代碼如下In[44]:pd.cut(ages,bins=bins,right=False)Out[44]:[[18,25],[18,25),[18,25),[25,35),[18,25), …,[35,60),[25,35),[60,100),[35,60),[25,35)]Length:11Categories(5,interval[int64]):[[0,18)<[18,25)<[25,35)<[35,60)<[60,100)]離散化連續(xù)數(shù)據(jù)參考

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論