第4章-pandas統(tǒng)計分析基礎(chǔ)PPT課件_第1頁
第4章-pandas統(tǒng)計分析基礎(chǔ)PPT課件_第2頁
第4章-pandas統(tǒng)計分析基礎(chǔ)PPT課件_第3頁
第4章-pandas統(tǒng)計分析基礎(chǔ)PPT課件_第4頁
第4章-pandas統(tǒng)計分析基礎(chǔ)PPT課件_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù),成就未來大數(shù)據(jù),成就未來2021/7/23pandas統(tǒng)計分析基礎(chǔ)2021/9/6 2大數(shù)據(jù)挖掘?qū)<?掌握DataFrame的常用操作目錄目錄讀寫不同數(shù)據(jù)源的數(shù)據(jù)2轉(zhuǎn)換與處理時間序列數(shù)據(jù)3 3大數(shù)據(jù)挖掘?qū)<?pandas提供了讀取與存儲關(guān)系型數(shù)據(jù)庫數(shù)據(jù)的函數(shù)與方法。除了pandas庫外,還需要使用SQLAlchemy庫建立對應(yīng)的數(shù)據(jù)庫連接。SQLAlchemy配合相應(yīng)數(shù)據(jù)庫的Python連接工具(例如MySQL數(shù)據(jù)庫需要安裝mysqlclient或者pymysql庫),使用create_engine函數(shù),建立一個數(shù)據(jù)庫連接。 creat_engine中填入的是一個連接字符串。在使用Py

2、thon的SQLAlchemy時,MySQL和Oracle數(shù)據(jù)庫連接字符串的格式如下 數(shù)據(jù)庫產(chǎn)品名+連接工具名:/用戶名:密碼數(shù)據(jù)庫IP地址:數(shù)據(jù)庫端口號/數(shù)據(jù)庫名稱?charset = 數(shù)據(jù)庫數(shù)據(jù)編碼讀寫數(shù)據(jù)庫數(shù)據(jù)讀寫數(shù)據(jù)庫數(shù)據(jù)1.數(shù)據(jù)庫數(shù)據(jù)讀取數(shù)據(jù)庫數(shù)據(jù)讀取 4大數(shù)據(jù)挖掘?qū)<?read_sql_table只能夠讀取數(shù)據(jù)庫的某一個表格,不能實現(xiàn)查詢的操作。 pandas.read_sql_table(table_name, con, schema=None, index_col=None, coerce_float=True, columns=None) read_sql_query則只能實

3、現(xiàn)查詢操作,不能直接讀取數(shù)據(jù)庫中的某個表。 pandas.read_sql_query(sql, con, index_col=None, coerce_float=True) read_sql是兩者的綜合,既能夠讀取數(shù)據(jù)庫中的某一個表,也能夠?qū)崿F(xiàn)查詢操作。 pandas.read_sql(sql, con, index_col=None, coerce_float=True, columns=None)讀寫數(shù)據(jù)庫數(shù)據(jù)讀寫數(shù)據(jù)庫數(shù)據(jù)1.數(shù)據(jù)庫數(shù)據(jù)讀取數(shù)據(jù)庫數(shù)據(jù)讀取 5大數(shù)據(jù)挖掘?qū)<覅?shù)名稱參數(shù)名稱說明說明sql or table_name接收string。表示讀取的數(shù)據(jù)的表名或者sql語句。無

4、默認。con接收數(shù)據(jù)庫連接。表示數(shù)據(jù)庫連接信息。無默認index_col接收int,sequence或者False。表示設(shè)定的列作為行名,如果是一個數(shù)列則是多重索引。默認為None。coerce_float接收boolean。將數(shù)據(jù)庫中的decimal類型的數(shù)據(jù)轉(zhuǎn)換為pandas中的float64類型的數(shù)據(jù)。默認為True。columns接收list。表示讀取數(shù)據(jù)的列名。默認為None。讀寫數(shù)據(jù)庫數(shù)據(jù)讀寫數(shù)據(jù)庫數(shù)據(jù)1.數(shù)據(jù)庫數(shù)據(jù)讀取數(shù)據(jù)庫數(shù)據(jù)讀取pandas三個數(shù)據(jù)庫數(shù)據(jù)讀取函數(shù)的參數(shù)幾乎完全一致,唯一的區(qū)別在于傳入的是語句還是表名。 6大數(shù)據(jù)挖掘?qū)<覕?shù)據(jù)庫數(shù)據(jù)讀取有三個函數(shù),但數(shù)據(jù)存儲則只有

5、一個to_sql方法。DataFrame.to_sql(name, con, schema=None, if_exists=fail, index=True, index_label=None, dtype=None)讀寫數(shù)據(jù)庫數(shù)據(jù)讀寫數(shù)據(jù)庫數(shù)據(jù)2.數(shù)據(jù)庫數(shù)據(jù)存儲數(shù)據(jù)庫數(shù)據(jù)存儲參數(shù)名稱參數(shù)名稱說明說明name接收string。代表數(shù)據(jù)庫表名。無默認。con接收數(shù)據(jù)庫連接。無默認。if_exists接收fail,replace,append。fail表示如果表名存在則不執(zhí)行寫入操作;replace表示如果存在,將原數(shù)據(jù)庫表刪除,再重新創(chuàng)建;append則表示在原數(shù)據(jù)庫表的基礎(chǔ)上追加數(shù)據(jù)。默認為f

6、ail。index接收boolean。表示是否將行索引作為數(shù)據(jù)傳入數(shù)據(jù)庫。默認True。index_label接收string或者sequence。代表是否引用索引名稱,如果index參數(shù)為True此參數(shù)為None則使用默認名稱。如果為多重索引必須使用sequence形式。默認為None。dtype接收dict。代表寫入的數(shù)據(jù)類型(列名為key,數(shù)據(jù)格式為values)。默認為None。 7大數(shù)據(jù)挖掘?qū)<?文本文件是一種由若干行字符構(gòu)成的計算機文件,它是一種典型的順序文件。 csv是一種逗號分隔的文件格式,因為其分隔符不一定是逗號,又被稱為字符分隔文件,文件以純文本形式存儲表格數(shù)據(jù)(數(shù)字和文本

7、)。讀寫文本文件讀寫文本文件1.文本文件讀取文本文件讀取 8大數(shù)據(jù)挖掘?qū)<?使用read_table來讀取文本文件。pandas.read_table(filepath_or_buffer, sep=t, header=infer, names=None, index_col=None, dtype=None, engine=None, nrows=None) 使用read_csv函數(shù)來讀取csv文件。pandas.read_csv(filepath_or_buffer, sep=t, header=infer, names=None, index_col=None, dtype=None,

8、engine=None, nrows=None)讀寫文本文件讀寫文本文件1.文本文件讀取文本文件讀取 9大數(shù)據(jù)挖掘?qū)<襯ead_table和read_csv常用參數(shù)及其說明。讀寫文本文件讀寫文本文件1.文本文件讀取文本文件讀取參數(shù)名稱參數(shù)名稱說明說明filepath接收string。代表文件路徑。無默認。sep接收string。代表分隔符。read_csv默認為“,”,read_table默認為制表符“Tab”。header接收int或sequence。表示將某行數(shù)據(jù)作為列名。默認為infer,表示自動識別。names接收array。表示列名。默認為None。index_col接收int、se

9、quence或False。表示索引列的位置,取值為sequence則代表多重索引。默認為None。dtype接收dict。代表寫入的數(shù)據(jù)類型(列名為key,數(shù)據(jù)格式為values)。默認為None。engine接收c或者python。代表數(shù)據(jù)解析引擎。默認為c。nrows接收int。表示讀取前n行。默認為None。 10大數(shù)據(jù)挖掘?qū)<?read_table和read_csv函數(shù)中的sep參數(shù)是指定文本的分隔符的,如果分隔符指定錯誤,在讀取數(shù)據(jù)的時候,每一行數(shù)據(jù)將連成一片。 header參數(shù)是用來指定列名的,如果是None則會添加一個默認的列名。 encoding代表文件的編碼格式,常用的編碼有

10、utf-8、utf-16、gbk、gb2312、gb18030等。如果編碼指定錯誤數(shù)據(jù)將無法讀取,IPython解釋器會報解析錯誤。讀寫文本文件讀寫文本文件1.文本文件讀取文本文件讀取 11大數(shù)據(jù)挖掘?qū)<椅谋疚募拇鎯妥x取類似,結(jié)構(gòu)化數(shù)據(jù)可以通過pandas中的to_csv函數(shù)實現(xiàn)以csv文件格式存儲文件。DataFrame.to_csv(path_or_buf=None, sep=, na_rep=”, columns=None, header=True, index=True,index_label=None,mode=w,encoding=None)讀寫文本文件讀寫文本文件參數(shù)名稱參數(shù)

11、名稱說明說明參數(shù)名稱參數(shù)名稱說明說明path_or_buf接收string。代表文件路徑。無默認。index接收boolean,代表是否將行名(索引)寫出。默認為True。sep接收string。代表分隔符。默認為“,”。index_labels 接收sequence。表示索引名。默認為None。na_rep接收string。代表缺失值。默認為“”。mode接收特定string。代表數(shù)據(jù)寫入模式。默認為w。columns接收list。代表寫出的列名。默認為None。encoding接收特定string。代表存儲文件的編碼格式。默認為None。header接收boolean,代表是否將列名寫出。

12、默認為True。2.文本文件文本文件儲存儲存 12大數(shù)據(jù)挖掘?qū)<襭andas提供了read_excel函數(shù)來讀取“xls”“xlsx”兩種Excel文件。pandas.read_excel(io, sheetname=0, header=0, index_col=None, names=None, dtype=None)讀寫讀寫Excel文件文件參數(shù)名稱參數(shù)名稱說明說明io接收string。表示文件路徑。無默認。sheetname接收string、int。代表excel表內(nèi)數(shù)據(jù)的分表位置。默認為0。header接收int或sequence。表示將某行數(shù)據(jù)作為列名。默認為infer,表示自動識別

13、。names接收int、sequence或者False。表示索引列的位置,取值為sequence則代表多重索引。默認為None。index_col接收int、sequence或者False。表示索引列的位置,取值為sequence則代表多重索引。默認為None。dtype接收dict。代表寫入的數(shù)據(jù)類型(列名為key,數(shù)據(jù)格式為values)。默認為None。1.Excel文件讀取文件讀取 13大數(shù)據(jù)挖掘?qū)<?將文件存儲為Excel文件,可以使用to_excel方法。其語法格式如下。DataFrame.to_excel(excel_writer=None, sheetname=None, na

14、_rep=”, header=True, index=True, index_label=None, mode=w, encoding=None) to_csv方法的常用參數(shù)基本一致,區(qū)別之處在于指定存儲文件的文件路徑參數(shù)名稱為excel_writer,并且沒有sep參數(shù),增加了一個sheetnames參數(shù)用來指定存儲的Excel sheet的名稱,默認為sheet1。讀寫讀寫Excel文件文件2.Excel文件文件儲存儲存 14大數(shù)據(jù)挖掘?qū)<?掌握DataFrame的常用操作目錄目錄讀寫不同數(shù)據(jù)源的數(shù)據(jù)2轉(zhuǎn)換與處理時間序列數(shù)據(jù)3 15大數(shù)據(jù)挖掘?qū)<液瘮?shù)函數(shù)返回值返回值values元素inde

15、x索引columns列名dtypes類型size元素個數(shù)ndim維度數(shù)shape數(shù)據(jù)形狀(行列數(shù)目)查看查看DataFrame的常用屬性的常用屬性基礎(chǔ)屬性基礎(chǔ)屬性 16大數(shù)據(jù)挖掘?qū)<?對單列數(shù)據(jù)的訪問對單列數(shù)據(jù)的訪問:DataFrame的單列數(shù)據(jù)為一個Series。根據(jù)DataFrame的定義可以知曉DataFrame是一個帶有標簽的二維數(shù)組,每個標簽相當每一列的列名。有以下兩種方式來實現(xiàn)對單列數(shù)據(jù)的訪問。以字典訪問某一個key的值的方式使用對應(yīng)的列名,實現(xiàn)單列數(shù)據(jù)的訪問。以屬性的方式訪問,實現(xiàn)單列數(shù)據(jù)的訪問。(不建議使用,易引起混淆)查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問

16、訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)數(shù)據(jù)基本查看方式數(shù)據(jù)基本查看方式 17大數(shù)據(jù)挖掘?qū)<?對對某一列的某幾行某一列的某幾行訪問訪問:訪問DataFrame中某一列的某幾行時,單獨一列的DataFrame可以視為一個Series(另一種pandas提供的類,可以看作是只有一列的DataFrame),而訪問一個Series基本和訪問一個一維的ndarray相同。 對多列數(shù)據(jù)訪問對多列數(shù)據(jù)訪問:訪問DataFrame多列數(shù)據(jù)可以將多個列索引名稱視為一個列表,同時訪問DataFrame多列數(shù)據(jù)中的多行數(shù)據(jù)和訪問單列數(shù)據(jù)的多行數(shù)據(jù)方法基本相同。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問

17、訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)數(shù)據(jù)基本查看方式數(shù)據(jù)基本查看方式 18大數(shù)據(jù)挖掘?qū)<?對某幾行訪問對某幾行訪問:如果只是需要訪問DataFrame某幾行數(shù)據(jù)的實現(xiàn)方式則和上述的訪問多列多行相似,選擇所有列,使用“:”代替即可。head和tail也可以得到多行數(shù)據(jù),但是用這兩種方法得到的數(shù)據(jù)都是從開始或者末尾獲取的連續(xù)數(shù)據(jù)。默認參數(shù)為訪問5行,只要在方法后方的“()”中填入訪問行數(shù)即可實現(xiàn)目標行數(shù)的查看。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)數(shù)據(jù)基本查看方式數(shù)據(jù)基本查看方式 19大數(shù)據(jù)挖掘?qū)<?loc方法是針對DataFrame索引

18、名稱的切片方法,如果傳入的不是索引名稱,那么切片操作將無法執(zhí)行。利用loc方法,能夠?qū)崿F(xiàn)所有單層索引切片操作。loc方法使用方法如下。 DataFrame.loc行索引名稱或條件, 列索引名稱 iloc和loc區(qū)別是iloc接收的必須是行索引和列索引的位置。iloc方法的使用方法如下。 DataFrame.iloc行索引位置, 列索引位置查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)loc,iloc訪問方式訪問方式 20大數(shù)據(jù)挖掘?qū)<?使用loc方法和iloc實現(xiàn)多列切片,其原理的通俗解釋就是將多列的列名或者位置作為一個列表或者數(shù)據(jù)傳入。 使用

19、loc,iloc方法可以取出DataFrame中的任意數(shù)據(jù)。 在loc使用的時候內(nèi)部傳入的行索引名稱如果為一個區(qū)間,則前后均為閉區(qū)間;iloc方法使用時內(nèi)部傳入的行索引位置或列索引位置為區(qū)間時,則為前閉后開區(qū)間。 loc內(nèi)部還可以傳入表達式,結(jié)果會返回滿足表達式的所有值。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)loc,iloc訪問方式訪問方式 21大數(shù)據(jù)挖掘?qū)<?若使用detail.ilocdetailorder_id=458,1,5讀取數(shù)據(jù),則會報錯,原因在于此處條件返回的為一個布爾值Series,而iloc可以接收的數(shù)據(jù)類型并不包括S

20、eries。根據(jù)Series的構(gòu)成只要取出該Series的values就可以了。需改為detail.iloc(detailorder_id=458).values,1,5)。 loc更加靈活多變,代碼的可讀性更高,iloc的代碼簡潔,但可讀性不高。具體在數(shù)據(jù)分析工作中使用哪一種方法,根據(jù)情況而定,大多數(shù)時候建議使用loc方法。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)loc,iloc訪問方式訪問方式 22大數(shù)據(jù)挖掘?qū)<?ix方法更像是loc和iloc兩種切片方法的融合。ix方法在使用時既可以接收索引名稱也可以接收索引位置。其使用方法如下。

21、DataFrame.ix行索引的名稱或位置或者條件, 列索引名稱或位置 使用ix方法時有個注意事項,第一條,當索引名稱和位置存在部分重疊時,ix默認優(yōu)先識別名稱。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)切片方法之切片方法之ix 23大數(shù)據(jù)挖掘?qū)<铱刂苅x方法需要注意以下幾點。 使用ix參數(shù)時,盡量保持行索引名稱和行索引位置重疊,使用時就無須考慮取值時區(qū)間的問題。一律為閉區(qū)間。 使用列索引名稱,而非列索引位置。主要用來保證代碼可讀性。 使用列索引位置時,需要注解。同樣保證代碼可讀性。 除此之外ix方法還有一個缺點,就是在面對數(shù)據(jù)量巨大的任務(wù)

22、的時候,其效率會低于loc和iloc方法,所以在日常的數(shù)據(jù)分析工作中建議使用loc和iloc方法來執(zhí)行切片操作。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)1.查看查看訪問訪問DataFrame中的數(shù)據(jù)中的數(shù)據(jù)切片方法之切片方法之ix 24大數(shù)據(jù)挖掘?qū)<?更改DataFrame中的數(shù)據(jù),原理是將這部分數(shù)據(jù)提取出來,重新賦值為新的數(shù)據(jù)。 需要注意的是,數(shù)據(jù)更改直接針對DataFrame原數(shù)據(jù)更改,操作無法撤銷,如果做出更改,需要對更改條件做確認或?qū)?shù)據(jù)進行備份。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)2.更新修改更新修改DataFrame中的數(shù)據(jù)中的數(shù)據(jù) 25大數(shù)據(jù)挖掘?qū)<?DataFrame添

23、加一列的方法非常簡單,只需要新建一個列索引。并對該索引下的數(shù)據(jù)進行賦值操作即可。 新增的一列值是相同的則直接賦值一個常量即可。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)3.為為DataFrame增添數(shù)據(jù)增添數(shù)據(jù) 26大數(shù)據(jù)挖掘?qū)<覄h除某列或某行數(shù)據(jù)需要用到pandas提供的方法drop,drop方法的用法如下。 axis為0時表示刪除行,axis為1時表示刪除列。 drop(labels, axis=0, level=None, inplace=False, errors=raise) 常用參數(shù)如下所示。查查改增刪改增刪DataFrame數(shù)據(jù)數(shù)據(jù)4.刪除某列或某行數(shù)據(jù)刪除某列或某行數(shù)據(jù)參數(shù)名稱

24、參數(shù)名稱說明說明labels接收string或array。代表刪除的行或列的標簽。無默認。axis接收0或1。代表操作的軸向。默認為0。levels接收int或者索引名。代表標簽所在級別。默認為None。inplace接收boolean。代表操作是否對原數(shù)據(jù)生效。默認為False。 27大數(shù)據(jù)挖掘?qū)<?數(shù)值型數(shù)據(jù)的描述性統(tǒng)計主要包括了計算數(shù)值型數(shù)據(jù)的完整情況、最小值、均值、中位數(shù)、最大值、四分位數(shù)、極差、標準差、方差、協(xié)方差和變異系數(shù)等。在NumPy庫中一些常用的統(tǒng)計學(xué)函數(shù)如下表所示。 pandas庫基于NumPy,自然也可以用這些函數(shù)對數(shù)據(jù)框進行描述性統(tǒng)計。描述分析描述分析DataFrame

25、數(shù)據(jù)數(shù)據(jù)1.數(shù)值型特征的描述性統(tǒng)計數(shù)值型特征的描述性統(tǒng)計NumPy中的描述性統(tǒng)計函數(shù)函數(shù)名稱函數(shù)名稱說明說明函數(shù)名稱函數(shù)名稱說明說明np.min最小值np.max最大值np.mean均值np.ptp極差np.median中位數(shù)np.std標準差np.var方差np.cov協(xié)方差 28大數(shù)據(jù)挖掘?qū)<?pandas還提供了更加便利的方法來計算均值 ,如detailamounts.mean()。 pandas還提供了一個方法叫作describe,能夠一次性得出數(shù)據(jù)框所有數(shù)值型特征的非空值數(shù)目、均值、四分位數(shù)、標準差。描述分析描述分析DataFrame數(shù)據(jù)數(shù)據(jù)1.數(shù)值型特征的描述性統(tǒng)計數(shù)值型特征的描述

26、性統(tǒng)計 pandas描述性統(tǒng)計方法描述性統(tǒng)計方法方法名稱方法名稱說明說明方法名稱方法名稱說明說明min最小值max最大值mean均值ptp極差median中位數(shù)std標準差var方差cov協(xié)方差sem標準誤差mode眾數(shù)skew樣本偏度kurt樣本峰度quantile四分位數(shù)count非空值數(shù)目describe描述統(tǒng)計mad平均絕對離差 29大數(shù)據(jù)挖掘?qū)<?描述類別型特征的分布狀況,可以使用頻數(shù)統(tǒng)計表。pandas庫中實現(xiàn)頻數(shù)統(tǒng)計的方法為value_counts。 pandas提供了categories類,可以使用astype方法將目標特征的數(shù)據(jù)類型轉(zhuǎn)換為category類別。 describ

27、e方法除了支持傳統(tǒng)數(shù)值型以外,還能夠支持對category類型的數(shù)據(jù)進行描述性統(tǒng)計,四個統(tǒng)計量分別為列非空元素的數(shù)目,類別的數(shù)目,數(shù)目最多的類別,數(shù)目最多類別的數(shù)目。描述分析描述分析DataFrame數(shù)據(jù)數(shù)據(jù)2.類別型特征的描述性統(tǒng)計類別型特征的描述性統(tǒng)計 30大數(shù)據(jù)挖掘?qū)<?掌握DataFrame的常用操作目錄目錄讀寫不同數(shù)據(jù)源的數(shù)據(jù)2轉(zhuǎn)換與處理時間序列數(shù)據(jù)3 31大數(shù)據(jù)挖掘?qū)<?在多數(shù)情況下,對時間類型數(shù)據(jù)進行分析的前提就是將原本為字符串的時間轉(zhuǎn)換為標準時間類型。pandas繼承了NumPy庫和datetime庫的時間相關(guān)模塊,提供了6種時間相關(guān)的類。轉(zhuǎn)換字符串時間為標準時間轉(zhuǎn)換字符串時間

28、為標準時間pandas時間相關(guān)的類時間相關(guān)的類類名稱類名稱說明說明Timestamp最基礎(chǔ)的時間類。表示某個時間點。在絕大多數(shù)的場景中的時間數(shù)據(jù)都是Timestamp形式的時間。Period表示單個時間跨度,或者某個時間段,例如某一天,某一小時等。Timedelta表示不同單位的時間,例如1天,1.5小時,3分鐘,4秒等,而非具體的某個時間段。DatetimeIndex一組Timestamp構(gòu)成的Index,可以用來作為Series或者DataFrame的索引。PeriodtimeIndex一組Period構(gòu)成的Index,可以用來作為Series或者DataFrame的索引。Timedelt

29、aIndex一組Timedelta構(gòu)成的Index,可以用來作為Series或者DataFrame的索引。 32大數(shù)據(jù)挖掘?qū)<?其中Timestamp作為時間類中最基礎(chǔ)的,也是最為常用的。在多數(shù)情況下,時間相關(guān)的字符串都會轉(zhuǎn)換成為Timestamp。pandas提供了to_datetime函數(shù),能夠?qū)崿F(xiàn)這一目標。 值得注意的是,Timestamp類型時間是有限制的。轉(zhuǎn)換字符串時間為標準時間轉(zhuǎn)換字符串時間為標準時間Timestamp類型類型 33大數(shù)據(jù)挖掘?qū)<?除了將數(shù)據(jù)字原始DataFrame中直接轉(zhuǎn)換為Timestamp格式外,還可以將數(shù)據(jù)單獨提取出來將其轉(zhuǎn)換為DatetimeIndex或者

30、PeriodIndex。 轉(zhuǎn)換為PeriodIndex的時候需要注意,需要通過freq參數(shù)指定時間間隔,常用的時間間隔有Y為年,M為月,D為日,H為小時,T為分鐘,S為秒。兩個函數(shù)可以用來轉(zhuǎn)換數(shù)據(jù)還可以用來創(chuàng)建時間序列數(shù)據(jù),其參數(shù)非常類似。轉(zhuǎn)換字符串時間為標準時間轉(zhuǎn)換字符串時間為標準時間DatetimeIndex與與PeriodIndex函數(shù)函數(shù) 34大數(shù)據(jù)挖掘?qū)<?DatetimeIndex和PeriodIndex兩者區(qū)別在日常使用的過程中相對較小,其中DatetimeIndex是用來指代一系列時間點的一種數(shù)據(jù)結(jié)構(gòu),而PeriodIndex則是用來指代一系列時間段的數(shù)據(jù)結(jié)構(gòu)。轉(zhuǎn)換字符串時間為

31、標準時間轉(zhuǎn)換字符串時間為標準時間DatetimeIndex與與PeriodIndex函數(shù)及其參數(shù)說明函數(shù)及其參數(shù)說明參數(shù)名稱參數(shù)名稱說明說明data接收array。表示DatetimeIndex的值。無默認。freq接收string。表示時間的間隔頻率。無默認。start接收string。表示生成規(guī)則時間數(shù)據(jù)的起始點。無默認。periods表示需要生成的周期數(shù)目。無默認。end接收string。表示生成規(guī)則時間數(shù)據(jù)的終結(jié)點。無默認。tz接收timezone。表示數(shù)據(jù)的時區(qū)。默認為None。name接收int,string。默認為空。指定DatetimeIndex的名字。 35大數(shù)據(jù)挖掘?qū)<?在多數(shù)涉及時間相關(guān)的數(shù)據(jù)處理,統(tǒng)計分析的過程中,需要提取時間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論