財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第5-7章 篩選財務(wù)報表數(shù)據(jù)-應(yīng)用數(shù)據(jù)篩選、合并財務(wù)報表-應(yīng)用數(shù)據(jù)合并、制作數(shù)據(jù)透視表和計算行業(yè)競爭度-應(yīng)用數(shù)據(jù)分組_第1頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第5-7章 篩選財務(wù)報表數(shù)據(jù)-應(yīng)用數(shù)據(jù)篩選、合并財務(wù)報表-應(yīng)用數(shù)據(jù)合并、制作數(shù)據(jù)透視表和計算行業(yè)競爭度-應(yīng)用數(shù)據(jù)分組_第2頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第5-7章 篩選財務(wù)報表數(shù)據(jù)-應(yīng)用數(shù)據(jù)篩選、合并財務(wù)報表-應(yīng)用數(shù)據(jù)合并、制作數(shù)據(jù)透視表和計算行業(yè)競爭度-應(yīng)用數(shù)據(jù)分組_第3頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第5-7章 篩選財務(wù)報表數(shù)據(jù)-應(yīng)用數(shù)據(jù)篩選、合并財務(wù)報表-應(yīng)用數(shù)據(jù)合并、制作數(shù)據(jù)透視表和計算行業(yè)競爭度-應(yīng)用數(shù)據(jù)分組_第4頁
財經(jīng)大數(shù)據(jù)分析-以Python為工具 課件第5-7章 篩選財務(wù)報表數(shù)據(jù)-應(yīng)用數(shù)據(jù)篩選、合并財務(wù)報表-應(yīng)用數(shù)據(jù)合并、制作數(shù)據(jù)透視表和計算行業(yè)競爭度-應(yīng)用數(shù)據(jù)分組_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Python與財經(jīng)大數(shù)據(jù)分析基礎(chǔ)第5章

篩選財務(wù)報表數(shù)據(jù)——應(yīng)用數(shù)據(jù)篩選

CONTENTS目錄5.1索引的基本類型5.2索引設(shè)定與獲取5.3Series對象的索引與切片5.4DataFrame對象的索引與切片5.5應(yīng)用實踐索引概念:當(dāng)打開一本書,我們?nèi)绾尾拍苎杆俚恼业轿覀円业街R點?索引(書的目錄)為我們提供了便利。這類似于從龐雜的關(guān)系型數(shù)據(jù)庫中找到需要的數(shù)據(jù)。通過索引,我們可以很方便的從關(guān)系型數(shù)據(jù)庫中定位數(shù)據(jù)、選擇數(shù)據(jù)和篩選數(shù)據(jù)。索引提供指向存儲在表的指定列中的數(shù)據(jù)值的指針,數(shù)據(jù)庫使用索引可以方便的找到特定值,然后順指針找到包含該值的行。DataFrame數(shù)據(jù)結(jié)構(gòu)屬于關(guān)系型數(shù)據(jù)對象,借助索引,我們可以實現(xiàn)數(shù)據(jù)的查詢、切片與篩選等。5.1索引的基本類型5.1索引的基本類型基本屬性:行索引—index列索引—columns二維數(shù)據(jù)——value5.1索引的基本類型在DataFrame中,通過各種索引可以查找、定位和選擇我們想要的數(shù)據(jù),根據(jù)對數(shù)據(jù)的檢索方式不同,又可以分為如下幾種索引:位置索引標(biāo)簽索引布爾索引5.1索引的基本類型5.1.1位置索引顧名思義,就是通過元素所處的相對位置進(jìn)行篩選和定位。也就是說,在DataFrame中,我們根據(jù)行索引(index)和列索引(columns)的相對位置信息來確定和檢索數(shù)據(jù)。在Python語言中,我們把第一行和第一列都定義為0(行或列),第二行和第二列都定義為1(行或列),并以此類推……5.1索引的基本類型例如,如果在一個3行4列的表格中,我們要想篩選和定位到黃色格子中的數(shù)據(jù),可以選擇輸入這個格子所在的相對位置進(jìn)行定位。5.1索引的基本類型5.1.2標(biāo)簽索引在DataFrame數(shù)據(jù)結(jié)構(gòu)中,我們可以對表格的行設(shè)置行標(biāo)簽(Index),對表格的列設(shè)置列標(biāo)簽(Columns),對表格中數(shù)據(jù)的定位可以通過輸入其所對應(yīng)的行列標(biāo)簽實現(xiàn)。5.1索引的基本類型我們可以將行標(biāo)簽定義為[1,2,3],將列標(biāo)簽定義為[‘w’,‘a(chǎn)’,‘n’,‘g’],那么此時通過標(biāo)簽對表格中黃色格子的數(shù)據(jù)定位為(2,‘n’)5.1索引的基本類型5.1.3布爾索引布爾索引,又叫邏輯索引,是通過借助True或False判斷來返回數(shù)據(jù)的一種方法。通過布爾索引,我們可以對DataFrame中的Value進(jìn)行邏輯判斷,然后返回條件為True的值,過濾掉條件為False的值。在數(shù)據(jù)框中,我們可以根據(jù)數(shù)據(jù)過濾數(shù)據(jù)??梢允褂貌煌倪\算符對數(shù)據(jù)框應(yīng)用某些條件,例如==、>、<、<=、>=。當(dāng)我們將這些運算符應(yīng)用于數(shù)據(jù)幀時,它會產(chǎn)生一系列True或False。5.1索引的基本類型布爾值如右表所示:根據(jù)布爾值為真的條件,返回數(shù)值,并形成一個新表。5.2索引設(shè)定與獲取5.2索引設(shè)定與獲取設(shè)定便于引用和調(diào)整的索引可以幫助我們更容易地進(jìn)行數(shù)據(jù)篩選與數(shù)據(jù)分析。在實際財會數(shù)據(jù)處理的過程中,我們往往需要將其中一列或幾列數(shù)據(jù)設(shè)為索引以方便進(jìn)行數(shù)據(jù)分析。set_index()與reset_index()兩個函數(shù)可以幫助我們非常容易地完成這類設(shè)定。5.2索引設(shè)定與獲取5.2.1set_index()set_index()函數(shù)可以將DataFrame中的某一列或某幾列設(shè)置為列索引。5.2索引設(shè)定與獲取5.2.2reset_index()在設(shè)定索引后,有時我們需要取消索引或者更換索引,這時可以使用reset_index()函數(shù)對原索引進(jìn)行重制(reset),以下是該函數(shù)的基本語法。5.2索引設(shè)定與獲取5.2.3多級索引除了簡單的一維數(shù)據(jù)和二維數(shù)據(jù),在分析財會數(shù)據(jù)時我們時常需要構(gòu)建并儲存多維數(shù)據(jù),即數(shù)據(jù)索引會超過2個鍵,例如,在處理面板數(shù)據(jù)時,行索引可能需要用公司代碼和會計年度構(gòu)成,而列索引可能由各類財務(wù)指標(biāo)名稱構(gòu)成。對此,Pandas提供了Panel和Panel4D對象解決三維數(shù)據(jù)與四維數(shù)據(jù)的構(gòu)建與索引問題。在實踐中,一般通過層級索引(hierarchicalindexing,也被稱為多級索引,multi-indexing)配合多個有不同等級(level)的一級索引一起使用,這樣可以將高維數(shù)組轉(zhuǎn)換成類似一維Series和二維DataFrame對象的形式。表5-1展示了通過多級索引表現(xiàn)三維張量的邏輯:5.2索引設(shè)定與獲取下表展示了通過多級索引表現(xiàn)三維張量的邏輯:在對面板數(shù)據(jù)進(jìn)行處理與分析時,設(shè)定多級索引可以幫助我們更方便地篩選與統(tǒng)計數(shù)據(jù)情況。5.2索引設(shè)定與獲取5.2.4布爾索引:比較與邏輯運算(1)運算符除了算數(shù)運算之外,Python中還有比較運算和邏輯運算兩類常用的運算,通常使用對應(yīng)的運算符進(jìn)行。下表展示了Python中常用的比較與邏輯運算符及其含義。5.2索引設(shè)定與獲取值得注意的是,Python中的關(guān)鍵字and、or、not也可以進(jìn)行邏輯運算,通常與邏輯運算符獲得的結(jié)果一致,但在某些情況下會有所區(qū)別。當(dāng)我們使用and或or時,相當(dāng)于讓Python判斷整個對象的真假,而&和|是指判斷對象中每個元素的布爾值。如下例所示,當(dāng)我們對A和B兩個由0和1組成的Series進(jìn)行“或”的邏輯運算時,使用運算符“|”會對其中每個元素進(jìn)行“或”的邏輯運算,其中有一個元素為1(True)即輸出1(True),而當(dāng)我們使用or進(jìn)行邏輯運算時,系統(tǒng)會報錯,提示我們整個Series對象的布爾值無法確定,因此無法進(jìn)行邏輯運算。5.2索引設(shè)定與獲?。?)Pandas的運算函數(shù)A.query()函數(shù)query()函數(shù)使用字符串代數(shù)式的作為輸入條件進(jìn)行數(shù)據(jù)篩選,輸入的字符串使用代數(shù)式的方法表示對某列特定的過濾規(guī)則。雖然query()函數(shù)形式簡潔,但是性能高且節(jié)省內(nèi)存,特別適合處理復(fù)合條件的運算。5.2索引設(shè)定與獲取B.isin()函數(shù)使用isin()函數(shù),不僅可以對整個DataFrame進(jìn)行篩選,而且可以針對DataFrame中的特定列(Series)進(jìn)行篩選,還可以用DataFrame中的某一列對另一個DataFrame中的數(shù)據(jù)進(jìn)行篩選。5.2索引設(shè)定與獲取C.between()函數(shù)有時我們需要篩選出特定范圍內(nèi)的數(shù)據(jù),例如篩選收盤價格在16.30到16.50之間的數(shù)據(jù),如果通過邏輯判斷進(jìn)行,則需要使用復(fù)合邏輯判斷語句,代碼較為繁復(fù)。Between()函數(shù)能簡化上述篩選過程,表達(dá)式也更具有可讀性,因此比較適合在需要編寫許多篩選條件時使用。=5.2索引設(shè)定與獲取(3)Pandas的字符串方法在實際處理財會數(shù)據(jù)的過程中,除了要對數(shù)值進(jìn)行比較與邏輯運算,往往還需要對字符串進(jìn)行操作和比較,提取出包含(或者不包含)某些字符的數(shù)據(jù),例如,提取出行業(yè)代碼包括“C”的公司等。使用Python的一個優(yōu)勢就是字符串處理起來比較容易,在此基礎(chǔ)上,Pandas提供了一系列處理字符串的方法,它們都是在數(shù)據(jù)篩選和清洗時不可或缺的功能。Pandas為包含字符串的Series和DataFrame提供了str屬性,既包括Python內(nèi)置的字符串方法,如len()、lower()、upper()等,又包括其他Pandas獨有的字符串方法,如get()、get_dummies()、slice()等。在這一小節(jié)中我們介紹常用的幾種字符串方法,如下表所示。5.2索引設(shè)定與獲取5.3Series對象的索引與切片5.3Series對象的索引與切片Series對象是Pandas中的由帶索引數(shù)據(jù)構(gòu)成的一維數(shù)據(jù)結(jié)構(gòu)。與NumPy的ndarray結(jié)構(gòu)類似,區(qū)別在于Series對象帶有顯式定義的索引。Series具有values和index兩個屬性,values代表值,index代表顯式定義的索引。Pandas會默認(rèn)用0到n-1的有序整數(shù)作為Series的index,但我們也可以根據(jù)需求自行指定各種類型的index。Series對象可以通過列表、數(shù)組、字典創(chuàng)建,也可以通過DataFrame中某一行或者某一列創(chuàng)建。對Series對象的獲取與選擇可以通過位置索引、標(biāo)簽索引和布爾索引進(jìn)行。5.4DataFrame對象的索引與切片5.4DataFrame對象的索引與切片在數(shù)據(jù)處理時,二維的DataFrame對象更加常見。DataFrame可以被看作是有序排列的若干Series對象,也可以被看作是帶有行索引和列索引的二維數(shù)組。DataFrame由data、index及columns構(gòu)成,data為DataFrame中存儲的數(shù)據(jù),index指定行索引,columns指定列索引。Pandas提供了一系列方法對DataFrame數(shù)據(jù)進(jìn)行篩選。利用DataFrame的行列標(biāo)簽以及隱性位置標(biāo)簽,我們可以選取某個單元格的數(shù)據(jù)、某一行(列)或某幾行(列)數(shù)據(jù)、以及某幾行的特定幾列的數(shù)據(jù)。實現(xiàn)數(shù)據(jù)篩選,既可以通過簡單的df[]的字典形式(dictionary-style)實現(xiàn),也可以使用df.loc[]、df.iloc[]、df.at[]、df.iat[]等常用的索引器(indexer)實現(xiàn)。接下來我們將對這幾種方式進(jìn)行具體講解。5.4DataFrame對象的索引與切片5.4.1字典形式選取由于DataFrame具有行標(biāo)簽和列標(biāo)簽兩種顯式索引,在進(jìn)行字典形式的數(shù)據(jù)選取時需要特別注意輸入的標(biāo)簽Pandas會理解為是行標(biāo)簽還是列標(biāo)簽,以避免篩選錯誤。具體而言,字典形式的選取可以用“df[]”的形式(df為DataFrame名稱)選取數(shù)據(jù),方括號中可以有三種輸入,包括傳入行位置索引或行標(biāo)簽表示的切片索引進(jìn)行行切片(選取多行)、傳入單個列標(biāo)簽或一組列標(biāo)簽選擇單列或一組列(選取單列或多列)、以及傳入布爾索引選取出符合條件的數(shù)據(jù)。5.4DataFrame對象的索引與切片5.4.2loc與iloc(1)locloc索引器屬性表示索引和切片操作都依賴于顯式索引,通過行標(biāo)簽或列標(biāo)簽進(jìn)行取值,其基本語法如下。5.4DataFrame對象的索引與切片5.4.2loc與iloc(2)ilociloc索引器屬性指索引和切片過程中都依賴隱式索引,通過整數(shù)形式的位置索引進(jìn)行取值,其基本語法如下。5.4DataFrame對象的索引與切片5.4.3at與iat位置定位功能中at與iat是兩種不同的索引方法,主要用于點選取。5.4DataFrame對象的索引與切片5.4.4filter()在數(shù)據(jù)處理過程中,我們有時不清楚具體的行列標(biāo)簽,或者有時想要篩選出標(biāo)簽名稱符合某些規(guī)律的行列標(biāo)簽,這時,filter()函數(shù)就派上了用場,以下是該函數(shù)的基本語法。5.4

DataFrame對象的索引與切片5.4.5np.where()與分位數(shù)索引除了前文介紹的Pandas提供的篩選方法,Numpy也提供了相應(yīng)的定位函數(shù),如where()函數(shù)5.4

DataFrame對象的索引與切片5.4.6多級索引篩選運用多級索引可以幫助我們快速地從面板數(shù)據(jù)中篩選出我們所需要的數(shù)據(jù)。與單索引類似,上文介紹的字典形式取值與loc、iloc等索引器都可以應(yīng)用在多級索引上。用元組表示索引是多級索引的基礎(chǔ)。在使用多級索引篩選數(shù)據(jù)之前,為了避免混淆導(dǎo)致的錯誤,我們首先區(qū)分在多級索引中元組和列表兩個不同的概念:5.5應(yīng)用實踐5.5應(yīng)用實踐財務(wù)報表是財務(wù)分析的基礎(chǔ),在會計實證研究中,我們常常需要用處理從數(shù)據(jù)庫中導(dǎo)出的財務(wù)報表。我們以從國泰安數(shù)據(jù)庫下載的2018年-2020年的資產(chǎn)負(fù)債表和利潤表為例,展示本節(jié)講解的各類數(shù)據(jù)篩選方法。Python與財經(jīng)大數(shù)據(jù)分析基礎(chǔ)第6章

合并財務(wù)報表——應(yīng)用數(shù)據(jù)合并

CONTENTS目錄6.1數(shù)據(jù)拼接:concat()與append()6.2數(shù)據(jù)合并:merge()與join()6.3combine_first()與update()填充6.4應(yīng)用實踐數(shù)據(jù)合并種類:1.上下拼接(縱向合并)2.左右拼接(橫向合并)合并后的數(shù)據(jù):1.交集2.并集3.左對齊4.右對齊6.1數(shù)據(jù)拼接:concat()與append()6.1數(shù)據(jù)拼接:concat()與append()6.1.1concat()函數(shù)在工作中經(jīng)常會遇到多個表進(jìn)行拼接合并的需求,在pandas中有多個拼接合并的方法,每種方法都有自己擅長的拼接方式pd.concat()函數(shù)可以沿著指定的軸將多個dataframe或者series拼接到一起通過該函數(shù)參數(shù)控制,可以實現(xiàn)多個表格上下拼接,左右拼接,內(nèi)連接和外鏈接6.1數(shù)據(jù)拼接:concat()與append()6.1數(shù)據(jù)拼接:concat()與append()6.1.2

append()函數(shù)在現(xiàn)有DataFrame后追加新的行或新的數(shù)據(jù)。具有相同列的數(shù)據(jù),追加。如果列不同,將會創(chuàng)建新列。一般用來縱向合并。6.1數(shù)據(jù)拼接:concat()與append()6.2數(shù)據(jù)合并:merge()與join()6.2數(shù)據(jù)合并:merge()與join()6.2.1merge()函數(shù)merge()是pandas最常用的合并函數(shù),能將兩張表的橫軸按共同列進(jìn)行合并。每次兩兩合并。一般用來橫向合并。6.2數(shù)據(jù)合并:merge()與join()6.2數(shù)據(jù)合并:merge()與join()6.2.1join()函數(shù)join()是依附于Series或DataFrame對象的進(jìn)行合并的方法,可以視為對pandas.merge()函數(shù)的一種快捷的方法。該方法可以指定索引或者共同列作為合并鍵將另一個Series或DataFrame對象合并到原有的對象上,多用于“一對一”和“一對多”關(guān)系下的橫向合并。6.2數(shù)據(jù)合并:merge()與join()6.3combine_first()與update()填充6.3combine_first()與update()填充6.3.1combine_first()方法使用combine_first()方法可以將一張表的非空值依據(jù)行、列索引一致的規(guī)律填充進(jìn)入另一張表的空值中,填充結(jié)果的行列索引為兩張表行列索引的并集。6.3combine_first()與update()填充6.3.2update()方法使用update()方法,可以將輸入的表中的非空值根據(jù)行列索引對齊的規(guī)則,直接填充進(jìn)原表格。與combine_first()方法相比,update()方法不會生成新的對象,而是直接改變被填充的表格,集合操作規(guī)則默認(rèn)為左連接(left)。6.4應(yīng)用實踐6.4應(yīng)用實踐在財經(jīng)大數(shù)據(jù)的分析過程中,準(zhǔn)確地合并不同來源、不同結(jié)構(gòu)的數(shù)據(jù)是必要的過程。例如,為了對公司的財務(wù)表現(xiàn)進(jìn)行綜合分析,我們往往需要合并公司的成立年份、行業(yè)、股權(quán)結(jié)構(gòu)等數(shù)據(jù),以便進(jìn)行橫向和縱向的財務(wù)指標(biāo)對比分析。下面我們以從國泰安數(shù)據(jù)庫下載的2018年-2020年的資產(chǎn)負(fù)債表、利潤表與公司基本信息表,以及第四章來自wind數(shù)據(jù)庫的股權(quán)結(jié)構(gòu)為例,展示本節(jié)講解的各類數(shù)據(jù)合并方法。Python與財經(jīng)大數(shù)據(jù)分析基礎(chǔ)第7章制作數(shù)據(jù)透視表和計算行業(yè)競爭度——應(yīng)用數(shù)據(jù)分組

CONTENTS目錄04數(shù)據(jù)排序與排名05數(shù)據(jù)分箱06應(yīng)用實踐01概述02Groupby語法03數(shù)據(jù)聚合與計算01概述根據(jù)所給數(shù)據(jù),根據(jù)特定標(biāo)簽或分類變量對整體數(shù)據(jù)進(jìn)行分組,從而實現(xiàn)數(shù)據(jù)的高效分類計算。現(xiàn)實中,我們經(jīng)常需要根據(jù)特定標(biāo)簽或字段,對整體數(shù)據(jù)進(jìn)行分組處理和操作。例如:

按照上市公司資產(chǎn)規(guī)模分兩組,計算每組市值加權(quán)平均收益率;按照公司是否被提起民事訴訟分為兩類,并統(tǒng)計他們的特征;按照班級計算學(xué)生的平均成績等等。

7.1概述(一)分組假設(shè),我們有一個數(shù)據(jù),由4000多家上市公司的日交易數(shù)據(jù)構(gòu)成。我們想分別把每一家上市公司的未來一期(t+1)的收益率return,做一個滯后(放到t期上顯示),即對數(shù)據(jù)統(tǒng)一向后遞延一期。該如何處理?

7.1概述(二)分組的應(yīng)用示例處理流程:1)選擇每一只股票;2)進(jìn)行滯后處理3)合并所有股票數(shù)據(jù)數(shù)據(jù)處理方法:1)for循環(huán)每只股票;2)利用DataFrame分組函數(shù)高效處理7.1概述(二)分組的應(yīng)用示例StkcdTrddtReturn(t)Return(t+1)X2022-11-140.010.02X2022-11-150.02-0.05X2022-11-16-0.05NaNY2022-11-150.030.01Y2022-11-160.010.06Y2022-11-170.06-0.02Y2022-11-18-0.02NaN02Groupby語法在DataFrame中,可以通過Groupby來進(jìn)行分組操作。當(dāng)調(diào)動Groupby時,它會生成一個分組對象,保存在內(nèi)存里。接著,針對這個分組對象,我們可以引用所需函數(shù)進(jìn)行分組計算。最后,再按照組別返回對應(yīng)的處理結(jié)果,形成一個新的表單。

7.2Groupby語法(一)概述如圖所示:

7.2Groupby語法(一)概述7.2Groupby語法(二)df.groupby()基本語法03數(shù)據(jù)聚合與計算7.3數(shù)據(jù)聚合與計算(一)概述在DataFrame中,引用Groupby對數(shù)據(jù)分組后,接下來就是引用相應(yīng)的方法對數(shù)據(jù)分組聚合和計算。數(shù)據(jù)聚合的常用方法agg;數(shù)據(jù)分組計算的常用函數(shù)apply,自由度最高。7.3數(shù)據(jù)聚合與計算(二)數(shù)據(jù)聚合方法——aggdf.groupby(‘Key1’).agg({‘Key4’:[np.mean,np.count]})7.3數(shù)據(jù)聚合與計算(三)數(shù)據(jù)聚合方法——applydf.groupby(‘Column’).apply(func,axis=0)該函數(shù)是基于分組后,對組層面的運算;傳入該函數(shù)的是分組后的,每一個DataFrame經(jīng)過運算后返回為新的DataFrame或Series或Scalar,最終再合并輸出為一個DataFrame?;菊Z法:func:對行或列進(jìn)行運算的函數(shù);axis:1表示對每列進(jìn)行運算,0表示對每行進(jìn)行運算;7.3數(shù)據(jù)聚合與計算(三)數(shù)據(jù)聚合方法——applydf.groupby(’class‘).apply(np.mean)classaroelevX3......Y1......Y3......X6......Y5......Z2......Z4......X9......Z6......classaroelevX3......X6......X9classaroelevY1......Y3......Y5classaroelevZ2......Z4......Z6......classaX6Y3Z404數(shù)據(jù)排序與排名7.4數(shù)據(jù)排序與排名(一)概述在DataFrame中,所謂排序,就是根據(jù)制定列或行對整體數(shù)據(jù)進(jìn)行重新排列,方便瀏覽數(shù)據(jù),也方便觀察特定變量變化趨勢,與其他變量之間的關(guān)系。所謂排名,則是根據(jù)指定列值的大小,進(jìn)行排序,根據(jù)大小排序,并不改變原數(shù)據(jù)的排列。7.4數(shù)據(jù)排序與排名(一)概述classaX2Y1Y3X6classarank_aX23Y14Y32X61classaY1X2Y3X6排序排名7.4數(shù)據(jù)排序與排名(二)數(shù)據(jù)排序DataFrame.sort_values(by,*,axis=0,ascending=True,inplace=False)主要參數(shù):by:str或listofstraxis:{0或‘index’,1或‘columns’}ascending:defaultTrue,升序排列,F(xiàn)alse是降序排列。inplace:排序后保留覆蓋原數(shù)據(jù)。DataFrame.sort_index()7.4數(shù)據(jù)排序與排名(三)數(shù)據(jù)排名DataFrame.rank(axis=0,method='average',ascending=True)主要參數(shù)說明:axis{0or‘index’,

1or‘columns’},default0method{‘a(chǎn)verage’,‘min’,‘max’,‘first’,‘dense’},default‘a(chǎn)verage’當(dāng)組內(nèi)有重復(fù)值的時候如何處理:average:組均值;min:組最小值;max:組最大值;first:

按照出現(xiàn)在數(shù)據(jù)中的先后順序;dense:類似min,但逐漸增加1。05數(shù)據(jù)分箱7.5數(shù)據(jù)排序與排名(一)概述變量分箱(binning)屬于對連續(xù)變量離散化類型中的一種,例如,信用評分系統(tǒng)中一般有常用的等距分段、等深分段、最優(yōu)分段。在資產(chǎn)定價領(lǐng)域,我們在計算famaandFrench規(guī)模因子SMB的時候,需要對規(guī)模按照中位數(shù)分為Big和Small兩類。按照價值選股因子,綜合打分,并根

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論