Chap2-基本描述方法_第1頁(yè)
Chap2-基本描述方法_第2頁(yè)
Chap2-基本描述方法_第3頁(yè)
Chap2-基本描述方法_第4頁(yè)
Chap2-基本描述方法_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

金融數(shù)據(jù)統(tǒng)計(jì)分析項(xiàng)目二由數(shù)據(jù)找關(guān)鍵(高職)Chap2_基本描述方法01背景:P2P網(wǎng)貸01知識(shí):數(shù)據(jù)描述01實(shí)踐:數(shù)據(jù)的基本描述(高職)Chap2_基本描述方法項(xiàng)目背景P2P網(wǎng)貸(高職)Chap2_基本描述方法P2P網(wǎng)貸是什么P2P網(wǎng)貸(互聯(lián)網(wǎng)金融點(diǎn)對(duì)點(diǎn)借貸平臺(tái))是指在一個(gè)開(kāi)放的網(wǎng)絡(luò)平臺(tái)上,借款人和貸款人平等參與,直接達(dá)成借款交易。P2P網(wǎng)貸平臺(tái)通過(guò)提供信息揭示、信用審核等服務(wù),取代了傳統(tǒng)銀行的中間人角色但P2P網(wǎng)貸平臺(tái)不與貸款人和借款人發(fā)生直接的債權(quán)債務(wù)關(guān)系,而是提供一種純中介性質(zhì)的服務(wù)(高職)Chap2_基本描述方法P2P網(wǎng)貸的操作方式信息發(fā)布和交易撮合P2P平臺(tái)的征信服務(wù)風(fēng)險(xiǎn)資金池第三方擔(dān)保信息披露(高職)Chap2_基本描述方法P2P網(wǎng)貸的歷史2005年:Zopa英國(guó)的RateSetter和FundingCircle、美國(guó)的Prosper、LendingClub和Kiva、德國(guó)的Smava和Auxmoney2007年:我國(guó)最早的P2P網(wǎng)貸平臺(tái)“拍拍貸”(高職)Chap2_基本描述方法信息發(fā)布和交易撮合信息發(fā)布與交易撮合是P2P網(wǎng)貸最基本的功能。資金的需求方和供給方在網(wǎng)貸平臺(tái)上注冊(cè)資金需求方發(fā)布信息資金供給方選擇項(xiàng)目網(wǎng)貸平臺(tái)是嚴(yán)格中立的第三方(高職)Chap2_基本描述方法P2P平臺(tái)的征信服務(wù)國(guó)外的P2P網(wǎng)貸平臺(tái)一般不提供征信服務(wù)。國(guó)內(nèi)因?yàn)檎餍朋w系不完善,所以大多數(shù)的P2P網(wǎng)貸平臺(tái)都需要自己提供征信服務(wù)對(duì)個(gè)人資金需求者:一般有身份認(rèn)證性質(zhì)的手機(jī)認(rèn)證、視頻認(rèn)證、身份證認(rèn)證等,還有財(cái)務(wù)狀況方面的房產(chǎn)證認(rèn)證、車輛行駛證認(rèn)證等。對(duì)公司資金需求者:包括公司文件認(rèn)證、財(cái)務(wù)狀況認(rèn)證、經(jīng)營(yíng)場(chǎng)所認(rèn)證等。目前P2P征信基本等于零,有效性存在很大問(wèn)題。(高職)Chap2_基本描述方法風(fēng)險(xiǎn)資金池風(fēng)險(xiǎn)資金池:每一筆借款,都提取一定比例的資金放入風(fēng)險(xiǎn)資金池,當(dāng)有壞賬出現(xiàn)的時(shí)候,就使用風(fēng)險(xiǎn)資金池的資金先行支付風(fēng)險(xiǎn)資金池也可理解為平臺(tái)所有資金提供者互保的保險(xiǎn)機(jī)制風(fēng)險(xiǎn)資金池的提取比例理論上應(yīng)該與壞賬率相一致(高職)Chap2_基本描述方法第三方擔(dān)保P2P網(wǎng)貸平臺(tái)通過(guò)與第三方擔(dān)保公司合作,在達(dá)成借貸交易時(shí),按比例支付給第三方擔(dān)保公司擔(dān)保費(fèi)用,擔(dān)保公司相應(yīng)承擔(dān)對(duì)這一交易的擔(dān)保責(zé)任,在借款人無(wú)法正常還款時(shí),由擔(dān)保方負(fù)責(zé)還款。然而,擔(dān)保也衍生出一系列問(wèn)題例如,P2P網(wǎng)貸平臺(tái)和擔(dān)保公司出資人為同一人或關(guān)聯(lián)公司,違背第三方宗旨。一旦平臺(tái)出現(xiàn)問(wèn)題或倒閉時(shí),擔(dān)保公司根本起不了擔(dān)保作用,第三方擔(dān)保形同虛設(shè)(高職)Chap2_基本描述方法信息披露信息披露是構(gòu)成對(duì)平臺(tái)運(yùn)營(yíng)風(fēng)險(xiǎn)評(píng)估最重要的一個(gè)方面平臺(tái)的投資者關(guān)系、經(jīng)營(yíng)管理團(tuán)隊(duì)、業(yè)務(wù)流程、交易流程、交易統(tǒng)計(jì)數(shù)據(jù)等能夠被公眾看到,才能杜絕違規(guī)操作(高職)Chap2_基本描述方法目前中國(guó)的P2P網(wǎng)貸存在的問(wèn)題小平臺(tái)魚(yú)目混雜P2P網(wǎng)絡(luò)貸款平臺(tái)日常監(jiān)管缺乏征信系統(tǒng)的嚴(yán)重缺乏信息披露和平臺(tái)安全存在問(wèn)題(高職)Chap2_基本描述方法知識(shí)要點(diǎn)數(shù)據(jù)的基本描述(高職)Chap2_基本描述方法數(shù)據(jù)分析的準(zhǔn)備工作數(shù)據(jù)的來(lái)源數(shù)據(jù)的清洗(高職)Chap2_基本描述方法數(shù)據(jù)的來(lái)源普遍調(diào)查例:全國(guó)的人口普查典型調(diào)查是專門(mén)組織的一種非全面調(diào)查抽樣調(diào)查從全體之中抽取一部分個(gè)體作為樣本,借著對(duì)樣本的觀察,再對(duì)全體做出推論。抽樣調(diào)查是數(shù)據(jù)分析過(guò)程中數(shù)據(jù)來(lái)源的典型形式。網(wǎng)絡(luò)數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)具有及時(shí)性、共享性、可靠性和客觀性,而且獲取便捷、成本低(高職)Chap2_基本描述方法網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。爬蟲(chóng)的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。(高職)Chap2_基本描述方法數(shù)據(jù)的清洗數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤,包括檢查數(shù)據(jù)一致性,處理無(wú)效值和缺失值等。需要清洗的數(shù)據(jù)包括:殘缺數(shù)據(jù):即應(yīng)該存在卻缺失的信息錯(cuò)誤數(shù)據(jù):錯(cuò)誤數(shù)據(jù)的種類很多,例如體重是負(fù)數(shù),輸入數(shù)據(jù)值時(shí)采用了全角的數(shù)值輸入,日期越界等。重復(fù)數(shù)據(jù):相同關(guān)鍵字?jǐn)?shù)據(jù)重復(fù)出現(xiàn)多次,需要將重復(fù)的數(shù)據(jù)記錄標(biāo)出并進(jìn)行整理。(高職)Chap2_基本描述方法數(shù)據(jù)清洗中的主要操作在數(shù)據(jù)清洗過(guò)程中,主要進(jìn)行兩類處理:一致性檢查和無(wú)效值(缺失值)處理。一致性檢查(consistencycheck)是根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。發(fā)現(xiàn)不一致時(shí),要列出問(wèn)卷序號(hào)、記錄序號(hào)、變量名稱、錯(cuò)誤類別等,便于進(jìn)一步核對(duì)和糾正。(高職)Chap2_基本描述方法缺失值處理方法數(shù)據(jù)中可能存在一些無(wú)效值和缺失值。常用的處理方法有:估算,整例刪除,變量刪除和成對(duì)刪除。估算(estimation):用某個(gè)變量的樣本均值、中位數(shù)或眾數(shù)代替無(wú)效值和缺失值。簡(jiǎn)單,但誤差可能較大。整例刪除(casewisedeletion):剔除含有缺失值的樣本??赡軐?dǎo)致有效樣本量大大減少。只適合關(guān)鍵變量缺失,或者含有無(wú)效值或缺失值的樣本比重很小的情況。變量刪除(variabledeletion)如果某一變量的無(wú)效值和缺失值很多,而且該變量對(duì)于所研究的問(wèn)題不是特別重要,則可以考慮將該變量刪除。這種做法減少了供分析用的變量數(shù)目,但沒(méi)有改變樣本量。成對(duì)刪除(pairwisedeletion):用一個(gè)特殊碼代表無(wú)效值和缺失值,同時(shí)保留數(shù)據(jù)集中的全部變量和樣本。這是一種保守的處理方法,最大限度地保留了數(shù)據(jù)集中的可用信息。(高職)Chap2_基本描述方法數(shù)據(jù)的排序和分組數(shù)據(jù)的排序是將一組數(shù)據(jù)按照大小、高低、優(yōu)劣等順序進(jìn)行依次排列的過(guò)程數(shù)據(jù)經(jīng)過(guò)排序,有助于了解數(shù)據(jù)大致的分布狀態(tài)數(shù)據(jù)排序是數(shù)據(jù)分組前期準(zhǔn)備數(shù)據(jù)分組是將數(shù)據(jù)按照某一特征分為不同的組別的過(guò)程數(shù)據(jù)的分組可以對(duì)非數(shù)值型數(shù)據(jù)分組,也可以對(duì)數(shù)值型數(shù)據(jù)分組(高職)Chap2_基本描述方法非數(shù)值型數(shù)據(jù)的分組非數(shù)值型數(shù)據(jù)的分組也稱為分類對(duì)于非數(shù)值型數(shù)據(jù)的分組,可以用表格、圖表展示(高職)Chap2_基本描述方法數(shù)值型數(shù)據(jù)的分組數(shù)值型數(shù)據(jù)可以是整數(shù)、實(shí)數(shù)等,對(duì)數(shù)值型數(shù)據(jù)的分組是把數(shù)據(jù)分配在不同取值區(qū)間的過(guò)程。組距是同一分組的上限與下限之間的絕對(duì)距離。

一般有:組距=上限–下限。等距分組是各組組距全部相等異距分組是各組組距不盡相等的分組方法相比異距分組的方法,更多采用的是等距分組法。(高職)Chap2_基本描述方法等距分組步驟計(jì)算取值范圍確定組數(shù)計(jì)算組距確定組限分配數(shù)據(jù)不重不漏(高職)Chap2_基本描述方法數(shù)據(jù)的圖形描述對(duì)于不同類型的數(shù)據(jù),需要選擇相匹配的圖形進(jìn)行展示,常用的圖形有柱狀圖、餅圖、折線圖和直方圖等。條形圖的使用情形:數(shù)據(jù)標(biāo)簽較長(zhǎng)、大量數(shù)據(jù)集柱狀圖的使用情形:柱形圖有利于數(shù)據(jù)的比較性展示,尤其是數(shù)據(jù)集中有負(fù)值折線圖是用直線段將各數(shù)據(jù)點(diǎn)連接起來(lái)而組成的圖形,以折線方式顯示數(shù)據(jù)的變化趨勢(shì)。折線圖常用來(lái)分析數(shù)據(jù)隨時(shí)間的變化趨勢(shì)直方圖(Histogram)(高職)Chap2_基本描述方法直方圖直方圖(Histogram)是將所收集的數(shù)據(jù)值分成幾個(gè)相等的區(qū)間作為橫軸,將各區(qū)間內(nèi)數(shù)據(jù)值所出現(xiàn)的次數(shù)累計(jì)作為縱坐標(biāo)量的一系列連接起來(lái)的直方型矩形圖。直方圖與柱狀圖的區(qū)別在于,直方圖是用面積而非高度來(lái)表示數(shù)量。柱狀圖是用條形的長(zhǎng)度表示各類別頻數(shù)的多少,其寬度僅表示類別。(高職)Chap2_基本描述方法各種圖形示例(高職)Chap2_基本描述方法繪制直方圖的步驟收集和記錄數(shù)據(jù)。確定數(shù)據(jù)的最大值和最小值。決定分組的數(shù)目。設(shè)定各組的組距。計(jì)算各組的界限位。統(tǒng)計(jì)各組數(shù)據(jù)出現(xiàn)頻數(shù),作頻數(shù)分布表。作直方圖。以組距為底長(zhǎng),以頻數(shù)為高,作各組的矩形圖。(高職)Chap2_基本描述方法直方圖的形狀正常的直方圖圖形形狀是中間高、兩邊低,左右近似對(duì)稱,它表示數(shù)據(jù)處于基本穩(wěn)定的狀態(tài)異常的直方圖種類較多,比較常見(jiàn)的有孤島型、雙峰型、折齒型、偏峰型、平頂型等。(高職)Chap2_基本描述方法數(shù)據(jù)的集中趨勢(shì)和離散程度數(shù)據(jù)的分布狀態(tài)有集中趨勢(shì)和離散程度兩個(gè)主要特征。集中趨勢(shì)描述的是數(shù)據(jù)向中心值靠攏的程度離散程度描述了觀測(cè)值偏離中心位置的趨勢(shì)。(高職)Chap2_基本描述方法數(shù)據(jù)的集中趨勢(shì)向某一中心值攏的程度,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在幾個(gè)常用代表值有均值、中位數(shù)和眾數(shù)均值:數(shù)據(jù)組中所有數(shù)值的總和除以該組數(shù)值的個(gè)數(shù)中位數(shù):將數(shù)據(jù)按大小順序排列起來(lái),形成一個(gè)數(shù)列,居于數(shù)列中間位置的那個(gè)數(shù)據(jù)眾數(shù):眾數(shù)是一組觀測(cè)值中出現(xiàn)頻率最高的值(高職)Chap2_基本描述方法均值、中位數(shù)和眾數(shù)之間的關(guān)系數(shù)據(jù)的傾斜程度正傾斜負(fù)傾斜(高職)Chap2_基本描述方法數(shù)據(jù)的離散程度常用指標(biāo)有極差、方差、標(biāo)準(zhǔn)差和離散系數(shù)等極差:樣本數(shù)據(jù)中兩個(gè)極端值之差方差與標(biāo)準(zhǔn)差:反映的是一組數(shù)據(jù)對(duì)其均值為代表的中心的某種偏離程度。(高職)Chap2_基本描述方法方差與標(biāo)準(zhǔn)差(高職)Chap2_基本描述方法離散系數(shù)測(cè)定總體中各單位標(biāo)志值變異的相對(duì)量指標(biāo)常用的離散系數(shù)主要是標(biāo)準(zhǔn)差離散系數(shù)CV

(CoefficientofVariance)(高職)Chap2_基本描述方法數(shù)據(jù)的偏態(tài)偏度:衡量數(shù)據(jù)的不對(duì)稱性衡量偏度的指標(biāo)稱為偏態(tài)系數(shù)偏態(tài)系數(shù)的值可以為正

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論