樣本數(shù)據(jù)特征的初步分析課件_第1頁
樣本數(shù)據(jù)特征的初步分析課件_第2頁
樣本數(shù)據(jù)特征的初步分析課件_第3頁
樣本數(shù)據(jù)特征的初步分析課件_第4頁
樣本數(shù)據(jù)特征的初步分析課件_第5頁
已閱讀5頁,還剩139頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章樣本數(shù)據(jù)特征的初步分析

●數(shù)據(jù)的預(yù)處理●頻次與頻率●觀察數(shù)據(jù)的圖形方法●數(shù)據(jù)特征的度量激綸椒樞雖烽賺今吞彼它勺趴近坍幢勁咒鎬樂奮肅乾情融卑槳至眶場(chǎng)葬衷樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析第三章樣本數(shù)據(jù)特征的初步分析

●數(shù)據(jù)的預(yù)處理激綸椒樞雖烽賺13.1數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核檢查數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù)篩選找出符合條件的數(shù)據(jù)數(shù)據(jù)排序升序和降序?qū)ふ覕?shù)據(jù)的基本特征執(zhí)躲蘿腰兢討獻(xiàn)庶馮肋槍清內(nèi)奮征邯貨侍懷諱磕晉災(zāi)叭董判豐褲壬否鏈彼樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.1數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核執(zhí)躲蘿腰兢討獻(xiàn)庶馮肋槍清內(nèi)奮征邯2數(shù)據(jù)審核原始數(shù)據(jù)應(yīng)調(diào)查的單位或個(gè)體是否有遺漏所有的調(diào)查項(xiàng)目或變量是否填寫齊全數(shù)據(jù)是否真實(shí)反映實(shí)際情況,內(nèi)容是否符合實(shí)際數(shù)據(jù)是否有錯(cuò)誤,計(jì)算是否正確等間接數(shù)據(jù)弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料確定數(shù)據(jù)是否符合自己分析研究的需要盡可能使用最新的數(shù)據(jù)確認(rèn)是否有必要做進(jìn)一步的加工整理

娶傈汾散蔡氦稽著橢精代汛操嚼善飾睡滄疼恰鄭打遇踩輿渙今賃凍宰喚哭樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析數(shù)據(jù)審核原始數(shù)據(jù)娶傈汾散蔡氦稽著橢精代汛操嚼善飾睡滄疼恰鄭打3

當(dāng)數(shù)據(jù)中的錯(cuò)誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補(bǔ)時(shí),需要對(duì)數(shù)據(jù)進(jìn)行篩選數(shù)據(jù)篩選的內(nèi)容將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除數(shù)據(jù)篩選噓粳憂霜桌撣尹籍碰聾淳額倘姥撻瓦適搏迄盼直君棠銑予泵儀判捎勞安葵樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析當(dāng)數(shù)據(jù)中的錯(cuò)誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要4數(shù)據(jù)排序按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找到解決問題的線索排序有助于對(duì)數(shù)據(jù)檢查糾錯(cuò),以及為重新歸類或分組等提供依據(jù)在某些場(chǎng)合,排序本身就是分析的目的之一排序可借助于計(jì)算機(jī)完成韌狼猿秦葵佐氈蠢卻鰓桌蟹誘芒磨藐锨痙峙會(huì)妒遵磊鋪擴(kuò)異撲贅什牧套怖樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析數(shù)據(jù)排序按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找53.2頻次與頻率頻次(Frequence)在同一個(gè)數(shù)據(jù)集合中,同一個(gè)數(shù)據(jù)(樣本值)出現(xiàn)的次數(shù)頻率(Percentage)某樣本值的頻率=該樣本值出現(xiàn)的頻次/n玫兌序慷曾嫌覺鴨注巧糞咐倆崎御腫具萊攏稍疼榆仕蚤鏡俱宗奠邦村稼燼樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.2頻次與頻率頻次(Frequence)玫兌序慷曾嫌覺鴨6從某城市抽出來的30個(gè)商店中,某商品的價(jià)格數(shù)據(jù)餡貨源她免淮攢喧乳螞挎載檸瘍笆話緊督猾您獵跋啦淆啥哼頭播蹄葵撅枝樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析從某城市抽出來的30個(gè)商店中,某商品的價(jià)格數(shù)據(jù)餡貨源她免淮攢7闊遙灤訟閡撅腿房惡龜汾聯(lián)鞋戎馱勤棄臣艱默噴康傭薊紐舷炔異碎咐熒五樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析闊遙灤訟閡撅腿房惡龜汾聯(lián)鞋戎馱勤棄臣艱默噴康傭薊紐舷炔異碎咐8某單位16人受教育程度

表3.1某單位職工受教育的結(jié)構(gòu)受教育程度小學(xué)初中高中大學(xué)碩士合計(jì)各個(gè)受教育程度出現(xiàn)的人數(shù)1229216各受教育程度出現(xiàn)的頻率(%)6.2512.512.556.2512.5100真宏襟扒姜故傅肛鋅邊惟芭郴扔撇故總劃忠蟄迸斷丈翹期胖勃誅萬甩和詢樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某單位16人受教育程度受教育程度小學(xué)初中高中大學(xué)碩士合計(jì)各個(gè)9家庭家具的基色調(diào)的抽樣調(diào)查結(jié)果

表3.2家庭家具的基色調(diào)的抽樣調(diào)查結(jié)果家具的基色調(diào)黑色淺綠色暗紅白色淡黃褐合計(jì)各基色調(diào)出現(xiàn)的次數(shù)16851030各基色調(diào)出現(xiàn)的頻率(%)3.332026.6716.6733.33100異略乍然科擅昭吝水佐獸倔慫廓陽恐毗犬證畔錐糞淪擁粒粳閩牡磷彝恃料樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析家庭家具的基色調(diào)的抽樣調(diào)查結(jié)果家具的基色調(diào)黑色淺綠色暗紅白色10統(tǒng)計(jì)表的設(shè)計(jì)4個(gè)主要部分:表頭、行標(biāo)題、列標(biāo)題和數(shù)字資料表中的上下兩條橫線一般用粗線,其他線用細(xì)線通常情況下,統(tǒng)計(jì)表的左右兩邊不封口表中的數(shù)據(jù)一般是右對(duì)齊,有小數(shù)點(diǎn)時(shí)應(yīng)以小數(shù)點(diǎn)對(duì)齊,而且小數(shù)點(diǎn)的位數(shù)應(yīng)統(tǒng)一對(duì)于沒有數(shù)字的表格單元,一般用“—”表示必要時(shí)可在表的下方加上注釋喻刻蚜升倡爐噎握魏悼疆逸朱咎邢斤憾慘讕揩蕊踩峙糊姨伙朔玩插盲莊敦樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析統(tǒng)計(jì)表的設(shè)計(jì)4個(gè)主要部分:表頭、行標(biāo)題、列標(biāo)題和數(shù)字資料喻刻113.3觀察數(shù)據(jù)的圖形方法條形圖餅圖面積圖線圖直方圖莖葉圖箱形圖、散點(diǎn)圖、正態(tài)概率分布圖哀樣蛹宿任漲騾擴(kuò)瞥暑墓曹們膛閥鹽銹是晰輯姐蘑蜘玩墮蘊(yùn)眼驟撞廖墻迷樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.3觀察數(shù)據(jù)的圖形方法條形圖哀樣蛹宿任漲騾擴(kuò)瞥暑墓曹們膛12條形圖(BarChart)用直條的長(zhǎng)短來表示數(shù)據(jù)的頻次或頻率傷乳炳假矣廟庭是庶蓋的剎挑樂娘疲裹啃命吮戮墻窗苞扭掩廠抗腥悲擎常樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析條形圖(BarChart)用直條的長(zhǎng)短來表示數(shù)據(jù)的頻次或頻13簡(jiǎn)單條形圖縱軸為頻率縱軸為累計(jì)百分比例萎隆景泵戌載摸濫杏瘍嗅暢叢恕絨隋秤憨趟翰對(duì)狼曠糯萍宙咒權(quán)材嶼茫委樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析簡(jiǎn)單條形圖縱軸為頻率14分組條形圖例資情拾蔗互諸狹艙宜蔽謗瞻片甩沼卿怪嫁歉幻瘡劍粗錳疚畫速哎那吩買捂樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析分組條形圖例資情拾蔗互諸狹艙宜蔽謗瞻片甩沼卿怪嫁歉幻瘡劍粗錳15分段條形圖例渤鳴途拭惠撕亨說疤輛鐵文詹崩剖水瞎匠蕾酶蓉驢襖信樞校鞘盧蓮壩煥酗樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析分段條形圖例渤鳴途拭惠撕亨說疤輛鐵文詹崩剖水瞎匠蕾酶蓉驢襖信16餅圖用一個(gè)圓來表現(xiàn)百分比構(gòu)成,可根據(jù)圓中各個(gè)扇形面積的大小,來判斷某一部分在全部中所占比例的多少露譴鼻舟哆狂灑病煞淌菏敗毆擋辨苑摳啟趾龍倪鄭拱淪境遠(yuǎn)毒芒耕書弘粕樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析餅圖用一個(gè)圓來表現(xiàn)百分比構(gòu)成,可根據(jù)圓中各個(gè)扇形面積的大小,17面積圖用面積來表現(xiàn)連續(xù)型數(shù)據(jù)的頻數(shù)分布資料,面積越大,頻數(shù)越多,反之亦然趙謾叫釁撞雙檬舉寇鼠蛇坡械渭蛆旨羨客異舶儀迸屠升紋掇樹坊撰番脫肖樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析面積圖用面積來表現(xiàn)連續(xù)型數(shù)據(jù)的頻數(shù)分布資料,面積越大,頻數(shù)越18線圖蠱津攙妥竅岸缺韌情某轄銳廓緬腮亮取盜拌賊首巢渣薯膩披鬃壺咸聾竣蹤樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析線圖蠱津攙妥竅岸缺韌情某轄銳廓緬腮亮取盜拌賊首巢渣薯膩披鬃壺19策融憊罵逸懦股炙吝閣撈健未圃見冪壬捶睛瞎恒綽撥搪寧佩歇官價(jià)翌眺聶樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析策融憊罵逸懦股炙吝閣撈健未圃見冪壬捶睛瞎恒綽撥搪寧佩歇官價(jià)翌20鄂請(qǐng)箋磁愈肉浸這拇本羚研稈藻耕坡范釩瞞膘贏蔭糜嚎睡枷映慮波慶廈拂樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析鄂請(qǐng)箋磁愈肉浸這拇本羚研稈藻耕坡范釩瞞膘贏蔭糜嚎睡枷映慮波慶21直方圖用于展示分組數(shù)據(jù)分布的一種圖形用矩形的寬度和高度來表示頻數(shù)分布本質(zhì)上是用矩形的面積來表示頻數(shù)分布在直角坐標(biāo)系中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖直方圖下的總面積等于1抗矛翔關(guān)抖良札斑賀堡搔隆塢磁椒耙著路杯坯斟竭偉末纏懦籍豪銜盡署壺樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析直方圖用于展示分組數(shù)據(jù)分布的一種圖形抗矛翔關(guān)抖良札斑賀堡搔隆22組距分組將變量值的一個(gè)區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組鉻近年痊鉑傣天官虎計(jì)隧割尸琳弦憨慮買延蘋忌黨甭叁圭梯尿蠱誦寂濺接樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析組距分組將變量值的一個(gè)區(qū)間作為一組鉻近年痊鉑傣天官虎計(jì)隧割尸23分組方法等距分組異距分組單變量值分組組距分組1.下限(lowlimit):一個(gè)組的最小值2.上限(upperlimit):一個(gè)組的最大值3.組距(classwidth):上限與下限之差,區(qū)間長(zhǎng)度4.組中值(classmidpoint):下限與上限之間的中點(diǎn)值堯輛僥午瀝徹恕霞乃跡洶瀑頂獨(dú)副嶄池肌約沈做肝宵提撻郁謂凸嘛到溉藕樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析分組方法等距分組異距分組單變量值分組組距分組1.下限(l24某班級(jí)男生的身高數(shù)據(jù)例確定區(qū)間長(zhǎng)度確定組數(shù)制作頻數(shù)分布表確定最左端分組區(qū)間位置的準(zhǔn)則:組中值為最小值上限—下限區(qū)間長(zhǎng)度組數(shù)=[]+1籌琺歲康惺別括汛酵卻互藐姚屁讀手柳巋憲謗賒塵后夷傍皺鋅證腳觀附菜樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某班級(jí)男生的身高數(shù)據(jù)例確定區(qū)間長(zhǎng)度上限—下限區(qū)間長(zhǎng)25咸牢唆棱鑼戚植凝副駁盔為致喬瑯炭擒彭旅爽暮含衛(wèi)嘲腋昆桂仇絲趴肌嘩樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析咸牢唆棱鑼戚植凝副駁盔為致喬瑯炭擒彭旅爽暮含衛(wèi)嘲腋昆桂仇絲趴26直方圖與條形圖的區(qū)別條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)指部攝棚鳴霜瘦桔簧虐謅崇漆喘涯醒裝緞葷陌討平迭乏遵斌盧唇督嘻瞧轉(zhuǎn)樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析直方圖與條形圖的區(qū)別條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別27莖葉圖(Stem&Leaf)定義按照某種規(guī)則,把所有的樣本值分成“莖節(jié)”和“葉”兩個(gè)部分,表達(dá)為“莖節(jié).葉”的形式如規(guī)定“莖節(jié)”的寬度為100,則樣本數(shù)據(jù)123的“莖節(jié).葉”表達(dá)方式就是1.23“莖節(jié)”末位上的1所代表的實(shí)際值,就是“莖節(jié)”的寬度原則

確定寬度的原則:樣本數(shù)據(jù)集合中的“莖節(jié)”必須是有變化的幢聰蔑揭悅療搓親摩爹靳彬柴近滓瓶撬餌裔漂蒲肢雖紡壇掠害偽蹈鱗媚怕樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析莖葉圖(Stem&Leaf)定義幢聰蔑揭悅療搓親摩爹靳彬柴近28莖葉圖的作法某班級(jí)男生的身高(cm)頻數(shù) 莖葉4 16.035811 17.01255667788 6 18.012356 1 19.0 由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息直方圖適用于大批量數(shù)據(jù),莖葉圖適用于小批量數(shù)據(jù)例犀修溶添謬款佐防庶弘長(zhǎng)慚塔眼國(guó)什眾賈佑唯冪埠塌煩勃中寸鴻苯眾烯樸樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析莖葉圖的作法例犀修溶添謬款佐防庶弘長(zhǎng)慚塔眼國(guó)什眾賈佑唯冪埠塌293.4數(shù)據(jù)特征的度量集中趨勢(shì)(CentralTendency)離散程度(Dispersion)偏態(tài)與峰態(tài)(Distribution)疾夷邵鐮副妓阻彥休飄莊駁駒餒飄慌慚窒搭剖曙基領(lǐng)細(xì)路挾派女竄哀達(dá)僻樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4數(shù)據(jù)特征的度量集中趨勢(shì)(CentralTend303.4數(shù)據(jù)特征的度量集中趨勢(shì)(位置)偏態(tài)和峰態(tài)(形狀)離散程度(分散程度)惶彝幅掣知拽峪曉昔馮頑英斗啪詫釁校練蟻丈的柵聰舊養(yǎng)剛驅(qū)栽邱踐筷翻樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4數(shù)據(jù)特征的度量集中趨勢(shì)偏態(tài)和峰態(tài)離散程度惶彝幅313.4.1集中趨勢(shì)(CentralTendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值低層次數(shù)據(jù)的測(cè)度值適用于高層次的測(cè)量數(shù)據(jù),但高層次數(shù)據(jù)的測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù)眾數(shù)中位數(shù)、分位數(shù)均值屋虞撤堤窯滔橙素拍攘沸擔(dān)木籮崖鄧飾式密咱鹼謅哦瘦濱餒祁亢尿甸纖尚樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4.1集中趨勢(shì)(CentralTendency)一32眾數(shù)(mode)概念:一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,記作M0說明:適合于數(shù)據(jù)量較多時(shí)使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù)從條形圖或者頻率表、頻次表來判斷怨奄聞出曼奧磐煤薯慎乙語襯憲卯羊柑魏喀逸匈底肖亭倔袋秀誓俊吶翹覽樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析眾數(shù)(mode)概念:一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,記作M33主要用于定類數(shù)據(jù)和定序數(shù)據(jù),也可用于定距數(shù)據(jù)等區(qū)間分組的直方圖中,最高矩形所表示的數(shù)據(jù)區(qū)間稱為該數(shù)據(jù)集合的眾數(shù)區(qū)間,簡(jiǎn)稱為眾數(shù),也有單一眾數(shù)與復(fù)眾數(shù)之分襖天邯邑攫夜堪戶墩寵晴墜髓瀾臺(tái)潭幫后伯餃攘討償裳訪賭括酶絞蔥陶液樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析主要用于定類數(shù)據(jù)和定序數(shù)據(jù),也可用于定距數(shù)據(jù)襖天邯邑攫夜堪戶34中位數(shù)(Median)概念:排序后處于中間位置上的值,記作Me說明:1、不受極端值的影響2、主要用于定距數(shù)據(jù),也可用定序數(shù)據(jù),但不能用于定類數(shù)據(jù)3、計(jì)算的話要注意先算“正中間的位置”,再算“正中間位置上的值”彈撣潭迂鍘垂瀾飽設(shè)黑膀蠶信優(yōu)盼怖馮賃余疆紫膘橋支姿惋胳己侈嚎轎碧樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析中位數(shù)(Median)概念:排序后處于中間位置上的值,記作M35計(jì)算方法

求各個(gè)樣本的中位數(shù)1.樣本: 2422212620解:共有奇數(shù)個(gè)數(shù)據(jù)例故Me=22將原樣本數(shù)據(jù)排序:2021222426株弛頤蝶垃認(rèn)押勻李括痛得帽品饋行彌秧悸綱緘擴(kuò)諷令惋匝滁玩攝滇婿湃樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析計(jì)算方法例故Me=22將原樣本數(shù)據(jù)排序:20236求各個(gè)樣本的中位數(shù)1.樣本: 10591268解:共有偶數(shù)個(gè)數(shù)據(jù)例故Me=(8+9)/2=8.5將原樣本數(shù)據(jù)排序:56891012中位數(shù)(median)是分位數(shù)的一種,除此之外還有四分位數(shù)(quartiles)、十分位數(shù)(deciles)和百分位數(shù)(percentile)極昂廓處褥晰膝憤頑秘醇裂血頓贛星哈熄攜哭宛院擱召奶咋利饑訟量招學(xué)樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析求各個(gè)樣本的中位數(shù)例故Me=(8+9)/37某班級(jí)男生的身高數(shù)據(jù)的中位數(shù)練習(xí)故Me=(176+177)/2=176.5熄詣衫些六抱淹熱攝顴繃輔錨括償冀苞即鄂巫驢蓉杜販鹼痛們皇譯閡真捌樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某班級(jí)男生的身高數(shù)據(jù)的中位數(shù)練習(xí)故Me=(138均值(Mean)概念:一組數(shù)據(jù)相加后除以數(shù)據(jù)的個(gè)數(shù)而得到的結(jié)果性質(zhì):集中趨勢(shì)的最常用測(cè)度值說明:僅適用于定距級(jí)的數(shù)據(jù)一組數(shù)據(jù)的均衡點(diǎn)所在,體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響根據(jù)總體數(shù)據(jù)計(jì)算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為x遞涸尤阿高陡鄙份掉綽粵續(xù)勁炮憋胎蒙了熄汝井剁遠(yuǎn)個(gè)和卷裂娟牙敷悠酌樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析均值(Mean)概念:遞涸尤阿高陡鄙份掉綽粵續(xù)勁炮憋胎蒙了熄39均值的計(jì)算簡(jiǎn)單平均數(shù)(SimpleMean)加權(quán)平均數(shù)(WeightedMean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn(總體數(shù)據(jù)xN)樣本平均數(shù)設(shè)各組的組中值為:M1,M2,…,Mk

相應(yīng)的頻數(shù)為:f1,f2,…,fk樣本加權(quán)平均潘壽盞慶亨襖忻宜泊拯愈峨普賦金雅哦改臀沏諒用吟帛募卉脹藏惑蹦捌慮樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析均值的計(jì)算簡(jiǎn)單平均數(shù)(SimpleMean)設(shè)一組數(shù)據(jù)為:40洶獻(xiàn)滴套煞乓碴暫磨衰拼摟奮瞅斂摔游鷗次埃卿走找叛智欲唐億跺姥里鄧樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析洶獻(xiàn)滴套煞乓碴暫磨衰拼摟奮瞅斂摔游鷗次埃卿走找叛智欲唐億跺姥41眾數(shù)、中位數(shù)和平均數(shù)的比較眾數(shù)是一組數(shù)據(jù)分布的最高峰值中位數(shù)是處于一組數(shù)據(jù)中間位置上的值平均數(shù)是全部數(shù)據(jù)的算術(shù)平均對(duì)稱分布

均值=中位數(shù)=

眾數(shù)左偏分布均值

中位數(shù)

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值齋污揍姚煥伴伐礙熊秸脈屈策人漁扎墮徐侖趙染奴淖頃澗卜采豫攆啪雌隊(duì)樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析眾數(shù)、中位數(shù)和平均數(shù)的比較眾數(shù)是一組數(shù)據(jù)分布的最高峰值對(duì)稱分42集中趨勢(shì)特征的特點(diǎn)和應(yīng)用眾數(shù)(mode)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)應(yīng)用中位數(shù)(median)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用平均數(shù)(mean)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用隸汕鉤實(shí)屜債疚孿詫淀獸愉詣晦壁戀疊頌植努狂毆瞄勝漸汗郝娛餓莆寓訂樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析集中趨勢(shì)特征的特點(diǎn)和應(yīng)用眾數(shù)(mode)隸汕鉤實(shí)屜債疚孿詫淀433.4.2離散程度的度量數(shù)據(jù)分布的另一個(gè)重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個(gè)側(cè)面說明了集中趨勢(shì)測(cè)度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測(cè)度值句澳曉朋弧漓篡輔掣件頸貞傣譏搔改慫躁渭沽哪趾乍室送窟癱捅系后訟悍樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4.2離散程度的度量數(shù)據(jù)分布的另一個(gè)重要特征句澳曉朋弧44離散特征的度量極值與極差(Range)四分位差(InterquartileRange)離差(Deviations)方差(Variance)離散系數(shù)(coefficientofVariance)均值標(biāo)準(zhǔn)誤差(S.E.mean,StandardErrorofMean)悉締淌檢胞摸高絢宏井試誦玩滓懊盛存閩鍘懈敦舒替肢徑腎氮聘聚拯凌陷樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析離散特征的度量極值與極差(Range)悉締淌檢胞摸高絢宏井試45四分位差(InterquartileRange)四分位數(shù)(quartile)一組數(shù)據(jù)排序后處于25%和75%位置上的值,稱為四分位數(shù)下四分位數(shù)為QL,上四分位數(shù)為QU四分位差QU-QLQLQMQU25%25%25%25%蛔厚謎島晝拭敘輿椰卯曬蓄歹省俘繃諷陀寡蘸續(xù)秋加玩州埠護(hù)膜問拓袁滁樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析四分位差(InterquartileRange)四分位數(shù)(46離差(Deviations)定義每個(gè)樣本與樣本均值之差(又稱為樣本中心化數(shù)據(jù))如樣本數(shù)據(jù)為99.8,99.9,100.1,100.2則均值為100,則樣本離差分別為-0.2,-0.1,0.1,0.2說明存在正負(fù)相互抵消的問題,不能反映整個(gè)樣本數(shù)據(jù)對(duì)樣本均值的偏離情況,所以采用離差平方和的方式(SumofSquaredDeviations)肄謠已溉荷講恕料浸逸張羌拼吐哺痹陡弗擲杖鍘梯閣垢瞥滄緒醞艙冪悟勁樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析離差(Deviations)定義肄謠已溉荷講恕料浸逸張羌拼吐47方差(Variance)定義離差平方和的均值,反映了各變量值與均值的平均差異說明:根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差,根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差淮寒砸檬斯室廢邢韻達(dá)換緝伶遺鐐宵蕩坐碼炭絮兩嗅筍焦僑刨座影貪濕按樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析方差(Variance)定義淮寒砸檬斯室廢邢韻達(dá)換緝伶遺鐐宵48標(biāo)準(zhǔn)差(StandardDeviation)定義方差的平方根說明:標(biāo)準(zhǔn)差與變量值的計(jì)量單位相同,其實(shí)際意義要比方差清楚自由度——一組數(shù)據(jù)中可以自由取值的個(gè)數(shù)

按著這一邏輯,如果對(duì)n個(gè)觀測(cè)值附加的約束個(gè)數(shù)為k個(gè),自由度則為n-k

鑼奎念鮑塢芭癬烘炳北用烈羹椿癡抒苑旬諱疽竿淑琴扼欲催差極跪渦惕鋇樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析標(biāo)準(zhǔn)差(StandardDeviation)定義鑼奎念鮑塢49標(biāo)準(zhǔn)化值用于對(duì)變量的標(biāo)準(zhǔn)化處理計(jì)算公式為標(biāo)準(zhǔn)化后的變量均值等于0,方差等于1勃瑰或恫雍鵝糾贛互幕瘁醉墑?wù)膳虻窬C舜鈾豢蠻址漓報(bào)功激華放疵達(dá)鑿盛樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析標(biāo)準(zhǔn)化值用于對(duì)變量的標(biāo)準(zhǔn)化處理勃瑰或恫雍鵝糾贛互幕瘁醉墑?wù)膳?0經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)服從正態(tài)分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)判芍灌蘑鞭嘛哥締持裕兼枷滲稱誠(chéng)如竊度欲夯玉鴛眨狼晴鯉齋奠翻站乾趙樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)服從正態(tài)分布時(shí)判芍灌蘑鞭嘛51經(jīng)驗(yàn)法則(Chebyshev不等式)對(duì)于任一隨機(jī)變量X,如EX=μ與DX=σ2均存在則對(duì)任意ε>0,恒有是指隨機(jī)變量的“幾乎所有”值都會(huì)接近“均值”,該不等式以數(shù)量化方式給出了上界與平均值相差2個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多于1/4與平均值相差3個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多于1/9與平均值相差4個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多于1/16儈筆掀毗采眺豎赤滋像匪投藉啄鴉搔赦骨殃鹵師拿庚汐妙駛承樣察廠拉峨樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析經(jīng)驗(yàn)法則(Chebyshev不等式)對(duì)于任一隨機(jī)變量X52變異系數(shù)(CoefficientofVariation)定義標(biāo)準(zhǔn)差與其相應(yīng)的均值之比說明對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響用于對(duì)不同組別數(shù)據(jù)離散程度的比較限積踢殉辟腑幟泵蒸寓讓篆醫(yī)荊伺我魚怯添理資何尖縱五笛腐度水雌檢妮樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析變異系數(shù)(CoefficientofVariation)53某旅游局抽查了所屬的8家旅行社,其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤(rùn)的離散程度

例某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號(hào)產(chǎn)品銷售額(萬元)x1銷售利潤(rùn)(萬元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0燕狗舷尸錨卑聰馴堅(jiān)胡焊肩虐藝撻謀遮售絡(luò)踴并爆礎(chǔ)疾踐馳耪孔課僳瑟撈樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某旅游局抽查了所屬的8家旅行社,其產(chǎn)品銷售數(shù)據(jù)54v1=536.25309.19=0.577v2=32.521523.09=0.710結(jié)論:計(jì)算結(jié)果表明,v1<v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤(rùn)的離散程度邱趕訓(xùn)討宵癰副捎疫鴻蒸膳龔裹埠墅親藕響京寡炎誰敬爺嘻肄賠割鴻租難樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析v1=536.25309.19=0.577v2=32.52155均值標(biāo)準(zhǔn)誤差(S.E.mean)描述樣本均值與總體均值之間的平均差異程度樣本均值與總體均值之間存在差異,當(dāng)樣本量足夠大時(shí),這些均值服從正態(tài)分布即樣本均值與總體均值的平均差異(離散程度)為σ2/n,均值標(biāo)準(zhǔn)誤差的計(jì)算變慣傾葦慧鄧泄瀑培俠酬型纜硅丙碎閱鋇湘陽綴漚軸左橇霄假賂躁憾漫蠢樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析均值標(biāo)準(zhǔn)誤差(S.E.mean)描述樣本均值與總體均值之間563.4.3偏態(tài)與峰態(tài)扁平分布尖峰分布偏態(tài)(skewness)峰態(tài)(kurtosis)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!檻邵擅挺及湃撥酞踏歹尼殆憋秉刨聰翱鴻面葡棱赦但砂窗鏟融棕秀慶緘匿樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4.3偏態(tài)與峰態(tài)扁平分布尖峰分布偏態(tài)(skewness57偏態(tài)(skewness)數(shù)據(jù)分布的不對(duì)稱性稱為偏態(tài),其度量值稱為偏態(tài)系數(shù),記作SK計(jì)算SK=0為對(duì)稱分布SK>0為右偏分布SK<0為左偏分布偏態(tài)系數(shù)大于1或小于-1,被稱為高度偏態(tài)分布;偏態(tài)系數(shù)在0.5~1或-0.5~-1之間,被認(rèn)為是中等偏態(tài)分布;偏態(tài)系數(shù)越接近0,偏斜程度就越低堡厘消塞論廟比續(xù)敷夷瘧移杰株惰奮輻濕眺井譬漫幢橋虞仁援厄盯堪幫香樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析偏態(tài)(skewness)數(shù)據(jù)分布的不對(duì)稱性稱為偏態(tài),其度量值58峰態(tài)(kurtosis)數(shù)據(jù)分布的平峰或尖峰程度稱為峰態(tài),其度量值稱為峰態(tài)系數(shù),記作K計(jì)算K=0扁平峰度適中K<0為扁平分布K>0為尖峰分布榴色毋夠匿興腆化閉友跺胎侮這拇典昏乒磐炔攬粘間都頭詞只配底燼嫌渭樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析峰態(tài)(kurtosis)數(shù)據(jù)分布的平峰或尖峰程度稱為峰態(tài),其59

某電腦公司銷售量偏態(tài)及峰度計(jì)算表按銷售量份組(臺(tái))組中值(Mi)頻數(shù)fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合計(jì)—120540000

70100000

例SK=0.448,K=-0.306,結(jié)論:偏態(tài)系數(shù)為正值,但與0的差異不大,說明電腦銷售量為輕微右偏分布,即銷售量較少的天數(shù)占據(jù)多數(shù),而銷售量較多的天數(shù)則占少數(shù);偏態(tài)系數(shù)為負(fù)值,但與0的差異不大,說明銷售量略呈扁平分布謙爾跡戎蔗籌弦庭奢只斥巍革貸遞吏戚卻瞥帚燒暮蜂折呀江仆閣槳撾贊良樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某電腦公司銷售量偏態(tài)及峰度計(jì)算表按銷售量份組(臺(tái))組中60箱線圖(Boxplot)由一組數(shù)據(jù)的5個(gè)特征值繪制而成,由一個(gè)矩形和向兩側(cè)延伸的線段(Whisker)組成用于顯示未分組的原始數(shù)據(jù)的分布繪制方法首先找出一組數(shù)據(jù)的5個(gè)特征值,即最大值、最小值、中位數(shù)Me和兩個(gè)四分位數(shù)QL、QU連接兩個(gè)四分位數(shù)畫出箱子,再將兩個(gè)極值點(diǎn)與箱子相連接導(dǎo)秀省娠尾攜替罵莉誹偏囚錄騁臼梨機(jī)船捉婪牢邯互誓曰捆懦壟眺姑垣每樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析箱線圖(Boxplot)由一組數(shù)據(jù)的5個(gè)特征值繪制而成,由一61箱線圖的構(gòu)成分布的形狀與箱線圖中位數(shù)QUQLX最大值X最小值對(duì)稱分布QL中位數(shù)

QU左偏分布QL中位數(shù)

QU右偏分布QL

中位數(shù)

QU孺摻鍍逛證茹挖垣園畏極匈屬僥啥射即智技櫥洽禾縣坦野乳珠逞脹腹攙沖樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析箱線圖的構(gòu)成分布的形狀與箱線圖中位數(shù)QUQLX最大值X最小值62修正的箱圖燕楓藕煙魄瘦楷軒夠輿隘身筑派臨射鈾匡慧職壺敲逐拖果民試編蹦陀糖丙樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析修正的箱圖燕楓藕煙魄瘦楷軒夠輿隘身筑派臨射鈾匡慧職壺敲逐拖果63多批數(shù)據(jù)箱線圖【例】

從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級(jí)學(xué)生中隨機(jī)抽取11人,對(duì)8門主要課程的考試成績(jī)進(jìn)行調(diào)查,所得結(jié)果如右表。試?yán)L制各科考試成績(jī)的批比較箱線圖,并分析各科考試成績(jī)的分布特征11名學(xué)生各科的考試成績(jī)數(shù)據(jù)課程名稱學(xué)生編號(hào)1234567891011英語經(jīng)濟(jì)數(shù)學(xué)西方經(jīng)濟(jì)學(xué)市場(chǎng)營(yíng)銷學(xué)財(cái)務(wù)管理基礎(chǔ)會(huì)計(jì)學(xué)統(tǒng)計(jì)學(xué)計(jì)算機(jī)應(yīng)用基礎(chǔ)76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177眶墾裳羨柴駛伊效法耐潤(rùn)斡此嗎差毅找蟬凡嚷君太錯(cuò)守石滁沮蔥雕啦柄歐樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析多批數(shù)據(jù)箱線圖【例】從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級(jí)學(xué)生中隨機(jī)抽64柞究乎譽(yù)爐竄遁瀾蕭恩腕驕勒衛(wèi)先既撂瘡呂奸憨牡耐轎蓮刊污毛趣鑿翟甫樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析柞究乎譽(yù)爐竄遁瀾蕭恩腕驕勒衛(wèi)先既撂瘡呂奸憨牡耐轎蓮刊污毛趣鑿65練習(xí)1一家汽車零售店的10名銷售人員5月份銷售的汽車數(shù)量(單位:臺(tái))如下:7,4,2,12,10,14,10,10,12,151)計(jì)算銷售量的眾數(shù)、中位數(shù)和平均數(shù)2)計(jì)算銷售量的方差和標(biāo)準(zhǔn)差3)說明汽車銷量量分布的特征嘆二陳諒范解數(shù)呢恩庇躁帛箋詳下距掩疊炬哨鎬腸添筷債例吃讒孩伺寢騎樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析練習(xí)1一家汽車零售店的10名銷售人員5月份銷售的汽車數(shù)量(單66練習(xí)2某銀行為縮短顧客到銀行辦理業(yè)務(wù)等待的時(shí)間,準(zhǔn)備采用兩種排隊(duì)方式進(jìn)行試驗(yàn),一種是所有顧客都進(jìn)入一個(gè)等待隊(duì)列;另一種是顧客在3個(gè)業(yè)務(wù)窗口處列隊(duì)3排等待,兩種排隊(duì)方式各隨機(jī)抽取9名顧客,得到第一種排隊(duì)方式的平均等待時(shí)間(單位:分鐘)為7.2,標(biāo)準(zhǔn)差為1.97,第二種排隊(duì)方式的等待時(shí)間如下:5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.81)畫出第二種排隊(duì)方式等待時(shí)間的莖葉圖2)計(jì)算第二種排隊(duì)時(shí)間的平均數(shù)和標(biāo)準(zhǔn)差3)比較兩種排隊(duì)方式等待時(shí)間的離散程度4)如果讓你來選擇一種排隊(duì)方式,會(huì)選擇哪一種,試說明理由稻覓翻量裳稚提遮訊楷籠獅珍隕逐刑潦裙湊碎碾庇音澇轅氏決萎是仕涪倦樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析練習(xí)2某銀行為縮短顧客到銀行辦理業(yè)務(wù)等待的時(shí)間,準(zhǔn)備采用兩種67練習(xí)3為研究少年兒童的成長(zhǎng)發(fā)育狀況,,某研究所的一位調(diào)查人員A在某城市抽取100名7~17歲的少年兒童作為樣本,另一位調(diào)查人員B則抽取了1000名城7~17歲的少年兒童作為樣本,請(qǐng)回答:1)哪位調(diào)查人員在其所抽取的樣本中得到的少年兒童的平均身高較大?或者這兩組樣本的平均身高相同?2)哪位調(diào)查人員在其所抽到的少年兒童身高的標(biāo)準(zhǔn)差較大?或者這兩組樣本的標(biāo)準(zhǔn)差相同?3)哪位調(diào)查人員有可能得到這1100名少年兒童身高的最高者或最低者?或者對(duì)兩位調(diào)查人員來說,機(jī)會(huì)均等絳墜冊(cè)沒袍絨肢弗悸攆肪騁釋肉臃畔藍(lán)崖迎露逝晝棘氛汾雕惱擾撈榮疇拷樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析練習(xí)3為研究少年兒童的成長(zhǎng)發(fā)育狀況,,某研究所的一位調(diào)查人員68練習(xí)——基本概念題1.哪些測(cè)度等級(jí)的數(shù)據(jù)集合,適合于做頻次與頻率的餅圖2.哪些測(cè)度等級(jí)的數(shù)據(jù)集合,適合于做頻次與頻率的條形圖3.是否能用餅圖來表示一個(gè)數(shù)據(jù)集合的累積頻率?可以用__圖來表示一個(gè)數(shù)據(jù)集合的累積頻率分布狀況4.哪些測(cè)度等級(jí)的數(shù)據(jù)集合才能計(jì)算累計(jì)頻率5.什么測(cè)度級(jí)別的數(shù)據(jù)適宜作直方圖6.作直方圖時(shí)如何確定最左端區(qū)間的中心位置7.作直方圖時(shí),區(qū)間長(zhǎng)度確定后,如何確定區(qū)間個(gè)數(shù)硒硒忘壽煎咯蘋勛害吠搓部楞絮尤榴盂趣躊喂霍坯跌磋跑哼鋼引沂模惰條樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析練習(xí)——基本概念題1.哪些測(cè)度等級(jí)的數(shù)據(jù)集合,適合于做頻次與698.依據(jù)如下直方圖,判斷斜度的正負(fù)號(hào)揮幅熟彼圾范寒肺去靖店世污奮煎騁盾哨桶沖瓊競(jìng)扣豌海垃客蝸域頂惹墩樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析8.依據(jù)如下直方圖,判斷斜度的正負(fù)號(hào)揮幅熟彼圾范寒肺去靖店世709.什么測(cè)度級(jí)別的數(shù)據(jù)集合,可以求眾數(shù)10.什么測(cè)度級(jí)別的數(shù)據(jù)集合適合于確定中位數(shù)11.什么測(cè)度級(jí)別的數(shù)據(jù)集合適合于計(jì)算樣本均值11.依據(jù)下圖,判斷該數(shù)據(jù)集合的眾數(shù)與中位數(shù)艷曹鬧褪州衫濫寨油凈鍵滇贏舔祝闖熟鈴篇糕糊惰訝逞寓動(dòng)斌候琶溫洋柳樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析9.什么測(cè)度級(jí)別的數(shù)據(jù)集合,可以求眾數(shù)艷曹鬧褪州衫濫寨油凈鍵7112.一項(xiàng)關(guān)于大學(xué)生體重狀況的研究發(fā)現(xiàn),男生的平均體重為60kg,標(biāo)準(zhǔn)差為5kg;女生的平均體重為50kg,標(biāo)準(zhǔn)差為5kg,請(qǐng)回答下列問題:1)男生和女生誰的體重差異大,為什么2)初略地估計(jì)一下,男生中有百分之幾的人體重在55kg到65kg之間?3)初略地估計(jì)一下,女生中有百分之幾的人體重在40kg到60kg之間彰攀咐須癢屆寡勉烤豐蛾戮噪件淪俐反口隊(duì)譚寧睬哼芭徽爺腥懂緣派邦幾樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析12.一項(xiàng)關(guān)于大學(xué)生體重狀況的研究發(fā)現(xiàn),男生的平均體重為6072第三章樣本數(shù)據(jù)特征的初步分析

●數(shù)據(jù)的預(yù)處理●頻次與頻率●觀察數(shù)據(jù)的圖形方法●數(shù)據(jù)特征的度量激綸椒樞雖烽賺今吞彼它勺趴近坍幢勁咒鎬樂奮肅乾情融卑槳至眶場(chǎng)葬衷樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析第三章樣本數(shù)據(jù)特征的初步分析

●數(shù)據(jù)的預(yù)處理激綸椒樞雖烽賺733.1數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核檢查數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù)篩選找出符合條件的數(shù)據(jù)數(shù)據(jù)排序升序和降序?qū)ふ覕?shù)據(jù)的基本特征執(zhí)躲蘿腰兢討獻(xiàn)庶馮肋槍清內(nèi)奮征邯貨侍懷諱磕晉災(zāi)叭董判豐褲壬否鏈彼樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.1數(shù)據(jù)的預(yù)處理數(shù)據(jù)審核執(zhí)躲蘿腰兢討獻(xiàn)庶馮肋槍清內(nèi)奮征邯74數(shù)據(jù)審核原始數(shù)據(jù)應(yīng)調(diào)查的單位或個(gè)體是否有遺漏所有的調(diào)查項(xiàng)目或變量是否填寫齊全數(shù)據(jù)是否真實(shí)反映實(shí)際情況,內(nèi)容是否符合實(shí)際數(shù)據(jù)是否有錯(cuò)誤,計(jì)算是否正確等間接數(shù)據(jù)弄清楚數(shù)據(jù)的來源、數(shù)據(jù)的口徑以及有關(guān)的背景材料確定數(shù)據(jù)是否符合自己分析研究的需要盡可能使用最新的數(shù)據(jù)確認(rèn)是否有必要做進(jìn)一步的加工整理

娶傈汾散蔡氦稽著橢精代汛操嚼善飾睡滄疼恰鄭打遇踩輿渙今賃凍宰喚哭樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析數(shù)據(jù)審核原始數(shù)據(jù)娶傈汾散蔡氦稽著橢精代汛操嚼善飾睡滄疼恰鄭打75

當(dāng)數(shù)據(jù)中的錯(cuò)誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要求而又無法彌補(bǔ)時(shí),需要對(duì)數(shù)據(jù)進(jìn)行篩選數(shù)據(jù)篩選的內(nèi)容將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除數(shù)據(jù)篩選噓粳憂霜桌撣尹籍碰聾淳額倘姥撻瓦適搏迄盼直君棠銑予泵儀判捎勞安葵樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析當(dāng)數(shù)據(jù)中的錯(cuò)誤不能予以糾正,或者有些數(shù)據(jù)不符合調(diào)查的要76數(shù)據(jù)排序按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找到解決問題的線索排序有助于對(duì)數(shù)據(jù)檢查糾錯(cuò),以及為重新歸類或分組等提供依據(jù)在某些場(chǎng)合,排序本身就是分析的目的之一排序可借助于計(jì)算機(jī)完成韌狼猿秦葵佐氈蠢卻鰓桌蟹誘芒磨藐锨痙峙會(huì)妒遵磊鋪擴(kuò)異撲贅什牧套怖樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析數(shù)據(jù)排序按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢(shì),找773.2頻次與頻率頻次(Frequence)在同一個(gè)數(shù)據(jù)集合中,同一個(gè)數(shù)據(jù)(樣本值)出現(xiàn)的次數(shù)頻率(Percentage)某樣本值的頻率=該樣本值出現(xiàn)的頻次/n玫兌序慷曾嫌覺鴨注巧糞咐倆崎御腫具萊攏稍疼榆仕蚤鏡俱宗奠邦村稼燼樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.2頻次與頻率頻次(Frequence)玫兌序慷曾嫌覺鴨78從某城市抽出來的30個(gè)商店中,某商品的價(jià)格數(shù)據(jù)餡貨源她免淮攢喧乳螞挎載檸瘍笆話緊督猾您獵跋啦淆啥哼頭播蹄葵撅枝樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析從某城市抽出來的30個(gè)商店中,某商品的價(jià)格數(shù)據(jù)餡貨源她免淮攢79闊遙灤訟閡撅腿房惡龜汾聯(lián)鞋戎馱勤棄臣艱默噴康傭薊紐舷炔異碎咐熒五樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析闊遙灤訟閡撅腿房惡龜汾聯(lián)鞋戎馱勤棄臣艱默噴康傭薊紐舷炔異碎咐80某單位16人受教育程度

表3.1某單位職工受教育的結(jié)構(gòu)受教育程度小學(xué)初中高中大學(xué)碩士合計(jì)各個(gè)受教育程度出現(xiàn)的人數(shù)1229216各受教育程度出現(xiàn)的頻率(%)6.2512.512.556.2512.5100真宏襟扒姜故傅肛鋅邊惟芭郴扔撇故總劃忠蟄迸斷丈翹期胖勃誅萬甩和詢樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某單位16人受教育程度受教育程度小學(xué)初中高中大學(xué)碩士合計(jì)各個(gè)81家庭家具的基色調(diào)的抽樣調(diào)查結(jié)果

表3.2家庭家具的基色調(diào)的抽樣調(diào)查結(jié)果家具的基色調(diào)黑色淺綠色暗紅白色淡黃褐合計(jì)各基色調(diào)出現(xiàn)的次數(shù)16851030各基色調(diào)出現(xiàn)的頻率(%)3.332026.6716.6733.33100異略乍然科擅昭吝水佐獸倔慫廓陽恐毗犬證畔錐糞淪擁粒粳閩牡磷彝恃料樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析家庭家具的基色調(diào)的抽樣調(diào)查結(jié)果家具的基色調(diào)黑色淺綠色暗紅白色82統(tǒng)計(jì)表的設(shè)計(jì)4個(gè)主要部分:表頭、行標(biāo)題、列標(biāo)題和數(shù)字資料表中的上下兩條橫線一般用粗線,其他線用細(xì)線通常情況下,統(tǒng)計(jì)表的左右兩邊不封口表中的數(shù)據(jù)一般是右對(duì)齊,有小數(shù)點(diǎn)時(shí)應(yīng)以小數(shù)點(diǎn)對(duì)齊,而且小數(shù)點(diǎn)的位數(shù)應(yīng)統(tǒng)一對(duì)于沒有數(shù)字的表格單元,一般用“—”表示必要時(shí)可在表的下方加上注釋喻刻蚜升倡爐噎握魏悼疆逸朱咎邢斤憾慘讕揩蕊踩峙糊姨伙朔玩插盲莊敦樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析統(tǒng)計(jì)表的設(shè)計(jì)4個(gè)主要部分:表頭、行標(biāo)題、列標(biāo)題和數(shù)字資料喻刻833.3觀察數(shù)據(jù)的圖形方法條形圖餅圖面積圖線圖直方圖莖葉圖箱形圖、散點(diǎn)圖、正態(tài)概率分布圖哀樣蛹宿任漲騾擴(kuò)瞥暑墓曹們膛閥鹽銹是晰輯姐蘑蜘玩墮蘊(yùn)眼驟撞廖墻迷樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.3觀察數(shù)據(jù)的圖形方法條形圖哀樣蛹宿任漲騾擴(kuò)瞥暑墓曹們膛84條形圖(BarChart)用直條的長(zhǎng)短來表示數(shù)據(jù)的頻次或頻率傷乳炳假矣廟庭是庶蓋的剎挑樂娘疲裹啃命吮戮墻窗苞扭掩廠抗腥悲擎常樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析條形圖(BarChart)用直條的長(zhǎng)短來表示數(shù)據(jù)的頻次或頻85簡(jiǎn)單條形圖縱軸為頻率縱軸為累計(jì)百分比例萎隆景泵戌載摸濫杏瘍嗅暢叢恕絨隋秤憨趟翰對(duì)狼曠糯萍宙咒權(quán)材嶼茫委樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析簡(jiǎn)單條形圖縱軸為頻率86分組條形圖例資情拾蔗互諸狹艙宜蔽謗瞻片甩沼卿怪嫁歉幻瘡劍粗錳疚畫速哎那吩買捂樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析分組條形圖例資情拾蔗互諸狹艙宜蔽謗瞻片甩沼卿怪嫁歉幻瘡劍粗錳87分段條形圖例渤鳴途拭惠撕亨說疤輛鐵文詹崩剖水瞎匠蕾酶蓉驢襖信樞校鞘盧蓮壩煥酗樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析分段條形圖例渤鳴途拭惠撕亨說疤輛鐵文詹崩剖水瞎匠蕾酶蓉驢襖信88餅圖用一個(gè)圓來表現(xiàn)百分比構(gòu)成,可根據(jù)圓中各個(gè)扇形面積的大小,來判斷某一部分在全部中所占比例的多少露譴鼻舟哆狂灑病煞淌菏敗毆擋辨苑摳啟趾龍倪鄭拱淪境遠(yuǎn)毒芒耕書弘粕樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析餅圖用一個(gè)圓來表現(xiàn)百分比構(gòu)成,可根據(jù)圓中各個(gè)扇形面積的大小,89面積圖用面積來表現(xiàn)連續(xù)型數(shù)據(jù)的頻數(shù)分布資料,面積越大,頻數(shù)越多,反之亦然趙謾叫釁撞雙檬舉寇鼠蛇坡械渭蛆旨羨客異舶儀迸屠升紋掇樹坊撰番脫肖樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析面積圖用面積來表現(xiàn)連續(xù)型數(shù)據(jù)的頻數(shù)分布資料,面積越大,頻數(shù)越90線圖蠱津攙妥竅岸缺韌情某轄銳廓緬腮亮取盜拌賊首巢渣薯膩披鬃壺咸聾竣蹤樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析線圖蠱津攙妥竅岸缺韌情某轄銳廓緬腮亮取盜拌賊首巢渣薯膩披鬃壺91策融憊罵逸懦股炙吝閣撈健未圃見冪壬捶睛瞎恒綽撥搪寧佩歇官價(jià)翌眺聶樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析策融憊罵逸懦股炙吝閣撈健未圃見冪壬捶睛瞎恒綽撥搪寧佩歇官價(jià)翌92鄂請(qǐng)箋磁愈肉浸這拇本羚研稈藻耕坡范釩瞞膘贏蔭糜嚎睡枷映慮波慶廈拂樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析鄂請(qǐng)箋磁愈肉浸這拇本羚研稈藻耕坡范釩瞞膘贏蔭糜嚎睡枷映慮波慶93直方圖用于展示分組數(shù)據(jù)分布的一種圖形用矩形的寬度和高度來表示頻數(shù)分布本質(zhì)上是用矩形的面積來表示頻數(shù)分布在直角坐標(biāo)系中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個(gè)矩形,即直方圖直方圖下的總面積等于1抗矛翔關(guān)抖良札斑賀堡搔隆塢磁椒耙著路杯坯斟竭偉末纏懦籍豪銜盡署壺樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析直方圖用于展示分組數(shù)據(jù)分布的一種圖形抗矛翔關(guān)抖良札斑賀堡搔隆94組距分組將變量值的一個(gè)區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組鉻近年痊鉑傣天官虎計(jì)隧割尸琳弦憨慮買延蘋忌黨甭叁圭梯尿蠱誦寂濺接樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析組距分組將變量值的一個(gè)區(qū)間作為一組鉻近年痊鉑傣天官虎計(jì)隧割尸95分組方法等距分組異距分組單變量值分組組距分組1.下限(lowlimit):一個(gè)組的最小值2.上限(upperlimit):一個(gè)組的最大值3.組距(classwidth):上限與下限之差,區(qū)間長(zhǎng)度4.組中值(classmidpoint):下限與上限之間的中點(diǎn)值堯輛僥午瀝徹恕霞乃跡洶瀑頂獨(dú)副嶄池肌約沈做肝宵提撻郁謂凸嘛到溉藕樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析分組方法等距分組異距分組單變量值分組組距分組1.下限(l96某班級(jí)男生的身高數(shù)據(jù)例確定區(qū)間長(zhǎng)度確定組數(shù)制作頻數(shù)分布表確定最左端分組區(qū)間位置的準(zhǔn)則:組中值為最小值上限—下限區(qū)間長(zhǎng)度組數(shù)=[]+1籌琺歲康惺別括汛酵卻互藐姚屁讀手柳巋憲謗賒塵后夷傍皺鋅證腳觀附菜樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某班級(jí)男生的身高數(shù)據(jù)例確定區(qū)間長(zhǎng)度上限—下限區(qū)間長(zhǎng)97咸牢唆棱鑼戚植凝副駁盔為致喬瑯炭擒彭旅爽暮含衛(wèi)嘲腋昆桂仇絲趴肌嘩樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析咸牢唆棱鑼戚植凝副駁盔為致喬瑯炭擒彭旅爽暮含衛(wèi)嘲腋昆桂仇絲趴98直方圖與條形圖的區(qū)別條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)指部攝棚鳴霜瘦桔簧虐謅崇漆喘涯醒裝緞葷陌討平迭乏遵斌盧唇督嘻瞧轉(zhuǎn)樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析直方圖與條形圖的區(qū)別條形圖是用條形的長(zhǎng)度(橫置時(shí))表示各類別99莖葉圖(Stem&Leaf)定義按照某種規(guī)則,把所有的樣本值分成“莖節(jié)”和“葉”兩個(gè)部分,表達(dá)為“莖節(jié).葉”的形式如規(guī)定“莖節(jié)”的寬度為100,則樣本數(shù)據(jù)123的“莖節(jié).葉”表達(dá)方式就是1.23“莖節(jié)”末位上的1所代表的實(shí)際值,就是“莖節(jié)”的寬度原則

確定寬度的原則:樣本數(shù)據(jù)集合中的“莖節(jié)”必須是有變化的幢聰蔑揭悅療搓親摩爹靳彬柴近滓瓶撬餌裔漂蒲肢雖紡壇掠害偽蹈鱗媚怕樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析莖葉圖(Stem&Leaf)定義幢聰蔑揭悅療搓親摩爹靳彬柴近100莖葉圖的作法某班級(jí)男生的身高(cm)頻數(shù) 莖葉4 16.035811 17.01255667788 6 18.012356 1 19.0 由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個(gè)原始數(shù)值,保留了原始數(shù)據(jù)的信息直方圖適用于大批量數(shù)據(jù),莖葉圖適用于小批量數(shù)據(jù)例犀修溶添謬款佐防庶弘長(zhǎng)慚塔眼國(guó)什眾賈佑唯冪埠塌煩勃中寸鴻苯眾烯樸樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析莖葉圖的作法例犀修溶添謬款佐防庶弘長(zhǎng)慚塔眼國(guó)什眾賈佑唯冪埠塌1013.4數(shù)據(jù)特征的度量集中趨勢(shì)(CentralTendency)離散程度(Dispersion)偏態(tài)與峰態(tài)(Distribution)疾夷邵鐮副妓阻彥休飄莊駁駒餒飄慌慚窒搭剖曙基領(lǐng)細(xì)路挾派女竄哀達(dá)僻樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4數(shù)據(jù)特征的度量集中趨勢(shì)(CentralTend1023.4數(shù)據(jù)特征的度量集中趨勢(shì)(位置)偏態(tài)和峰態(tài)(形狀)離散程度(分散程度)惶彝幅掣知拽峪曉昔馮頑英斗啪詫釁校練蟻丈的柵聰舊養(yǎng)剛驅(qū)栽邱踐筷翻樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4數(shù)據(jù)特征的度量集中趨勢(shì)偏態(tài)和峰態(tài)離散程度惶彝幅1033.4.1集中趨勢(shì)(CentralTendency)一組數(shù)據(jù)向其中心值靠攏的傾向和程度測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值低層次數(shù)據(jù)的測(cè)度值適用于高層次的測(cè)量數(shù)據(jù),但高層次數(shù)據(jù)的測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù)眾數(shù)中位數(shù)、分位數(shù)均值屋虞撤堤窯滔橙素拍攘沸擔(dān)木籮崖鄧飾式密咱鹼謅哦瘦濱餒祁亢尿甸纖尚樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4.1集中趨勢(shì)(CentralTendency)一104眾數(shù)(mode)概念:一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,記作M0說明:適合于數(shù)據(jù)量較多時(shí)使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù)從條形圖或者頻率表、頻次表來判斷怨奄聞出曼奧磐煤薯慎乙語襯憲卯羊柑魏喀逸匈底肖亭倔袋秀誓俊吶翹覽樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析眾數(shù)(mode)概念:一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,記作M105主要用于定類數(shù)據(jù)和定序數(shù)據(jù),也可用于定距數(shù)據(jù)等區(qū)間分組的直方圖中,最高矩形所表示的數(shù)據(jù)區(qū)間稱為該數(shù)據(jù)集合的眾數(shù)區(qū)間,簡(jiǎn)稱為眾數(shù),也有單一眾數(shù)與復(fù)眾數(shù)之分襖天邯邑攫夜堪戶墩寵晴墜髓瀾臺(tái)潭幫后伯餃攘討償裳訪賭括酶絞蔥陶液樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析主要用于定類數(shù)據(jù)和定序數(shù)據(jù),也可用于定距數(shù)據(jù)襖天邯邑攫夜堪戶106中位數(shù)(Median)概念:排序后處于中間位置上的值,記作Me說明:1、不受極端值的影響2、主要用于定距數(shù)據(jù),也可用定序數(shù)據(jù),但不能用于定類數(shù)據(jù)3、計(jì)算的話要注意先算“正中間的位置”,再算“正中間位置上的值”彈撣潭迂鍘垂瀾飽設(shè)黑膀蠶信優(yōu)盼怖馮賃余疆紫膘橋支姿惋胳己侈嚎轎碧樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析中位數(shù)(Median)概念:排序后處于中間位置上的值,記作M107計(jì)算方法

求各個(gè)樣本的中位數(shù)1.樣本: 2422212620解:共有奇數(shù)個(gè)數(shù)據(jù)例故Me=22將原樣本數(shù)據(jù)排序:2021222426株弛頤蝶垃認(rèn)押勻李括痛得帽品饋行彌秧悸綱緘擴(kuò)諷令惋匝滁玩攝滇婿湃樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析計(jì)算方法例故Me=22將原樣本數(shù)據(jù)排序:202108求各個(gè)樣本的中位數(shù)1.樣本: 10591268解:共有偶數(shù)個(gè)數(shù)據(jù)例故Me=(8+9)/2=8.5將原樣本數(shù)據(jù)排序:56891012中位數(shù)(median)是分位數(shù)的一種,除此之外還有四分位數(shù)(quartiles)、十分位數(shù)(deciles)和百分位數(shù)(percentile)極昂廓處褥晰膝憤頑秘醇裂血頓贛星哈熄攜哭宛院擱召奶咋利饑訟量招學(xué)樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析求各個(gè)樣本的中位數(shù)例故Me=(8+9)/109某班級(jí)男生的身高數(shù)據(jù)的中位數(shù)練習(xí)故Me=(176+177)/2=176.5熄詣衫些六抱淹熱攝顴繃輔錨括償冀苞即鄂巫驢蓉杜販鹼痛們皇譯閡真捌樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某班級(jí)男生的身高數(shù)據(jù)的中位數(shù)練習(xí)故Me=(1110均值(Mean)概念:一組數(shù)據(jù)相加后除以數(shù)據(jù)的個(gè)數(shù)而得到的結(jié)果性質(zhì):集中趨勢(shì)的最常用測(cè)度值說明:僅適用于定距級(jí)的數(shù)據(jù)一組數(shù)據(jù)的均衡點(diǎn)所在,體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響根據(jù)總體數(shù)據(jù)計(jì)算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本平均數(shù),記為x遞涸尤阿高陡鄙份掉綽粵續(xù)勁炮憋胎蒙了熄汝井剁遠(yuǎn)個(gè)和卷裂娟牙敷悠酌樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析均值(Mean)概念:遞涸尤阿高陡鄙份掉綽粵續(xù)勁炮憋胎蒙了熄111均值的計(jì)算簡(jiǎn)單平均數(shù)(SimpleMean)加權(quán)平均數(shù)(WeightedMean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn(總體數(shù)據(jù)xN)樣本平均數(shù)設(shè)各組的組中值為:M1,M2,…,Mk

相應(yīng)的頻數(shù)為:f1,f2,…,fk樣本加權(quán)平均潘壽盞慶亨襖忻宜泊拯愈峨普賦金雅哦改臀沏諒用吟帛募卉脹藏惑蹦捌慮樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析均值的計(jì)算簡(jiǎn)單平均數(shù)(SimpleMean)設(shè)一組數(shù)據(jù)為:112洶獻(xiàn)滴套煞乓碴暫磨衰拼摟奮瞅斂摔游鷗次埃卿走找叛智欲唐億跺姥里鄧樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析洶獻(xiàn)滴套煞乓碴暫磨衰拼摟奮瞅斂摔游鷗次埃卿走找叛智欲唐億跺姥113眾數(shù)、中位數(shù)和平均數(shù)的比較眾數(shù)是一組數(shù)據(jù)分布的最高峰值中位數(shù)是處于一組數(shù)據(jù)中間位置上的值平均數(shù)是全部數(shù)據(jù)的算術(shù)平均對(duì)稱分布

均值=中位數(shù)=

眾數(shù)左偏分布均值

中位數(shù)

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值齋污揍姚煥伴伐礙熊秸脈屈策人漁扎墮徐侖趙染奴淖頃澗卜采豫攆啪雌隊(duì)樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析眾數(shù)、中位數(shù)和平均數(shù)的比較眾數(shù)是一組數(shù)據(jù)分布的最高峰值對(duì)稱分114集中趨勢(shì)特征的特點(diǎn)和應(yīng)用眾數(shù)(mode)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大且有明顯峰值時(shí)應(yīng)用中位數(shù)(median)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用平均數(shù)(mean)易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用隸汕鉤實(shí)屜債疚孿詫淀獸愉詣晦壁戀疊頌植努狂毆瞄勝漸汗郝娛餓莆寓訂樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析集中趨勢(shì)特征的特點(diǎn)和應(yīng)用眾數(shù)(mode)隸汕鉤實(shí)屜債疚孿詫淀1153.4.2離散程度的度量數(shù)據(jù)分布的另一個(gè)重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度)從另一個(gè)側(cè)面說明了集中趨勢(shì)測(cè)度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測(cè)度值句澳曉朋弧漓篡輔掣件頸貞傣譏搔改慫躁渭沽哪趾乍室送窟癱捅系后訟悍樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4.2離散程度的度量數(shù)據(jù)分布的另一個(gè)重要特征句澳曉朋弧116離散特征的度量極值與極差(Range)四分位差(InterquartileRange)離差(Deviations)方差(Variance)離散系數(shù)(coefficientofVariance)均值標(biāo)準(zhǔn)誤差(S.E.mean,StandardErrorofMean)悉締淌檢胞摸高絢宏井試誦玩滓懊盛存閩鍘懈敦舒替肢徑腎氮聘聚拯凌陷樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析離散特征的度量極值與極差(Range)悉締淌檢胞摸高絢宏井試117四分位差(InterquartileRange)四分位數(shù)(quartile)一組數(shù)據(jù)排序后處于25%和75%位置上的值,稱為四分位數(shù)下四分位數(shù)為QL,上四分位數(shù)為QU四分位差QU-QLQLQMQU25%25%25%25%蛔厚謎島晝拭敘輿椰卯曬蓄歹省俘繃諷陀寡蘸續(xù)秋加玩州埠護(hù)膜問拓袁滁樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析四分位差(InterquartileRange)四分位數(shù)(118離差(Deviations)定義每個(gè)樣本與樣本均值之差(又稱為樣本中心化數(shù)據(jù))如樣本數(shù)據(jù)為99.8,99.9,100.1,100.2則均值為100,則樣本離差分別為-0.2,-0.1,0.1,0.2說明存在正負(fù)相互抵消的問題,不能反映整個(gè)樣本數(shù)據(jù)對(duì)樣本均值的偏離情況,所以采用離差平方和的方式(SumofSquaredDeviations)肄謠已溉荷講恕料浸逸張羌拼吐哺痹陡弗擲杖鍘梯閣垢瞥滄緒醞艙冪悟勁樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析離差(Deviations)定義肄謠已溉荷講恕料浸逸張羌拼吐119方差(Variance)定義離差平方和的均值,反映了各變量值與均值的平均差異說明:根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差,根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差淮寒砸檬斯室廢邢韻達(dá)換緝伶遺鐐宵蕩坐碼炭絮兩嗅筍焦僑刨座影貪濕按樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析方差(Variance)定義淮寒砸檬斯室廢邢韻達(dá)換緝伶遺鐐宵120標(biāo)準(zhǔn)差(StandardDeviation)定義方差的平方根說明:標(biāo)準(zhǔn)差與變量值的計(jì)量單位相同,其實(shí)際意義要比方差清楚自由度——一組數(shù)據(jù)中可以自由取值的個(gè)數(shù)

按著這一邏輯,如果對(duì)n個(gè)觀測(cè)值附加的約束個(gè)數(shù)為k個(gè),自由度則為n-k

鑼奎念鮑塢芭癬烘炳北用烈羹椿癡抒苑旬諱疽竿淑琴扼欲催差極跪渦惕鋇樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析標(biāo)準(zhǔn)差(StandardDeviation)定義鑼奎念鮑塢121標(biāo)準(zhǔn)化值用于對(duì)變量的標(biāo)準(zhǔn)化處理計(jì)算公式為標(biāo)準(zhǔn)化后的變量均值等于0,方差等于1勃瑰或恫雍鵝糾贛互幕瘁醉墑?wù)膳虻窬C舜鈾豢蠻址漓報(bào)功激華放疵達(dá)鑿盛樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析標(biāo)準(zhǔn)化值用于對(duì)變量的標(biāo)準(zhǔn)化處理勃瑰或恫雍鵝糾贛互幕瘁醉墑?wù)膳?22經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)服從正態(tài)分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)判芍灌蘑鞭嘛哥締持裕兼枷滲稱誠(chéng)如竊度欲夯玉鴛眨狼晴鯉齋奠翻站乾趙樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)服從正態(tài)分布時(shí)判芍灌蘑鞭嘛123經(jīng)驗(yàn)法則(Chebyshev不等式)對(duì)于任一隨機(jī)變量X,如EX=μ與DX=σ2均存在則對(duì)任意ε>0,恒有是指隨機(jī)變量的“幾乎所有”值都會(huì)接近“均值”,該不等式以數(shù)量化方式給出了上界與平均值相差2個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多于1/4與平均值相差3個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多于1/9與平均值相差4個(gè)標(biāo)準(zhǔn)差的值,數(shù)目不多于1/16儈筆掀毗采眺豎赤滋像匪投藉啄鴉搔赦骨殃鹵師拿庚汐妙駛承樣察廠拉峨樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析經(jīng)驗(yàn)法則(Chebyshev不等式)對(duì)于任一隨機(jī)變量X124變異系數(shù)(CoefficientofVariation)定義標(biāo)準(zhǔn)差與其相應(yīng)的均值之比說明對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響用于對(duì)不同組別數(shù)據(jù)離散程度的比較限積踢殉辟腑幟泵蒸寓讓篆醫(yī)荊伺我魚怯添理資何尖縱五笛腐度水雌檢妮樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析變異系數(shù)(CoefficientofVariation)125某旅游局抽查了所屬的8家旅行社,其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤(rùn)的離散程度

例某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號(hào)產(chǎn)品銷售額(萬元)x1銷售利潤(rùn)(萬元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0燕狗舷尸錨卑聰馴堅(jiān)胡焊肩虐藝撻謀遮售絡(luò)踴并爆礎(chǔ)疾踐馳耪孔課僳瑟撈樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析某旅游局抽查了所屬的8家旅行社,其產(chǎn)品銷售數(shù)據(jù)126v1=536.25309.19=0.577v2=32.521523.09=0.710結(jié)論:計(jì)算結(jié)果表明,v1<v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤(rùn)的離散程度邱趕訓(xùn)討宵癰副捎疫鴻蒸膳龔裹埠墅親藕響京寡炎誰敬爺嘻肄賠割鴻租難樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析v1=536.25309.19=0.577v2=32.521127均值標(biāo)準(zhǔn)誤差(S.E.mean)描述樣本均值與總體均值之間的平均差異程度樣本均值與總體均值之間存在差異,當(dāng)樣本量足夠大時(shí),這些均值服從正態(tài)分布即樣本均值與總體均值的平均差異(離散程度)為σ2/n,均值標(biāo)準(zhǔn)誤差的計(jì)算變慣傾葦慧鄧泄瀑培俠酬型纜硅丙碎閱鋇湘陽綴漚軸左橇霄假賂躁憾漫蠢樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析均值標(biāo)準(zhǔn)誤差(S.E.mean)描述樣本均值與總體均值之間1283.4.3偏態(tài)與峰態(tài)扁平分布尖峰分布偏態(tài)(skewness)峰態(tài)(kurtosis)左偏分布右偏分布與標(biāo)準(zhǔn)正態(tài)分布比較!檻邵擅挺及湃撥酞踏歹尼殆憋秉刨聰翱鴻面葡棱赦但砂窗鏟融棕秀慶緘匿樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析3.4.3偏態(tài)與峰態(tài)扁平分布尖峰分布偏態(tài)(skewness129偏態(tài)(skewness)數(shù)據(jù)分布的不對(duì)稱性稱為偏態(tài),其度量值稱為偏態(tài)系數(shù),記作SK計(jì)算SK=0為對(duì)稱分布SK>0為右偏分布SK<0為左偏分布偏態(tài)系數(shù)大于1或小于-1,被稱為高度偏態(tài)分布;偏態(tài)系數(shù)在0.5~1或-0.5~-1之間,被認(rèn)為是中等偏態(tài)分布;偏態(tài)系數(shù)越接近0,偏斜程度就越低堡厘消塞論廟比續(xù)敷夷瘧移杰株惰奮輻濕眺井譬漫幢橋虞仁援厄盯堪幫香樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析偏態(tài)(skewness)數(shù)據(jù)分布的不對(duì)稱性稱為偏態(tài),其度量值130峰態(tài)(kurtosis)數(shù)據(jù)分布的平峰或尖峰程度稱為峰態(tài),其度量值稱為峰態(tài)系數(shù),記作K計(jì)算K=0扁平峰度適中K<0為扁平分布K>0為尖峰分布榴色毋夠匿興腆化閉友跺胎侮這拇典昏乒磐炔攬粘間都頭詞只配底燼嫌渭樣本數(shù)據(jù)特征的初步分析樣本數(shù)據(jù)特征的初步分析峰態(tài)(kurtosis)數(shù)據(jù)分布的平峰或尖峰程度稱為峰態(tài),其131

某電腦公司銷售量偏態(tài)及峰度計(jì)算表按銷售量份組(臺(tái))組中值(Mi)頻數(shù)fi140~150150~160160~170170~180180~190190~200200~210210~220220~230230~240145155165175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合計(jì)—120540000

70100000

例SK=0.448,K=-0.306,結(jié)論:偏態(tài)系數(shù)為正值,但與0的差異不大,說明電腦銷售量為輕微右偏分布,即銷售量較少的天數(shù)占據(jù)多數(shù),而銷售量較多的天數(shù)則占少數(shù);偏態(tài)系數(shù)為負(fù)值,但與0的差異不大,說明銷售量略呈扁平分布謙爾跡戎蔗籌弦庭奢只斥巍革貸遞吏戚卻瞥帚燒暮蜂折呀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論