數(shù)據(jù)的初步整理-統(tǒng)計(jì)圖表_第1頁(yè)
數(shù)據(jù)的初步整理-統(tǒng)計(jì)圖表_第2頁(yè)
數(shù)據(jù)的初步整理-統(tǒng)計(jì)圖表_第3頁(yè)
數(shù)據(jù)的初步整理-統(tǒng)計(jì)圖表_第4頁(yè)
數(shù)據(jù)的初步整理-統(tǒng)計(jì)圖表_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章數(shù)據(jù)的初步整理

——統(tǒng)計(jì)圖表第一節(jié)范疇型數(shù)據(jù)的整理第二節(jié)數(shù)值型數(shù)據(jù)的整理一、原始數(shù)據(jù)二、次數(shù)分布表三、次數(shù)分布圖

同任何研究一樣,語(yǔ)言研究的目的是為了探討和說明問題,以便深入地了解事物或現(xiàn)象的本質(zhì)及其相互關(guān)系,而對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析是實(shí)現(xiàn)這一目的的重要一環(huán)。對(duì)原始數(shù)據(jù)進(jìn)行整理的基本方法之一是編制統(tǒng)計(jì)圖表。統(tǒng)計(jì)表把被說明的事物及有關(guān)統(tǒng)計(jì)數(shù)字分門別類地整齊地表示出來,簡(jiǎn)潔明了,易于比較分析;統(tǒng)計(jì)圖則使數(shù)據(jù)的突出特征具體、形象、直觀、生動(dòng)地展示出來,易于理解,且印象深刻。因而,圖表的適當(dāng)應(yīng)用可以起到去粗取精、化繁為簡(jiǎn)的作用。第一節(jié)范疇型數(shù)據(jù)的整理

在語(yǔ)言研究中經(jīng)常要把研究對(duì)象(人、反應(yīng)、語(yǔ)言現(xiàn)象等)按某種標(biāo)準(zhǔn)分成相互排斥的類或范(或者根據(jù)多種標(biāo)準(zhǔn)交叉分類),這類數(shù)據(jù)叫做范疇型數(shù)據(jù)(見第一章“稱名變量”)。對(duì)于范疇型數(shù)據(jù)的整理,主要是進(jìn)行分類并計(jì)算出每一類的觀察次數(shù)和相對(duì)次數(shù)(即在總次數(shù)中所占的百分比),最后以表和條線圖的形式表示出來。

例如,我們從學(xué)生的英語(yǔ)作業(yè)中收集到90個(gè)錯(cuò)誤,經(jīng)分析,其中30個(gè)是由漢語(yǔ)干擾造成的,25個(gè)是由過度概括造成的,個(gè)是個(gè)是由教學(xué)方法不當(dāng)造成的,20個(gè)是由教學(xué)方法不當(dāng)造成的,15個(gè)是由其它原因造成的。此數(shù)據(jù)可以整理如下表(相對(duì)次數(shù)也可以加括號(hào)放在次數(shù)之后):該數(shù)據(jù)也可以用條線圖進(jìn)行更直觀的表示:坐標(biāo)中橫坐標(biāo)代表范疇或類別,縱坐標(biāo)代表每個(gè)類別的觀察次數(shù)。第二節(jié)數(shù)值型數(shù)據(jù)的整理語(yǔ)言研究中更經(jīng)常遇到的是數(shù)值型數(shù)據(jù),譬如考試分?jǐn)?shù)、句子閱讀時(shí)間、每句單詞數(shù)等。如果數(shù)據(jù)量很?。ㄆ┤缰挥袔讉€(gè)數(shù)值),把它列舉出來即可,而不需進(jìn)行任何整理,但是對(duì)于數(shù)量較大的數(shù)據(jù),則必須利用圖表進(jìn)行初步整理,才能更易看出其中帶有規(guī)律性的特點(diǎn),尤其是數(shù)據(jù)中各數(shù)值的分布情況,譬如數(shù)據(jù)的集中趨勢(shì)及離中趨勢(shì)(詳細(xì)討論見第三章),即數(shù)據(jù)的典型數(shù)值以及數(shù)值之間的差異程度。一、原始數(shù)據(jù)下面一組數(shù)據(jù)為一篇英語(yǔ)閱讀材料中100個(gè)句子的長(zhǎng)度數(shù)據(jù)(以音節(jié)數(shù)表示):表2.2(a)100個(gè)英語(yǔ)句子的長(zhǎng)度值﹡294036582023441847182217131211202191462681724279162812222156442635215517504048201412171025242018181920152623161812241240342613371922224817231416131019179161213916191914101116161588151539445129

582921171356282017125527201612512620161250262016124826201612482619161247251916114424191611442419151044241915104023181510402318159402318149392218149372218149362217148352217138342117138292117136表2.2(b)100個(gè)句子的長(zhǎng)度(按數(shù)值大小排列)

對(duì)于這樣數(shù)值數(shù)目較大的數(shù)據(jù),按表2.2(a)列舉,其用處是很有限的,因?yàn)樗s亂無序,難以獲得有價(jià)值的信息。如果像表2.2(b)按照數(shù)值的大小順序列舉,數(shù)據(jù)的條理性和清晰性就可以大大提高。表2.2(b)看起來比表2.2(a)清晰多了,稍加分析就可以看出數(shù)據(jù)的分布情況,例如,最長(zhǎng)句與最短句的長(zhǎng)度是多少,二者之間的距離有多大(可粗略表示數(shù)據(jù)的離散情況),哪些長(zhǎng)度的句子出現(xiàn)次數(shù)比較多(大體表示數(shù)據(jù)的集中情況,等等。二、次數(shù)分布表

盡管通過排序,數(shù)據(jù)的條理性有所提高,但是表2.2(b)仍然不夠簡(jiǎn)明,不能做到一目了然。從表中可以看出,數(shù)據(jù)中數(shù)值出現(xiàn)的次數(shù)或頻率是不同的,有的只出現(xiàn)一次,而大部分是重復(fù)出現(xiàn)的,如果把重復(fù)出現(xiàn)的數(shù)值在表中只列舉一次,隨后標(biāo)明其出現(xiàn)的次數(shù),就可以把數(shù)據(jù)進(jìn)一步壓縮,使其更加條理化。這樣的表稱為次數(shù)分布表。1.未分組與分組次數(shù)分布表

次數(shù)分布表示數(shù)據(jù)的散布情況,而次數(shù)分布表則是對(duì)數(shù)據(jù)進(jìn)行初步整理的重要手段,它能較為直觀地表示出數(shù)據(jù)的分布情況,使人們得以大體上了解數(shù)據(jù)的平均水平和差異情況等。一般來講,次數(shù)分布表的最左邊一列為各個(gè)數(shù)值,接下來為登記次數(shù),其次為各數(shù)值出現(xiàn)的次數(shù)。上述句子長(zhǎng)度數(shù)據(jù)的次數(shù)分布表如下:表2.2(c)不僅清楚地顯示出了句子長(zhǎng)度的分散范圍,而且表明了各長(zhǎng)度的句子出現(xiàn)的次數(shù),其中次數(shù)最高(7)的長(zhǎng)度是16,其他長(zhǎng)度的句子,出現(xiàn)的次數(shù)向兩邊逐漸減少直至1,出現(xiàn)次數(shù)較低的句子多為長(zhǎng)句。2.編制分組次數(shù)分布表的方法

編制分組次數(shù)分布表的關(guān)鍵是確定組距和組數(shù)。具體方法如下:(1)求全距或兩極差:全距是指一組數(shù)據(jù)中最大數(shù)值與最小數(shù)值之差,因此,只要在數(shù)據(jù)中找出最大數(shù)值與最小數(shù)值,然后從前者減去后者,即得全距。(2)求組距:組距也叫做分組區(qū)間,指每組中最高數(shù)值(成為“上限”)與最低數(shù)值(成為“下限”)之間的距離,常用符號(hào)i表示,為了便于計(jì)算分組區(qū)間和組中點(diǎn)。各組組距應(yīng)盡量相等。常用組距一般為2,3,5,10等,但最好取單數(shù),這樣便于定組中點(diǎn)。為了能確定一個(gè)最佳的組數(shù),當(dāng)數(shù)據(jù)的總體分布為正態(tài)時(shí),可以用下面的公式計(jì)算K=1.87(N-1)2/5(2.1)式中K——組數(shù)(取近似整數(shù))N——數(shù)據(jù)中數(shù)值的個(gè)數(shù)(3)確定具體分組區(qū)間:各分組區(qū)間按照數(shù)值的大小,從高到低或從低到高排列均可,最高一組和最低一組應(yīng)能分別包含數(shù)據(jù)中的最大值和最小值。而且最高組或最低組的下限最好只組距的整數(shù)倍。分組區(qū)間列出后,要找出組中點(diǎn),方法:上限與下限之和除以2,或每組下限加組距之半。例如10~15這一分組區(qū)間的組中點(diǎn)為(10+15)/2=12.5,或10+5/2=12.5。(4)登記次數(shù):這一步需注意兩點(diǎn):一是每組的精確上下限,這樣才能處于組限的數(shù)據(jù)(尤其是含有小數(shù)的數(shù)值)歸入適當(dāng)?shù)慕M別;二是要防止漏登或重復(fù)登記等訛誤。(5)計(jì)算次數(shù):全部數(shù)據(jù)登記完畢,數(shù)一數(shù)每個(gè)分組區(qū)間內(nèi)數(shù)值的個(gè)數(shù),即得出各組的次數(shù),然后把各組次數(shù)相加,就得出總次數(shù)。通常用字母f來表示次數(shù),那么總次數(shù)就為,等于數(shù)據(jù)中數(shù)值的的總個(gè)數(shù)N。還可在各組次數(shù)的基礎(chǔ)上進(jìn)一步計(jì)算相對(duì)次數(shù)、累計(jì)次數(shù)和相對(duì)累積次數(shù)。三、次數(shù)分布圖如果用統(tǒng)計(jì)圖來表示數(shù)據(jù)的次數(shù)分布,則更加直觀清楚。比較常用的統(tǒng)計(jì)圖有次數(shù)分布直方圖和次數(shù)分布多邊圖。這兩種圖都是用面積來表示數(shù)據(jù)的分布。1.次數(shù)分布直方圖分組數(shù)據(jù)的次數(shù)分布直方圖的繪制方法如下:(1)畫一個(gè)直角坐標(biāo)系,在橫坐標(biāo)上標(biāo)明各分組區(qū)間,在縱坐標(biāo)上標(biāo)出次數(shù)。分組區(qū)間一般有兩種標(biāo)示方法:一種是標(biāo)出各組的下限;另一種是標(biāo)出各組的組中點(diǎn)。

(2)在每個(gè)分組區(qū)間上面畫一直方形,其寬度等于組距,高度等于每分組區(qū)間的次數(shù)。如果橫坐標(biāo)上標(biāo)的是每組的組中點(diǎn),那么組中點(diǎn)應(yīng)位于直方形底邊的正中間。(3)把各直方形連在一起(中間不留間隙)。上述句子長(zhǎng)度數(shù)據(jù)的次數(shù)分布直方圖如圖2.2當(dāng)然,也可以用未分組的數(shù)據(jù)繪制次數(shù)分布直方圖。這時(shí)橫坐標(biāo)表示的是每一個(gè)數(shù)值,縱坐標(biāo)表示數(shù)值的次數(shù),直方形要繪在橫坐標(biāo)上的每個(gè)數(shù)值之上,其寬度要相等,標(biāo)出的數(shù)值應(yīng)位于直方形底邊的中間。但是如果數(shù)據(jù)量較大,就會(huì)給分布圖的繪制以及顯示信息的清晰度帶來一些問題,因?yàn)樵谝欢ǖ目臻g內(nèi)難以把所有數(shù)值清楚地安排在橫坐標(biāo)上;此外,這樣的分布圖對(duì)數(shù)據(jù)的整理和壓縮作用也不大。2.次數(shù)分布多邊圖次數(shù)分布多邊圖的繪制與直方圖的繪制基本相同。對(duì)于未分組數(shù)據(jù),在橫坐標(biāo)上的每個(gè)數(shù)值的上方畫一個(gè)點(diǎn),點(diǎn)的高度等于各數(shù)值的次數(shù)。對(duì)于分組數(shù)據(jù),則在橫坐標(biāo)的每個(gè)分組區(qū)間的組中點(diǎn)上方畫一個(gè)點(diǎn),點(diǎn)的高度等于各分組區(qū)間的次數(shù)。然后用直線把各點(diǎn)連接起來。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論