考試的質(zhì)量指標(biāo)2周

上傳人：建*** IP屬地：上海上傳時間：2022-05-16 格式：DOCX 頁數(shù)：19 大小：73.41KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩14頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、沈陽大學(xué) 教案課程名稱：英語語言測試技巧編寫時間：年月日授課章節(jié)第三章考試的質(zhì)量指標(biāo)目的要求要求學(xué)生掌握衡量考試質(zhì)量的四個主要指標(biāo)，運用效度和信度對考試的質(zhì)量進行分析。要求掌握難度和區(qū)分度的計算的方法和影響難度和區(qū)分度的主要因素。重點難點效度的概念、效度的分類; 信度的概念、影響信度的因素、信度與效度的關(guān)系難度的計算方法、影響難度的因素; 區(qū)分度的計算方法、其與難度之間的關(guān)系教案內(nèi)容：I. 教學(xué)方法: 交際式教學(xué)法II. 教學(xué)過程復(fù)習(xí)與導(dǎo)入 1. 討論題: 外語測試有哪些分類？本章導(dǎo)讀本

2、章的一些基本概念雖比較抽象，卻與提高考試質(zhì)量有著密不可分的關(guān)系。建議學(xué)員在學(xué)習(xí)本章時，結(jié)合考試實踐展開討論，這樣有助加深對本章的理解。本章是“語言測試”最重要，也是最抽象、難懂的一章，但可以毫不夸張地說，掌握了本章，也就掌握了“語言測試”的精髓。建議學(xué)員在這一章多化一些時間，把基本概念梳理清楚。在衡量考試質(zhì)量的四個主要指標(biāo)中，效度和信度是最重要的兩個指標(biāo)。要求能夠運用這兩個概念對日常教學(xué)考試的質(zhì)量進行分析。而難度和區(qū)分度則要求掌握計算的方法和影響難度和區(qū)分度的主要因素。本章的一些基本概念雖比較抽象，卻與提高考試質(zhì)量有著密不可分的關(guān)系。建議學(xué)員在學(xué)習(xí)本章時，結(jié)合考試實踐展開討論，這樣有助加深對

3、本章的理解。 “相關(guān)系數(shù)”的概念對于加深理解“效度”和“信度”有一定幫助，但不作為必讀的材料。練習(xí)中的難度和區(qū)分度的計算題一定要做，這樣可以檢驗一下是否正確理解了這兩個概念和計算公式。本章的一些基本概念雖比較抽象，卻與提高考試質(zhì)量有著密不可分的關(guān)系。建議學(xué)員在學(xué)習(xí)本章時，結(jié)合考試實踐展開討論，這樣有助加深對本章的理解。第三章講授新課一、效度的概念與分類 1）效度的概念考試的效度指的是考試在多大程度上測出預(yù)期要測量的東西，或者說考試在多大程度上完成了預(yù)期的測量任務(wù)，達到了預(yù)期測試的目標(biāo)。效度概念包含了兩層含義，一是考試究竟測

4、量的是什么(what)；二是測出的程度有多大(how well)。例如，我們舉行一次英語考試目的是想測定學(xué)生使用英語進行交際的能力，那么這次考試的質(zhì)量高低可以用效度這個指標(biāo)來衡量，效度高表明：（1）這次考試測量的的確是學(xué)生的交際能力，而不是其他東西；（2）這次考試能很好的測出學(xué)生的交際能力。如果考試考的不是學(xué)生的交際能力，則認為它效度很低。因此，效度也可以理解為從測驗的成績中能作出什么樣的推斷，它的有效程度如何（教育評價百科全書），或根據(jù)美國心理學(xué)會的定義，效度是一個從測驗分數(shù)中能恰當(dāng)?shù)赝茢喑鍪裁唇Y(jié)果的問題。效度是一個相對的概念。效度的有效性總是相對于一定的目的、功能和范圍而言。對于某一目的是

5、有效的考試，用于另一目的就未必有效。效度相對性的另一層含義是程度的相對性，即效度不是有或無的關(guān)系，而只是高低程度上的不同。由于語言能力是一個抽象的概念，我們只能通過測量學(xué)生的語言行為，間接地推斷出他的能力，因此不可能說一次考試是絕對有效的；另一方面，由于影響語言能力的各種因素是相互聯(lián)系的，所以不同形式的語言考試總有一定的相關(guān)，這也決定了語言考試也不存在絕對無效的情況。根據(jù)美國心理學(xué)會1974年出版的教育與心理測驗標(biāo)準(zhǔn)一書，考試的效度可分成三大類：內(nèi)容效度、結(jié)構(gòu)效度和效標(biāo)關(guān)聯(lián)效度。嚴(yán)格地說，我們可以從以上三個方面來評估考試效度的高低。2）效度的分類內(nèi)容效度(Content Validity)內(nèi)容

6、效度指考試內(nèi)容是否真實地代表了它所要測量的內(nèi)容，或者說，考試的題目在多大程度上能代表它所要測量的目標(biāo)。它可以從三個方面進行判斷：（1）測試內(nèi)容是否和測試目標(biāo)有關(guān)；（2）測試內(nèi)容（試題）是否具有代表性；（3）測試內(nèi)容是否適合測試對象。內(nèi)容效度對于成績考試和標(biāo)準(zhǔn)參照考試都具有特別重要的意義。因為成績考試的用途是測定學(xué)生對過去學(xué)過的知識和技能實際掌握的程度，因此教學(xué)大綱是成績考試的命題依據(jù)；，標(biāo)準(zhǔn)參照考試以原先制訂的標(biāo)準(zhǔn)作為評價考試成績優(yōu)劣的依據(jù)，所以這兩類考試都必須重視內(nèi)容效度。構(gòu)想效度(Construct Validity)考試的構(gòu)想效度指考試實際測得的東西與理論所假設(shè)的能力要素或心理特征相吻合

7、的程度。就語言測試而言，構(gòu)想效度指考試結(jié)果能在多大程度上解釋人的語言能力及與語言有關(guān)的心理特征。如果考試所測得的東西與理論對語言能力的構(gòu)想相吻合，我們就認為考試有很好的構(gòu)想效度。我們通過外語考試，除了想了解學(xué)生掌握語言知識情況外，最希望了解學(xué)生的語言能力和交際能力。能力是一個抽象的概念，我們無法對學(xué)生的語言能力進行直接測試，而只能通過測定可以看得見的語言行為，并借助有關(guān)的語言學(xué)習(xí)理論來間接地推斷學(xué)生的語言能力。這樣就存在著考試所測得的結(jié)果與理論所構(gòu)想的能力結(jié)構(gòu)之間是否吻合的問題。由于我們需要借助理論構(gòu)想來判斷考試成績是否能代表一個人的真實能力，所以構(gòu)想效度也稱理論效度。構(gòu)想效度是一個相對的概念

8、，它是相對一定的理論構(gòu)想而言的。隨著語言理論的發(fā)展，對構(gòu)想效度的研究也應(yīng)不斷改進。效標(biāo)關(guān)聯(lián)效度(Criterion-related validity) 效標(biāo)是效度標(biāo)準(zhǔn)的簡稱，是檢定考試效度的一個參照物。所謂效標(biāo)關(guān)聯(lián)效度就是以考試分數(shù)與效標(biāo)分數(shù)之間的相關(guān)來表示的一種效度，也稱為統(tǒng)計效度。效標(biāo)關(guān)聯(lián)效度表示的是考試與效標(biāo)之間彼此擬合的程度。根據(jù)測驗分數(shù)和效標(biāo)分數(shù)獲得的時間關(guān)系，可以將效標(biāo)關(guān)聯(lián)效度分為預(yù)測效度和共時效度。預(yù)測效度的考試分數(shù)獲得在前，效標(biāo)分數(shù)獲得在后，這兩個分數(shù)獲得的時間間隔可能數(shù)周，數(shù)月，甚至數(shù)年；而共時效度兩個分數(shù)幾乎可以同時獲得。這兩種效度的共同之處在于都利用數(shù)理統(tǒng)計的方法通過相關(guān)

9、系數(shù)來表示效度的高低。二、不同的考試對效度的不同要求效度是一個相對的概念，效度的高低是相對一定測試目的而言的，因此不同目的的考試對各類效度的要求也不盡相同，它們之間的關(guān)系可以用表3.2表示。表3.1考試類別與效度之間的關(guān)系考試類別效度判斷標(biāo)準(zhǔn)方法成績考試水平考試學(xué)能考試診斷考試內(nèi)容效度效標(biāo)關(guān)聯(lián)效度(預(yù)測、共時)構(gòu)想內(nèi)容效度大綱將來要從事的任務(wù)語言學(xué)習(xí)理論大綱專家判斷相關(guān)系數(shù)統(tǒng)計法理論判斷因素分析專家判斷上表所列各類考試和效度之間的關(guān)系并

10、不意味著一類考試只需一類效度。對所有考試來說都要注意構(gòu)想效度。表3.1所列關(guān)系只表明各類考試應(yīng)特別注意的效度。表 3.2 效度分類及其測試方法類型所要解決的問題方法目的舉例內(nèi)容效度是否考了要考的內(nèi)容；試題是否有代表性將題目與考試大綱規(guī)定的內(nèi)容作比較檢查成績期中、期末考試、畢業(yè)考試構(gòu)想效度是否與理論構(gòu)想一致；是否與經(jīng)驗一致與理論、實際經(jīng)驗進行比較對心理特征與能力傾向作檢驗學(xué)能考試預(yù)測效度對未來的工作和學(xué)習(xí)做出預(yù)測對比學(xué)習(xí)前后的成績選拔分類大學(xué)入學(xué)考試、水平考試共時效度對目前的學(xué)習(xí)成績做出估計對比考生同時參加的兩次考試的成績建立常模把某一考試和另一標(biāo)準(zhǔn)化考試成績比較

11、0;三、信度的概念信度(Reliability)是指考試結(jié)果的可靠性和穩(wěn)定性。所謂考試的信度是指同一個測驗（或相等的兩個或多個測驗）對同一組考生測試兩次或多次，其結(jié)果的一致性程度。也就是說，考生多次參加某種測驗，如果每次得到近乎一樣的分數(shù)，那么可以認為該測驗的信度是高的；如果每次分數(shù)忽高忽低，說明該測驗可靠性不夠、信度低。任何考試只有可靠才能有效。因此信度高是效度高的必要前提。信度通常以兩次測驗結(jié)果的相關(guān)系數(shù)來表示，稱之為信度系數(shù)(Coefficient of reliability)。相關(guān)的程度越高，信度也越高。信度也可

12、用測量的標(biāo)準(zhǔn)誤差表示。凡是測量都會有誤差，信度實際上表示的是測量的精度。從理論上講，每一個考生在測驗中所獲得的分數(shù)都包括兩部分，一部分是真分數(shù)，它完全由學(xué)生的實際語言能力決定的；另一部分是測量誤差。這一關(guān)系可以表達為：或用圖表示為：四、影響信度的因素影響測試信度的因素有很多。在諸多

13、因素中，下列因素對信度有較大影響。1）測驗的長度所謂測驗的長度就是通常所指的試題的數(shù)量。在可能情況下，一次測驗的試題越多越好。但一次測驗包括的題目太多，考試時間過長會使學(xué)生筋疲力盡，結(jié)果反而影響測驗的信度。對于年齡較小的學(xué)生，應(yīng)注意保持適當(dāng)?shù)臏y驗時間，不至于因注意力等心理因素而影響測驗的信度。2）考生的能力差異考生的能力越是參差不齊，利用這組考生所計算出來的信度系數(shù)就越高。這一情況能很好地說明為什么大規(guī)模測試一般更為可靠，因為人數(shù)越多，能力差異就越大，從而信度就越高。這也就是為什么我們要求大規(guī)?？荚嚨男哦葢?yīng)比課堂考試信度高的原因。3）答題時間答題時間必須充裕。如果測驗時間不夠，考生在規(guī)定

14、時間內(nèi)完不成所有的試題，必然增加他們的緊張情緒，以及猜題、隨意答題的可能性。在考試中偶然因素起的作用越大考試的可靠性就越小。4）評分的客觀性評分越主觀片面，考試的信度越差。評分是否客觀是影響信度的一個重要因素。為了提高考試的信度，應(yīng)該注意主觀型試題在試卷中占適當(dāng)比重，或提高主觀型考試的評分客觀性。除了上述因素外，還有一些其它因素也能影響測試的可靠性，如考試的環(huán)境條件、考生的應(yīng)試心理等，。為了提高考試信度應(yīng)注意如下幾個方面：1) 在許可的情況下，試題的覆蓋面要廣，題量要盡量大；2) 試題的難度要恰當(dāng)，題目的要求要準(zhǔn)確、清楚；3) 考試時間應(yīng)充裕，考試的程序應(yīng)嚴(yán)格劃一；4) 評分必須有客觀統(tǒng)一標(biāo)

15、準(zhǔn)，盡量提高評分的客觀性；5）增強考生對應(yīng)試環(huán)境的適應(yīng)性，端正考試動機。五、信度與效度的關(guān)系（見“術(shù)語與難點解釋”）六、難度的計算難度(Power 或difficulty)指試題的難易程度。表示試題難易度的數(shù)量，稱為試題的難度指數(shù)，一般用P表示。由于試題的記分方法不同，所以難度的估計方法也不同。在外語考試中有兩種計算方法：0、1記分（間斷記分法）和非0、1記分法（連續(xù)記分法）。所謂0、1計分的測驗，就是二分記分法的測驗，即每題答對給1分，答錯給分。這

16、種記分法只有得分與不得分之分，分數(shù)是間斷的，用于多項選擇題、配對題等客觀型試題。非0、1記分法指連續(xù)記分法，常用于主觀型試題，例如，英語寫作題總分為25分，學(xué)生的得分可以從分、1分到25分不等，這種試題的得分是連續(xù)的。1）0、1記分法試題的難度估計 0、1記分法試題的難度指數(shù)的計算一般采用如下公式：其中：P表示試題的難度指數(shù)R表示某題答對的人數(shù)N表示考生的總?cè)藬?shù)2）非0、1記分法的試題難度估計非0、1記分法的試題難度可以用下列公式進行計算：

17、在計算和解釋難度指數(shù)時應(yīng)注意如下三點：（1）在計算試題的難度指數(shù)時，所選擇的考生樣本越有代表性，算出的試題難度指數(shù) 越準(zhǔn)確。（2）考生的樣本容量不得少于32人。人數(shù)過少，計算出的結(jié)果誤差就比較大。 (3) 以難度指數(shù)作為評估考試質(zhì)量的依據(jù)時，應(yīng)從試題本身的難度、學(xué)生的水平和教學(xué)質(zhì) 量等因素全面的考慮問題、分析原因。七、影響難度的因素根據(jù)難度的定義，試題的難度應(yīng)該由試題本身的復(fù)雜性所決定，但是根據(jù)難度指數(shù)的計算公式，一個題目的難度不僅受該題特征的影響，而且是下列三

18、個因素的一個函數(shù)，即題目的復(fù)雜程度、學(xué)生的能力水平及教學(xué)質(zhì)量（是否分析過類似的題目）。首先，題目本身的復(fù)雜性決定了題目的難度。但是難度指數(shù)是由答對該題的人數(shù)占總?cè)藬?shù)之比表示的，同樣一道題目，如果參加考試的人中，能力強的比較多，那么計算出來的難度指數(shù)就大，表示題目較易；相反如果能力差的人占考生總數(shù)的比例大，計算出的難度指數(shù)就小，表示題目較難，因此，目前計算難度指數(shù)的方法（或稱經(jīng)典測試?yán)碚摚╇y度指數(shù)受考生能力的影響。此外，試題難度指數(shù)還受第三個因素教學(xué)質(zhì)量的影響。同樣的題目，同樣能力的學(xué)生，如果教師在教學(xué)中講解過類似題目的解法，學(xué)生得分率就高。反映出來的題目難度就小。因此，一個題目的難度指數(shù)實際

19、上是題目復(fù)雜性、學(xué)生水平和教學(xué)質(zhì)量這三者相互作用的一個產(chǎn)物。八、區(qū)分度的計算試題的區(qū)分度(Discrimination)是指試題區(qū)分學(xué)生水平的鑒別力。計算試題區(qū)分度的方法很多，最常用的一種方法是用每個試題與試卷總分的相關(guān)系數(shù)來表示。一個試題的區(qū)分度的估計是基于這樣的假設(shè)：能力強的學(xué)生（以考試的總成績表示）應(yīng)該比能力差的學(xué)生答對該題的比例要大。因此某一試題得分和總分之間的相關(guān)性越高，說明區(qū)分度越大。我們也可以用下列比較簡單公式來計算實際的區(qū)分度：

20、0; 式中 D = 區(qū)分度指數(shù)H = 高分組答對某題的人數(shù)L = 低分組答對某題的人數(shù)N = 高分組(或低分組)人數(shù)上述公式只適用于0、1計分的試題，其計算步驟如下：（1）將全部試卷按總分從高到低排列。（2）確定高分組和低分組。如果總?cè)藬?shù)多，可取前三分之一（或27%）作高分組，后三分之一（或27%）作為低分組，且高分組人數(shù)與低分組人數(shù)相等。（3）算出高分組答對某題的人數(shù)(H) 和低分組答對該題的人數(shù) (L)。 (4）按公式算出該題的區(qū)分度。九、區(qū)分度與難度的關(guān)系

21、試題的難度和區(qū)分度存在著一定的關(guān)系，因此教師在命題時可以根據(jù)自己預(yù)估的試題難度來推測試題的區(qū)分度。一般而言，試題的難度指數(shù)在0.5左右時，試題的區(qū)分度最大。試題的難度和區(qū)分度最大值之間有如下關(guān)系。試題難度與區(qū)分度極大值的關(guān)系難度區(qū)分度極大值

22、; 1.00 0.00 0.90 0.20 0.70

23、60; 0.60 0.50 1.00 0.30 0.60 0.10

24、60; 0.20 0.00 0.00 上表只是從統(tǒng)計學(xué)角度看，試題難度和區(qū)分度的極大值之間有如此的關(guān)系。在實際測試中，這兩者之間的關(guān)系往往要復(fù)雜得多，并不一定出現(xiàn)如表中所示的一一對應(yīng)關(guān)系。但命題人員可以按理論上的這種關(guān)系預(yù)測試題的區(qū)分度。這比無的放矢的命題要科學(xué)得多。難

25、點解釋 1. 效度一份試卷是否有效，即試卷的效度(validity)，指的是這份試卷是否測量了它所要測量的東西，是否達到了它所預(yù)定的測試目的。一份英語試卷應(yīng)該測試的是英語語言本身，而不是其它學(xué)科的知識。例如，包含下列試題的試卷，盡管全是英語，但是用于測試學(xué)生的英語水平，其有效性就有問題，因為它實際上還在測試數(shù)學(xué)運算知識。A group of workers are paid 700 for decorating a house. The head o

26、f the group receives twenty-five percent of this amount and the other five members share the rest equally. How much does each of the five other workers receive·效度是個相對概念，而不是絕對概念。效度的相對性指條件的相對性和程度的相對性。一份試卷是否有效是指這份試卷是否符合原先預(yù)定的目的、功能和范圍等特定條件，而不是一般的目的、功能和范圍。例如，原先設(shè)計用于水平考試目的的試卷對于診斷考試可能不一定十分有效。在甲校有效的試卷拿到乙

27、校就可能就是那么有效了。所謂程度的相對性是指效度只有高低之分，而沒有全部有效和全部無效之分。這是因為個人或群體的語言能力特征只能通過其行為樣本間接地推測，而不可能直接測得，所以推測結(jié)果不可能絕對有效。因此，效度高低是就程度而言。實踐中，人們往往規(guī)定一個界限，作為參考標(biāo)準(zhǔn)。效度的評估，可以從四個方面考慮，它們?yōu)閮?nèi)容效度、構(gòu)想效度、預(yù)測效度和共時效度。 2. 信度與效度的關(guān)系會不會出現(xiàn)這種情況，月隊雖然多次測試都得出同樣臉結(jié)果，但實際上卻仍然沒能達到我們所要考查的目的妮·當(dāng)然會有這種情況。想知道課桌的長度卻去稱它的重量

28、，就是一例。同樣的道理，分列式測試的評分固然可靠，但是否有效呢·我們最終的興趣所在，是學(xué)生運用英語進行交際的能力。遺憾的是，分列式測試恰恰沒有直接衡量出這一點，它考查的只是詞匯和語法。這就是有效性的問題。也就是說，可靠的測試不一定都有效。正如稱重量得不出長度一樣，考語法也不一定能檢查出學(xué)生的理解能力。我們再看看問題的另一個方面。一個不可靠的測試可能是有效的嗎·我們說，只要測試的結(jié)果是可靠的，就能引出一定的結(jié)論;但如果結(jié)果不可靠，就不可能從申得出任何結(jié)論。因而，失去了可靠性，有效性也就不復(fù)存在了。確定了可靠性后，才能談到它是否有效。正因為如此，贊成分列式測試的人才指出，綜合性

29、測試的評分往往是不可靠的。同一篇作文可能會得到兩個不同的分數(shù)。既然評分不可靠，還有什么有效性可言呢·再舉兩個例子: 其一，如果我要考查你們的英語水平，方法是讓你們在一分鐘之內(nèi)寫出你能想得起來的所有的英語單詞，根據(jù)寫出的單詞的數(shù)量來判定你們英語水平的高低。這種測試可靠嗎·可能很可靠。但這是考查你們英語知識的有效方法嗎·你們認為這樣的測試公平合理嗎·當(dāng)然不。它檢查不出你們運用英語的能力，只是檢查了你們寫字的速度。所以即使它很可靠，也仍然不是考查英語水乎的有效方式。其二，假設(shè)你在課堂上向?qū)W生宣布:明天我要檢查大家最近三周的學(xué)習(xí)情況，重點是現(xiàn)在完成時和現(xiàn)在進行肘

30、。"可是第二天你卻用了教育局出的英語期申考試的試卷。這個考試可靠嗎·換句話說，如果把這份試卷分兩次考完，學(xué)生會不會得到同樣的分數(shù)·我們相信他們的分數(shù)會是基本不變的，因為教育局為了保證測試的可靠性，是肯定會下一番功夫的。但它對你所宣布的測試目的卻是無效的。你的目的是檢查最近三周的學(xué)習(xí)情況，重點是現(xiàn)在完成時和現(xiàn)在進行時的用法，而教育局的這份試卷里可能只有一、兩個題是有關(guān)現(xiàn)在完成肘和現(xiàn)在進行時的。那些回家后認真復(fù)習(xí)了這三周功課的學(xué)生會抱怨說:"這次測試包括了詞匯、翻譯等多種項目，但是只有一、兩個題是檢查現(xiàn)在完成時和現(xiàn)在進行時的用法的。"他們是在抱怨你

31、這次測試雖然可靠，但對于你所宣布的那個目的來說卻是無效的。再舉一個語言寮賦測試的例子。假設(shè)有很多學(xué)生報考我校，想學(xué)習(xí)英語，但我們只能招收兩個英語班。·那么這些機會應(yīng)該給哪些學(xué)生呢·我們可以進行一次語言票賦測試，看誰學(xué)習(xí)語言的能力最強。問題是考什么內(nèi)容。知果我們考的是他們己經(jīng)學(xué)會了多少英語，這也許是可靠的，但用這個測試來判斷學(xué)生學(xué)習(xí)英語的潛在能力，卻不是有效的。再從分數(shù)差異的角度分析可靠性和有效性的問題。每次測試，學(xué)生的分數(shù)都不盡相同。無論是高校招生考試·學(xué)校的期申考試、"托復(fù)"測試或課堂成績測試，可以肯定，學(xué)生不會都得相同的分數(shù)。這就是分數(shù)差

32、異。導(dǎo)致分數(shù)差異的原因很多，按照差異的性質(zhì)可以歸為三類(圖1)?，F(xiàn)在分別對它們加以分析。有些差異來自學(xué)生的情緒。人人都有順心的時候，也有煩惱的時候。有的學(xué)生早上一醒來心情就很好，家里人也都和顏悅色。起床后，吃了可口的早飯，就愉快地去學(xué)校參加測試。一切稱心如意，測試也順順當(dāng)當(dāng)。另一個學(xué)生一起床就跟妹妹吵了一架。接著又因為公共汽車晚點，上學(xué)遲到了。他急急忙忙地跑進教室，氣喘吁吁地坐下來匆忙答題。顯然。我們很難指望他會發(fā)揮出自己的最好水平。有些分數(shù)差異就是

33、出于這類與測試無關(guān)的小事造成的。這樣的事每天都會重演嗎·當(dāng)然不會。比如因汽車誤點而遲到的學(xué)生，下次可能會早些動身，以免再遲到。由這些情況造成的分數(shù)差異是偶然性的，叫做不可靠差異。引起不可靠差異的偶然因素，每人每天部可能遇到，難以預(yù)料，學(xué)生自己控制不了，教師也愛莫能助。假如你們參加一次重要測試，知高校招生考試，偏偏趕上了不順心的日子，那是很令人遺憾的。你的成績會因此受到影響，造成不可靠的分數(shù)差異。 3. 總體、樣本和抽樣在心理、教育以及其他許多領(lǐng)域的調(diào)查研究中，絕大部分不可能也沒有必要對所要研究的總體中的每一個個體

34、，逐一進行調(diào)查研究。一般的做法是，從總體中抽取一部分個體作為研究樣本，然后應(yīng)用參數(shù)估計或假設(shè)檢驗等統(tǒng)計方法，根據(jù)樣本的研究結(jié)果對總體特征進行推論，如下圖。這種推論的可靠性，一方面依賴于研究過程中無關(guān)變量的控制和數(shù)據(jù)處理的準(zhǔn)確性，另一方面則依賴于樣本的代表性。如果樣本不能很好地代表總體，即使無關(guān)變量控制得很好，統(tǒng)計方法運用得確切，對總體的推論也是缺乏可靠性的?？荚噷嶋H上也是一個抽樣過程。我們不可能在幾小時內(nèi)，把學(xué)生幾年甚至十幾年中掌握的語言知識和技能（總體）都考一遍，而是抽取一部分內(nèi)容（樣本）進行考核。然后根據(jù)考試成績推斷學(xué)

35、生的總體語言能力。因此，試題的代表性具有很重要的意義。 4. 構(gòu)想效度1）結(jié)構(gòu)效度的概念“結(jié)構(gòu)效度”這一詞是由柯龍巴赫(Cronbach)和米海爾(Meehl)于1954年首創(chuàng)。所謂結(jié)構(gòu)效度是指測驗對于人的假設(shè)屬性或理論概念測量到的程度。這些假設(shè)屬性或理論概念是決定人們外部行為的內(nèi)隱或潛在的特性。但是這種特性無法給于操作性的定義。它所支配的行為也無法直接觀察到。也可以說，在現(xiàn)實世界中并沒有與這種屬往直接相對應(yīng)的東西存在，而是一種假設(shè)存在的屬性。例如，智力、成就動機、語言流利、焦慮、等等。而教育測量有時雖然也涉及到假設(shè)結(jié)構(gòu)的

36、問題，但大多數(shù)目的在于測量學(xué)生對知識、技能的掌握程度，而且測驗的內(nèi)容與特定的知識或行為有一對一的配合形式，對于這種屬性一般都能予以操作性的定義。因此它不屬于假設(shè)的結(jié)構(gòu)。對于這種假設(shè)的心理屬性，在現(xiàn)實中并沒有效標(biāo)能夠加以測量，在檢定測驗的結(jié)構(gòu)效度時，也無法直接得到效標(biāo)分數(shù)，只能尋求其它方法估計效標(biāo)分數(shù)。檢定結(jié)構(gòu)效度的目的，既不在于考查測驗對效標(biāo)的預(yù)測效果，也不在于考查測驗內(nèi)容的代表性程度，其目的在于從理論上探究所建構(gòu)的假設(shè)屬性或理論概念是否能夠成立。2）結(jié)構(gòu)效度的建立過程在編制測驗時，建立結(jié)構(gòu)效度的過程有以下幾個步驟：對所欲測量的屬性根據(jù)某種理論提出假定的結(jié)構(gòu)。根據(jù)假定的結(jié)構(gòu)擬定測題，編制

37、測驗。抽取樣本進行預(yù)備測驗，并對測驗的信度進行檢定。尋求測驗分數(shù)與其它評定之間的關(guān)系。例如，為建立學(xué)能測驗的結(jié)構(gòu)效度，可以考察一組被試的測驗分數(shù)與其教師評定結(jié)果之間的相關(guān)。如果發(fā)現(xiàn)測驗分數(shù)與教師評定結(jié)果之間相關(guān)低，是由于測驗作答的語言流暢性和測題的類型所造成，則為修改測驗、排除無關(guān)因子的影響提供了依據(jù)。以測驗結(jié)果為根據(jù)來驗證假設(shè)結(jié)構(gòu)中的各種因素是否成立，其驗證的方法，可從差異性上尋求證據(jù)。假如道德品質(zhì)好的與道德品質(zhì)差的被試，所居住的地區(qū)環(huán)境有顯著差異，那么，居住的地區(qū)環(huán)境就是形成青少年道德品質(zhì)傾向結(jié)構(gòu)中的因素之一。通過實驗研究也可以驗證假設(shè)結(jié)構(gòu)中的各種因素是否成立。例如，對一般性焦慮作實驗

38、研究，在學(xué)期開始時將一個班級的學(xué)生隨機分成兩組，向其中一組學(xué)生宣布，學(xué)期末考試總分只有10%的人會得甲等，有一半人會不及格；而向另一組學(xué)生宣布，所有的人都會及格，有一半人會得甲等。然后對兩組學(xué)生進行焦慮測驗，如果兩組測驗分數(shù)有顯著性差異，則可表明事先宣布可能的學(xué)習(xí)成績與一般性焦慮有密切關(guān)系。將與假設(shè)結(jié)構(gòu)相違背的測題刪去，對測驗進行修改之后，再重新實施第和第個步驟。 5. 相關(guān)系數(shù)1) 為什么要研究相關(guān)首先讓我們來考慮以下幾種情況。第一種情況: 假定某一班先后參加了兩次測試，結(jié)果每個學(xué)生都得到兩個分數(shù)。我們需要知道的是學(xué)生兩

39、次測試的分數(shù)在多大程度上是一致的。這個問題直接關(guān)系到測試的可靠性和有效性。在相同的條件下，一次可靠性強的測試，知果再進行一次，將會得出與第一次相同的結(jié)果。如果同一測試采用的兩種形式都可靠的話，它們就應(yīng)當(dāng)能把學(xué)生分成同樣等級。一個效性高的測試考查的是它所應(yīng)當(dāng)考查的東西，因此，它對學(xué)生程度的劃分應(yīng)當(dāng)和考查同一技能的其它有效性強的測試相一致?？梢?，兩種測試能否把學(xué)生分成同一等級，這一問題對測試的可靠性和有效性都是很重要的。第二種情況:某一班學(xué)生先后參加了一次閱讀理解測試和一次閱讀速度測試。我們很想知道這兩種技能的關(guān)系。換句話說，我們想知道在多大程度上從學(xué)生的閱讀速度上能推斷出他的閱讀理解能力;或者與

40、此相反，閱讀理解的測試能在多大程度上預(yù)示閱讀的速度。第三種情況:假定某班學(xué)生寫了一次作文。鑒于批改作文常常缺乏可靠性，每篇作文都由兩名教師分別評分。這樣，我們就有必要知道這兩次評分在多大程度上是一致的。以上這三種情況有一個共同點，即從同一組學(xué)生中產(chǎn)生了兩組分數(shù)，我們需要知道這兩組分數(shù)的關(guān)系如何。這就要靠統(tǒng)計學(xué)來幫忙了。我們可先畫出這兩組分數(shù)的分布圖。以閱讀速度和閱讀理解的測試為例，如果座標(biāo)上的點能夠連成一條向上的直線，就說明這兩組分數(shù)把"生分成完全一樣的等級。閱讀速度越快，理解越好。我們完全可以從學(xué)生的閱讀速度上推測出他的理解能力。(見圖10) &#

41、160; 如果座標(biāo)上的點組成一條向下的直線，就說明一種完全相反的情形，即閱讀速度越快，理解越差。但是我們?nèi)耘f可以從閱讀速度中看出閱讀理解能力。(見圖11) 如果座標(biāo)上的點零散地分布在圖上，形成一片，那就說明兩者之間沒有任何聯(lián)系。(見圖12)

42、; 再以作文為例，如果兩名教師對每篇作文都給予相同的評分，座標(biāo)上就會顯示出一條向上的直線。(見圖13) 如果其中一名教師的評分始終是另一名所評的分數(shù)的一半，座標(biāo)上仍會呈現(xiàn)出一條直線，但其傾斜度會稍有不同。(見圖14) 在實際教學(xué)申，就普通規(guī)模的班級而言，完全一致的兩組分數(shù)幾乎是不可能出現(xiàn)的

43、。通常出現(xiàn)的情形是在兩組分數(shù)間有一定的聯(lián)系，座標(biāo)上分布的點接近于一條直線，但還有許多點分散在直線兩側(cè)。這種座標(biāo)圖叫做散點相關(guān)圖(scatter plot)。(見圖15) 當(dāng)遇到這種情況時，就應(yīng)求助于統(tǒng)計學(xué)了。用來表示相關(guān)程度的數(shù)據(jù)叫做相關(guān)系數(shù)。 2) 相關(guān) 系數(shù)相關(guān)系數(shù)的范圍是+1.O到-1.0。+1.0意味著從一組分數(shù)上完全可以推算出另一組分數(shù);學(xué)生在一組分數(shù)里的分越高;在另一組里的分數(shù)也就越高。-1.0同樣意味著從一組分數(shù)上可以完全推算出另一組

44、分數(shù)，不過學(xué)生在一組里的分數(shù)越高，他們在另一組里的分數(shù)就越低。相關(guān)系數(shù)等于0的時候，說明兩組分數(shù)之間沒有任何聯(lián)系。不能從一組分數(shù)中推算出另一組分數(shù)。要注意，相關(guān)系數(shù)是正數(shù)還是負數(shù)并不重要。重要的是它的數(shù)值的大小。相關(guān)系數(shù)的絕對值越大，就越能從一組分數(shù)里推算出另一組分數(shù)。在實際教學(xué)中，相關(guān)系數(shù)很少是+1.0。如果我們在一個五十人的班級里進行兩次英語水平測試的話，相關(guān)系數(shù)能達到0.70就很不錯了。一個試卷的總分和同一試卷上其一部分的分數(shù)間的相關(guān)系數(shù)可能會高一些，如0.80。同樣考查英語能力，但側(cè)重點有所不同的測試間，如聽力和作文間的相關(guān)系數(shù),可能會低一些，如0.60。一一個學(xué)生所得的卷面分數(shù)和他試

45、卷上出現(xiàn)的錯誤數(shù)目間的相關(guān)系數(shù)可能會是-0.60。相關(guān)系數(shù)達到0.80或0.90時，就意味著兩者間相互推斷的可能性很大了。我們可以通過幾個實例來說明怎樣分析相關(guān)系數(shù)。到美國威斯康星大學(xué)就學(xué)的外國留學(xué)生都要通過英語作為第二語言的測試，即密執(zhí)安英語水平測試(Michigan Test of English Language Proficiency)。其中有三部分:語法、詞匯和閱讀埋解。我們很想知道這三部分之間有多大相關(guān)性。比如說，能在多大程度上從一個學(xué)生的語法分數(shù)上推測出他的詞匯分數(shù)，或能在多大程度上從詞匯分數(shù)上推測出閱讀理解分數(shù)。我們可以預(yù)期它們之間會有相當(dāng)?shù)穆?lián)系，因為考查的內(nèi)容都屬于學(xué)生語言能

46、力。如果一個學(xué)生在詞匯部分得了最高分，而在閱讀理解部分卻得了最低分，我們一定會感到意外。在另一方面，這幾部分又不可能完全一致，因為考查的畢竟是不同的技能。如果三者相關(guān)度很高，就沒有必要把一個測試分成三部分了。我們實際得到的結(jié)果如下: Grammar Vocabulary Vocabulary 0.70 1.00 Reading 0.58 0.64表中數(shù)字表明，三者間確有一定程度的相關(guān)。在

47、看到實際數(shù)字前，可能有人會預(yù)料詞匯和閱讀理解間的相關(guān)系數(shù)最高。但事實上是詞匯和語法間有更密切的聯(lián)系。不出多數(shù)人的預(yù)料，語法和閱讀理解是最不相關(guān)的兩項。顯然，一般學(xué)生并不見得需要懂得許多語法，就能夠看明白整個篇章。下面是另一個實例。威斯康星大學(xué)每年暑期都舉辦英語作為第二語言的補習(xí)班。補習(xí)班結(jié)業(yè)時，每位參加學(xué)習(xí)的留學(xué)生都要通過三項測試: 密執(zhí)安英語水平測試，聽力測試和作文。這三者之間到底有什么聯(lián)系· 比如，聽力和寫作之間有多少一致的地方· 它們是否是完全不同的技能· 如果是不同的技能，兩者間的相關(guān)系數(shù)就會很低。我們需要了解這些情況的原因之一，就是要確定有無必要進行全部

48、三項測試。假如密執(zhí)安測試和作文的相關(guān)系數(shù)很高，就可以只進行一項，而把節(jié)省下來的時間用于課堂教學(xué)。另外，批改作文需要花很長的時間。為了保證可靠性，每篇作文都要請三名老師批改，而這個工作量是很大的。我們實際得到的結(jié)果如下: Michigan Test Listening Comprehension Listening Comprehension0.70 1.00 Composition 0

49、.64 0.49 這三者間的關(guān)系有的很一般，有的屬于中等或偏上。這說明它們之間的相似之處并不很多。三項測試考查的是雖有聯(lián)系，但又不相同的能力。因此，三項測試都進行還是有必要的。 3) 怎樣分析相關(guān)系數(shù)當(dāng)相關(guān)系數(shù)不是+1.0或-1.0時，分析相關(guān)系數(shù)要按照以下四個步驟:1. 首先要核對該相關(guān)系數(shù)是否達到一定的值，以便確定該系數(shù)的出現(xiàn)是否具有偶然性。具體做法是查對一個標(biāo)明數(shù)值意義的表格。從表格上可以知道，就一定數(shù)量的學(xué)生而言，相關(guān)系數(shù)達到多少時，它的出現(xiàn)才沒有

50、或有很少的偶然性。具體說，在一個52個人的班級里，相關(guān)系數(shù)大于0.27時，它的出現(xiàn)就只有5%的偶然性。換句話說，假定兩個測試間沒有任何關(guān)系(如任意取兩個數(shù)字)，那么產(chǎn)生大于0.27的相關(guān)系數(shù)的可能性就只有5%。當(dāng)然，任何數(shù)值的相關(guān)系數(shù)都可能在偶然中產(chǎn)生。也正因為這樣，我們必須知道某-數(shù)值出現(xiàn)的純偶然性究竟有多大。2. 計算出兩個分數(shù)間可以互相推斷的程度。從相關(guān)系數(shù)本身并不能看出這一點。也就是說，相關(guān)系數(shù)是0.50時，并不意味著兩個測試的評分中有50%是一致的。我們必須要算出相關(guān)系數(shù)的平方，所得的數(shù)字就代表兩個測試中相同因素的比例。比如，相關(guān)系數(shù)是0.50 時，0.50×0.50 =

51、0.25，即25%。這說明兩個測試的分數(shù)中只有25%的因素是一樣的。相關(guān)系數(shù)的平方可直接反映出在多大程度上可以從一個測試分數(shù)上推測出另一個測試的分數(shù)。3. 確定相關(guān)的程度是否具有實際意義。例如，數(shù)值為0.27的相關(guān)系數(shù)所代表的相同因素，只有7%(0.27×0.27=0.07)。在實際工作中，這個數(shù)值就沒有什么意義了。它表明兩組分數(shù)間沒有什么共同性，它們不足以把學(xué)生分成相應(yīng)的等級。上文提到威斯康星大學(xué)暑期英語補習(xí)班結(jié)束時要舉行三項測試，究竟有無必要全部進行呢·回答是肯定的，從三個相關(guān)系數(shù)的平方值可看出，三項測試問相同的因素并不多。密執(zhí)安測試和聽力測試間的相同因素最多，但也只有

52、大約50%。其它兩個數(shù)值就更小了?？傊?，三項測試說明了不同的問題，它們考查的技能雖有聯(lián)系，但并不相同。判斷的標(biāo)準(zhǔn)還要視情況而改變。比如，密執(zhí)安測試有多種不同的編號。在兩次平行的密執(zhí)安測試間應(yīng)有多大的相關(guān)系數(shù)呢· 應(yīng)該不小于0.90。再如，兩名教師對同一組作文的評分的相關(guān)系數(shù)應(yīng)該比較高。雖然兩組作文分數(shù)間很難有很高的相關(guān)系數(shù)，但如果數(shù)值低于0.70，那也是出乎意料的。分析相關(guān)系數(shù)沒有一個絕對的標(biāo)準(zhǔn)，要根據(jù)情況而定。4. 分析一下為什么會出現(xiàn)這種程度的相關(guān)。較明顯的原因可能是兩個測試在一定程度上考查的是相同或相近的技能(高相關(guān)系數(shù))，或者是不同的技能(低相關(guān)系數(shù))。比如，知果一個語法測試

53、和一個詞匯測試高度相關(guān)，可能是由于語法測試中有許多難懂的詞，使得語法測試成了一個變相的詞匯測試。還有一些其它的因素，也能影響相關(guān)的程度。比如，測試時如果只讓兩個極端的學(xué)生參加(即只有學(xué)習(xí)最好的學(xué)生和學(xué)習(xí)最不好的學(xué)生，而沒有中等水平的學(xué)生)，也會使相關(guān)系數(shù)顯得很高而足以使人誤解。因為兩類學(xué)生的水平懸殊太大，所以在一次測試中得高分的學(xué)生，肯定也會在另一次測試中得高分;同樣道理，在一次測試中得低分的學(xué)生，也肯定會在另一次測試?yán)锏玫头?。相反的情形也會影響相關(guān)系數(shù)。如果有一組分數(shù)相差不大，那么不管兩個測試在實際上有沒有關(guān)系，都會使相關(guān)系數(shù)變得很低。以作文為例，如果一位教師所評分數(shù)的范圍是從A到D，另一位

54、教師所評的分數(shù)只限于很小的范圈內(nèi)，如B+,B,B-等，這樣兩組分數(shù)間的相關(guān)系數(shù)就會很小。分析相關(guān)系數(shù)時還應(yīng)注意以下幾點:1. 相關(guān)的程度和可推斷性并不直接和相關(guān)系數(shù)成比例關(guān)系。0.80和0.90之間可推斷性的差別比0.20相0.30之間的差別大得多。(大家自己計算一下，就可看出差別了。)2. 知果甲和乙高度相關(guān)，我們不能得出結(jié)論，說甲是造成乙的原因，也不能說乙是造成甲的原因。這樣下結(jié)論是一種很常見的錯誤。例如，在上文所舉的密執(zhí)安測試的第一個例子中，0.70是否意味著只要詞匯量大，就可以把語法題目做得很好呢·不是的。真正的原因可能在于詞匯考得好的學(xué)生學(xué)習(xí)英語的時間較長，所以他們的語法也

55、考得較好。如果是這樣，這兩部分高度相關(guān)的原因在于它們都和第三個因素有關(guān)，即和學(xué)生學(xué)習(xí)英語的時間有關(guān)。3. 一般說來，相關(guān)系數(shù)可以座標(biāo)圖上的直線來表示，這種相關(guān)又稱為線性相關(guān)。如果兩個因素的關(guān)系在座標(biāo)圖上呈曲線，線性相關(guān)這一概念就不能充分反映出兩者間的可推斷性。亞力山大·吉歐拉(Alexander Guiora)曾做過一個飲酒對外語發(fā)音影響的試驗。在教學(xué)生練習(xí)泰國語發(fā)音之前，他讓一部分學(xué)生喝了數(shù)量不等的酒。結(jié)果很有趣。沒有喝酒的學(xué)生在練習(xí)這個完全陌生的語言時，發(fā)音不很準(zhǔn)確。喝了少量酒的學(xué)生的發(fā)音比較好，這可能是由于酒使他們精神放松，減少了一些不必要的顧慮。喝酒多的學(xué)生的發(fā)音又不準(zhǔn)確了，這可能是因為酒喝得過多，以致使他們都不能控制自己的舌頭了。如圖16所示，飲酒量(alcohol)和發(fā)音之間存在一個曲線關(guān)系?？傊?dāng)有這種曲線關(guān)系出現(xiàn)時，再分析線性相關(guān)就不適當(dāng)了。對于推斷性而言，曲線和直線是兩種不同的基礎(chǔ)· 6. 考試的價值語言測試的有用程度 = 信度構(gòu)想效度測試的真實性交往程度

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

考試的質(zhì)量指標(biāo)2周

文檔簡介

溫馨提示

最新文檔

評論

考試的質(zhì)量指標(biāo)2周

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔