版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、沈 陽 大 學 教 案 課程名稱: 英語語言測試技巧 編寫時間: 年 月 日授課章節(jié)第三章 考試的質量指標目的要求要求學生掌握衡量考試質量的四個主要指標,運用效度和信度對考試的質量進行分析。要求掌握難度和區(qū)分度的計算的方法和影響難度和區(qū)分度的主要因素。重點難點效度的概念、效度的分類; 信度的概念、影響信度的因素、信度與效度的關系難度的計算方法、影響難度的因素; 區(qū)分度的計算方法、其與難度之間的關系教案內容:I. 教學方法: 交際式教學法II. 教學過程復習與導入 1. 討論題: 外語測試有哪些分類? 本章導讀 本
2、章的一些基本概念雖比較抽象,卻與提高考試質量有著密不可分的關系。建議學員在學習本章時,結合考試實踐展開討論,這樣有助加深對本章的理解。 本章是“語言測試”最重要,也是最抽象、難懂的一章,但可以毫不夸張地說,掌握了本章,也就掌握了“語言測試”的精髓。建議學員在這一章多化一些時間,把基本概念梳理清楚。在衡量考試質量的四個主要指標中,效度和信度是最重要的兩個指標。要求能夠運用這兩個概念對日常教學考試的質量進行分析。而難度和區(qū)分度則要求掌握計算的方法和影響難度和區(qū)分度的主要因素。本章的一些基本概念雖比較抽象,卻與提高考試質量有著密不可分的關系。建議學員在學習本章時,結合考試實踐展開討論,這樣有助加深對
3、本章的理解。 “相關系數(shù)”的概念對于加深理解“效度”和“信度”有一定幫助,但不作為必讀的材料。練習中的難度和區(qū)分度的計算題一定要做,這樣可以檢驗一下是否正確理解了這兩個概念和計算公式。本章的一些基本概念雖比較抽象,卻與提高考試質量有著密不可分的關系。建議學員在學習本章時,結合考試實踐展開討論,這樣有助加深對本章的理解。第三章 講授新課一、效度的概念與分類 1)效度的概念考試的效度指的是考試在多大程度上測出預期要測量的東西,或者說考試在多大程度上完成了預期的測量任務,達到了預期測試的目標。效度概念包含了兩層含義,一是考試究竟測
4、量的是什么(what);二是測出的程度有多大(how well)。例如,我們舉行一次英語考試目的是想測定學生使用英語進行交際的能力,那么這次考試的質量高低可以用效度這個指標來衡量,效度高表明:(1)這次考試測量的的確是學生的交際能力,而不是其他東西;(2)這次考試能很好的測出學生的交際能力。如果考試考的不是學生的交際能力,則認為它效度很低。因此,效度也可以理解為從測驗的成績中能作出什么樣的推斷,它的有效程度如何(教育評價百科全書),或根據(jù)美國心理學會的定義,效度是一個從測驗分數(shù)中能恰當?shù)赝茢喑鍪裁唇Y果的問題。效度是一個相對的概念。效度的有效性總是相對于一定的目的、功能和范圍而言。對于某一目的是
5、有效的考試,用于另一目的就未必有效。效度相對性的另一層含義是程度的相對性,即效度不是有或無的關系,而只是高低程度上的不同。由于語言能力是一個抽象的概念,我們只能通過測量學生的語言行為,間接地推斷出他的能力,因此不可能說一次考試是絕對有效的;另一方面,由于影響語言能力的各種因素是相互聯(lián)系的,所以不同形式的語言考試總有一定的相關,這也決定了語言考試也不存在絕對無效的情況。根據(jù)美國心理學會1974年出版的教育與心理測驗標準一書,考試的效度可分成三大類:內容效度、結構效度和效標關聯(lián)效度。嚴格地說,我們可以從以上三個方面來評估考試效度的高低。2)效度的分類內容效度(Content Validity)內容
6、效度指考試內容是否真實地代表了它所要測量的內容,或者說,考試的題目在多大程度上能代表它所要測量的目標。它可以從三個方面進行判斷:(1)測試內容是否和測試目標有關;(2)測試內容(試題)是否具有代表性;(3)測試內容是否適合測試對象。內容效度對于成績考試和標準參照考試都具有特別重要的意義。因為成績考試的用途是測定學生對過去學過的知識和技能實際掌握的程度,因此教學大綱是成績考試的命題依據(jù);,標準參照考試以原先制訂的標準作為評價考試成績優(yōu)劣的依據(jù),所以這兩類考試都必須重視內容效度。構想效度(Construct Validity)考試的構想效度指考試實際測得的東西與理論所假設的能力要素或心理特征相吻合
7、的程度。就語言測試而言,構想效度指考試結果能在多大程度上解釋人的語言能力及與語言有關的心理特征。如果考試所測得的東西與理論對語言能力的構想相吻合,我們就認為考試有很好的構想效度。我們通過外語考試,除了想了解學生掌握語言知識情況外,最希望了解學生的語言能力和交際能力。能力是一個抽象的概念,我們無法對學生的語言能力進行直接測試,而只能通過測定可以看得見的語言行為,并借助有關的語言學習理論來間接地推斷學生的語言能力。這樣就存在著考試所測得的結果與理論所構想的能力結構之間是否吻合的問題。由于我們需要借助理論構想來判斷考試成績是否能代表一個人的真實能力,所以構想效度也稱理論效度。構想效度是一個相對的概念
8、,它是相對一定的理論構想而言的。隨著語言理論的發(fā)展,對構想效度的研究也應不斷改進。效標關聯(lián)效度(Criterion-related validity) 效標是效度標準的簡稱,是檢定考試效度的一個參照物。所謂效標關聯(lián)效度就是以考試分數(shù)與效標分數(shù)之間的相關來表示的一種效度,也稱為統(tǒng)計效度。效標關聯(lián)效度表示的是考試與效標之間彼此擬合的程度。根據(jù)測驗分數(shù)和效標分數(shù)獲得的時間關系,可以將效標關聯(lián)效度分為預測效度和共時效度。預測效度的考試分數(shù)獲得在前,效標分數(shù)獲得在后,這兩個分數(shù)獲得的時間間隔可能數(shù)周,數(shù)月,甚至數(shù)年;而共時效度兩個分數(shù)幾乎可以同時獲得。這兩種效度的共同之處在于都利用數(shù)理統(tǒng)計的方法通過相關
9、系數(shù)來表示效度的高低。二、不同的考試對效度的不同要求 效度是一個相對的概念,效度的高低是相對一定測試目的而言的,因此不同目的的考試對各類效度的要求也不盡相同,它們之間的關系可以用表3.2表示。 表3.1考試類別與效度之間的關系 考試類別效度判斷標準方法成績考試水平考試 學能考試診斷考試 內容效度效標關聯(lián)效度(預測、共時)構想內容效度 大綱將來要從事的任務語言學習理論大綱專家判斷相關系數(shù)統(tǒng)計法理論判斷 因素分析 專家判斷 上表所列各類考試和效度之間的關系并
10、不意味著一類考試只需一類效度。對所有考試來說都要注意構想效度。表3.1所列關系只表明各類考試應特別注意的效度。表 3.2 效度分類及其測試方法 類 型所要解決的問題方 法目 的舉 例內容效度是否考了要考的內容;試題是否有代表性將題目與考試大綱規(guī)定的內容作比較檢查成績期中、期末考試、畢業(yè)考試構想效度是否與理論構想一致;是否與經(jīng)驗一致與理論、實際經(jīng)驗進行比較對心理特征與能力傾向作檢驗學能考試預測效度對未來的工作和學習做出預測對比學習前后的成績選拔分類大學入學考試、水平考試共時效度對目前的學習成績做出估計對比考生同時參加的兩次考試的成績建立常模把某一考試和另一標準化考試成績比較
11、0;三、信度的概念 信度(Reliability)是指考試結果的可靠性和穩(wěn)定性。所謂考試的信度是指同一個測驗(或相等的兩個或多個測驗)對同一組考生測試兩次或多次,其結果的一致性程度。也就是說,考生多次參加某種測驗,如果每次得到近乎一樣的分數(shù),那么可以認為該測驗的信度是高的;如果每次分數(shù)忽高忽低,說明該測驗可靠性不夠、信度低。任何考試只有可靠才能有效。因此信度高是效度高的必要前提。信度通常以兩次測驗結果的相關系數(shù)來表示,稱之為信度系數(shù)(Coefficient of reliability)。相關的程度越高,信度也越高。信度也可
12、用測量的標準誤差表示。凡是測量都會有誤差,信度實際上表示的是測量的精度。從理論上講,每一個考生在測驗中所獲得的分數(shù)都包括兩部分,一部分是真分數(shù),它完全由學生的實際語言能力決定的;另一部分是測量誤差。這一關系可以表達為: 或用圖表示為: 四、影響信度的因素 影響測試信度的因素有很多。在諸多
13、因素中,下列因素對信度有較大影響。1) 測驗的長度所謂測驗的長度就是通常所指的試題的數(shù)量。在可能情況下,一次測驗的試題越多越好。但一次測驗包括的題目太多,考試時間過長會使學生筋疲力盡,結果反而影響測驗的信度。對于年齡較小的學生,應注意保持適當?shù)臏y驗時間,不至于因注意力等心理因素而影響測驗的信度。2) 考生的能力差異考生的能力越是參差不齊,利用這組考生所計算出來的信度系數(shù)就越高。這一情況能很好地說明為什么大規(guī)模測試一般更為可靠,因為人數(shù)越多,能力差異就越大,從而信度就越高。這也就是為什么我們要求大規(guī)模考試的信度應比課堂考試信度高的原因。3) 答題時間答題時間必須充裕。如果測驗時間不夠,考生在規(guī)定
14、時間內完不成所有的試題,必然增加他們的緊張情緒,以及猜題、隨意答題的可能性。在考試中偶然因素起的作用越大考試的可靠性就越小。4) 評分的客觀性評分越主觀片面,考試的信度越差。評分是否客觀是影響信度的一個重要因素。為了提高考試的信度,應該注意主觀型試題在試卷中占適當比重,或提高主觀型考試的評分客觀性。除了上述因素外,還有一些其它因素也能影響測試的可靠性,如考試的環(huán)境條件、考生的應試心理等,。為了提高考試信度應注意如下幾個方面:1) 在許可的情況下,試題的覆蓋面要廣,題量要盡量大;2) 試題的難度要恰當,題目的要求要準確、清楚;3) 考試時間應充裕,考試的程序應嚴格劃一;4) 評分必須有客觀統(tǒng)一標
15、準,盡量提高評分的客觀性;5) 增強考生對應試環(huán)境的適應性,端正考試動機。五、信度與效度的關系 (見“術語與難點解釋”)六、難度的計算 難度(Power 或difficulty)指試題的難易程度。表示試題難易度的數(shù)量,稱為試題的難度指數(shù),一般用P表示。由于試題的記分方法不同,所以難度的估計方法也不同。在外語考試中有兩種計算方法:0、1記分(間斷記分法)和非0、1記分法(連續(xù)記分法)。所謂0、1計分的測驗,就是二分記分法的測驗,即每題答對給1分,答錯給分。這
16、種記分法只有得分與不得分之分,分數(shù)是間斷的,用于多項選擇題、配對題等客觀型試題。非0、1記分法指連續(xù)記分法,常用于主觀型試題,例如,英語寫作題總分為25分,學生的得分可以從分、1分到25分不等,這種試題的得分是連續(xù)的。1)0、1記分法試題的難度估計 0、1記分法試題的難度指數(shù)的計算一般采用如下公式: 其中:P表示試題的難度指數(shù)R表示某題答對的人數(shù)N表示考生的總人數(shù)2)非0、1記分法的試題難度估計非0、1記分法的試題難度可以用下列公式進行計算:
17、 在計算和解釋難度指數(shù)時應注意如下三點:(1) 在計算試題的難度指數(shù)時,所選擇的考生樣本越有代表性,算出的試題難度指數(shù) 越準確。(2)考生的樣本容量不得少于32人。人數(shù)過少,計算出的結果誤差就比較大。 (3) 以難度指數(shù)作為評估考試質量的依據(jù)時,應從試題本身的難度、學生的水平和教學質 量等因素全面的考慮問題、分析原因。七、影響難度的因素 根據(jù)難度的定義,試題的難度應該由試題本身的復雜性所決定,但是根據(jù)難度指數(shù)的計算公式,一個題目的難度不僅受該題特征的影響,而且是下列三
18、個因素的一個函數(shù),即題目的復雜程度、學生的能力水平及教學質量(是否分析過類似的題目)。 首先,題目本身的復雜性決定了題目的難度。但是難度指數(shù)是由答對該題的人數(shù)占總人數(shù)之比表示的,同樣一道題目,如果參加考試的人中,能力強的比較多,那么計算出來的難度指數(shù)就大,表示題目較易;相反如果能力差的人占考生總數(shù)的比例大,計算出的難度指數(shù)就小,表示題目較難,因此,目前計算難度指數(shù)的方法(或稱經(jīng)典測試理論)難度指數(shù)受考生能力的影響。此外,試題難度指數(shù)還受第三個因素教學質量的影響。同樣的題目,同樣能力的學生,如果教師在教學中講解過類似題目的解法,學生得分率就高。反映出來的題目難度就小。因此,一個題目的難度指數(shù)實際
19、上是題目復雜性、學生水平和教學質量這三者相互作用的一個產(chǎn)物。八、區(qū)分度的計算 試題的區(qū)分度(Discrimination)是指試題區(qū)分學生水平的鑒別力。計算試題區(qū)分度的方法很多,最常用的一種方法是用每個試題與試卷總分的相關系數(shù)來表示。一個試題的區(qū)分度的估計是基于這樣的假設:能力強的學生(以考試的總成績表示)應該比能力差的學生答對該題的比例要大。因此某一試題得分和總分之間的相關性越高,說明區(qū)分度越大。我們也可以用下列比較簡單公式來計算實際的區(qū)分度:
20、0; 式中 D = 區(qū)分度指數(shù)H = 高分組答對某題的人數(shù)L = 低分組答對某題的人數(shù)N = 高分組(或低分組)人數(shù)上述公式只適用于0、1計分的試題,其計算步驟如下:(1)將全部試卷按總分從高到低排列。(2)確定高分組和低分組。如果總人數(shù)多,可取前三分之一(或27%)作高分組,后三分 之一(或27%)作為低分組,且高分組人數(shù)與低分組人數(shù)相等。(3)算出高分組答對某題的人數(shù)(H) 和低分組答對該題的人數(shù) (L)。 (4)按公式算出該題的區(qū)分度。 九、區(qū)分度與難度的關系
21、 試題的難度和區(qū)分度存在著一定的關系,因此教師在命題時可以根據(jù)自己預估的試題難度來推測試題的區(qū)分度。一般而言,試題的難度指數(shù)在0.5左右時,試題的區(qū)分度最大。試題的難度和區(qū)分度最大值之間有如下關系。 試題難度與區(qū)分度極大值的關系 難度 區(qū)分度極大值
22、; 1.00 0.00 0.90 0.20 0.70
23、60; 0.60 0.50 1.00 0.30 0.60 0.10
24、60; 0.20 0.00 0.00 上表只是從統(tǒng)計學角度看,試題難度和區(qū)分度的極大值之間有如此的關系。在實際測試中,這兩者之間的關系往往要復雜得多,并不一定出現(xiàn)如表中所示的一一對應關系。但命題人員可以按理論上的這種關系預測試題的區(qū)分度。這比無的放矢的命題要科學得多。難
25、點解釋 1. 效度一份試卷是否有效,即試卷的效度(validity),指的是這份試卷是否測量了它所要測量的東西,是否達到了它所預定的測試目的。一份英語試卷應該測試的是英語語言本身,而不是其它學科的知識。例如,包含下列試題的試卷,盡管全是英語,但是用于測試學生的英語水平,其有效性就有問題,因為它實際上還在測試數(shù)學運算知識。A group of workers are paid 700 for decorating a house. The head o
26、f the group receives twenty-five percent of this amount and the other five members share the rest equally. How much does each of the five other workers receive·效度是個相對概念,而不是絕對概念。效度的相對性指條件的相對性和程度的相對性。一份試卷是否有效是指這份試卷是否符合原先預定的目的、功能和范圍等特定條件,而不是一般的目的、功能和范圍。例如,原先設計用于水平考試目的的試卷對于診斷考試可能不一定十分有效。在甲校有效的試卷拿到乙
27、校就可能就是那么有效了。所謂程度的相對性是指效度只有高低之分,而沒有全部有效和全部無效之分。這是因為個人或群體的語言能力特征只能通過其行為樣本間接地推測,而不可能直接測得,所以推測結果不可能絕對有效。因此,效度高低是就程度而言。實踐中,人們往往規(guī)定一個界限,作為參考標準。效度的評估,可以從四個方面考慮,它們?yōu)閮热菪Ф?、構想效度、預測效度和共時效度。 2. 信度與效度的關系會不會出現(xiàn)這種情況,月隊雖然多次測試都得出同樣臉結果,但實際上卻仍然沒能達到我們所要考查的目的妮·當然會有這種情況。想知道課桌的長度卻去稱它的重量
28、,就是一例。同樣的道理,分列式測試的評分固然可靠,但是否有效呢·我們最終的興趣所在,是學生運用英語進行交際的能力。遺憾的是,分列式測試恰恰沒有直接衡量出這一點,它考查的只是詞匯和語法。這就是有效性的問題。也就是說,可靠的測試不一定都有效。正如稱重量得不出長度一樣,考語法也不一定能檢查出學生的理解能力。我們再看看問題的另一個方面。一個不可靠的測試可能是有效的嗎·我們說,只要測試的結果是可靠的,就能引出一定的結論;但如果結果不可靠,就不可能從申得出任何結論。因而,失去了可靠性,有效性也就不復存在了。確定了可靠性后,才能談到它是否有效。正因為如此,贊成分列式測試的人才指出,綜合性
29、測試的評分往往是不可靠的。同一篇作文可能會得到兩個不同的分數(shù)。既然評分不可靠,還有什么有效性可言呢·再舉兩個例子: 其一,如果我要考查你們的英語水平,方法是讓你們在一分鐘之內寫出你能想得起來的所有的英語單詞,根據(jù)寫出的單詞的數(shù)量來判定你們英語水平的高低。這種測試可靠嗎·可能很可靠。但這是考查你們英語知識的有效方法嗎·你們認為這樣的測試公平合理嗎·當然不。它檢查不出你們運用英語的能力,只是檢查了你們寫字的速度。所以即使它很可靠,也仍然不是考查英語水乎的有效方式。其二,假設你在課堂上向學生宣布:明天我要檢查大家最近三周的學習情況,重點是現(xiàn)在完成時和現(xiàn)在進行肘
30、。"可是第二天你卻用了教育局出的英語期申考試的試卷。這個考試可靠嗎·換句話說,如果把這份試卷分兩次考完,學生會不會得到同樣的分數(shù)·我們相信他們的分數(shù)會是基本不變的,因為教育局為了保證測試的可靠性,是肯定會下一番功夫的。但它對你所宣布的測試目的卻是無效的。你的目的是檢查最近三周的學習情況,重點是現(xiàn)在完成時和現(xiàn)在進行時的用法,而教育局的這份試卷里可能只有一、兩個題是有關現(xiàn)在完成肘和現(xiàn)在進行時的。那些回家后認真復習了這三周功課的學生會抱怨說:"這次測試包括了詞匯、翻譯等多種項目,但是只有一、兩個題是檢查現(xiàn)在完成時和現(xiàn)在進行時的用法的。"他們是在抱怨你
31、這次測試雖然可靠,但對于你所宣布的那個目的來說卻是無效的。 再舉一個語言寮賦測試的例子。假設有很多學生報考我校,想學習英語,但我們只能招收兩個英語班。·那么這些機會應該給哪些學生呢·我們可以進行一次語言票賦測試,看誰學習語言的能力最強。問題是考什么內容。知果我們考的是他們己經(jīng)學會了多少英語,這也許是可靠的,但用這個測試來判斷學生學習英語的潛在能力,卻不是有效的。再從分數(shù)差異的角度分析可靠性和有效性的問題。每次測試,學生的分數(shù)都不盡相同。無論是高校招生考試·學校的期申考試、"托復"測試或課堂成績測試,可以肯定,學生不會都得相同的分數(shù)。這就是分數(shù)差
32、異。導致分數(shù)差異的原因很多,按照差異的性質可以歸為三類(圖1)。現(xiàn)在分別對它們加以分析。 有些差異來自學生的情緒。人人都有順心的時候,也有煩惱的時候。有的學生早上一醒來心情就很好,家里人也都和顏悅色。起床后,吃了可口的早飯,就愉快地去學校參加測試。一切稱心如意,測試也順順當當。另一個學生一起床就跟妹妹吵了一架。接著又因為公共汽車晚點,上學遲到了。他急急忙忙地跑進教室,氣喘吁吁地坐下來匆忙答題。顯然。我們很難指望他會發(fā)揮出自己的最好水平。有些分數(shù)差異就是
33、出于這類與測試無關的小事造成的。這樣的事每天都會重演嗎·當然不會。比如因汽車誤點而遲到的學生,下次可能會早些動身,以免再遲到。由這些情況造成的分數(shù)差異是偶然性的,叫做不可靠差異。引起不可靠差異的偶然因素,每人每天部可能遇到,難以預料,學生自己控制不了,教師也愛莫能助。假如你們參加一次重要測試,知高校招生考試,偏偏趕上了不順心的日子,那是很令人遺憾的。你的成績會因此受到影響,造成不可靠的分數(shù)差異。 3. 總體、樣本和抽樣在心理、教育以及其他許多領域的調查研究中,絕大部分不可能也沒有必要對所要研究的總體中的每一個個體
34、,逐一進行調查研究。一般的做法是,從總體中抽取一部分個體作為研究樣本,然后應用參數(shù)估計或假設檢驗等統(tǒng)計方法,根據(jù)樣本的研究結果對總體特征進行推論,如下圖。 這種推論的可靠性,一方面依賴于研究過程中無關變量的控制和數(shù)據(jù)處理的準確性,另一方面則依賴于樣本的代表性。如果樣本不能很好地代表總體,即使無關變量控制得很好,統(tǒng)計方法運用得確切,對總體的推論也是缺乏可靠性的??荚噷嶋H上也是一個抽樣過程。我們不可能在幾小時內,把學生幾年甚至十幾年中掌握的語言知識和技能(總體)都考一遍,而是抽取一部分內容(樣本)進行考核。然后根據(jù)考試成績推斷學
35、生的總體語言能力。因此,試題的代表性具有很重要的意義。 4. 構想效度1)結構效度的概念“結構效度”這一詞是由柯龍巴赫(Cronbach)和米海爾(Meehl)于1954年首創(chuàng)。所謂結構效度是指測驗對于人的假設屬性或理論概念測量到的程度。這些假設屬性或理論概念是決定人們外部行為的內隱或潛在的特性。但是這種特性無法給于操作性的定義。它所支配的行為也無法直接觀察到。也可以說,在現(xiàn)實世界中并沒有與這種屬往直接相對應的東西存在,而是一種假設存在的屬性。例如,智力、成就動機、語言流利、焦慮、等等。而教育測量有時雖然也涉及到假設結構的
36、問題,但大多數(shù)目的在于測量學生對知識、技能的掌握程度,而且測驗的內容與特定的知識或行為有一對一的配合形式,對于這種屬性一般都能予以操作性的定義。因此它不屬于假設的結構。對于這種假設的心理屬性,在現(xiàn)實中并沒有效標能夠加以測量,在檢定測驗的結構效度時,也無法直接得到效標分數(shù),只能尋求其它方法估計效標分數(shù)。檢定結構效度的目的,既不在于考查測驗對效標的預測效果,也不在于考查測驗內容的代表性程度,其目的在于從理論上探究所建構的假設屬性或理論概念是否能夠成立。2) 結構效度的建立過程在編制測驗時,建立結構效度的過程有以下幾個步驟: 對所欲測量的屬性根據(jù)某種理論提出假定的結構。 根據(jù)假定的結構擬定測題,編制
37、測驗。抽取樣本進行預備測驗,并對測驗的信度進行檢定。 尋求測驗分數(shù)與其它評定之間的關系。例如,為建立學能測驗的結構效度,可以考察一組被試的測驗分數(shù)與其教師評定結果之間的相關。如果發(fā)現(xiàn)測驗分數(shù)與教師評定結果之間相關低,是由于測驗作答的語言流暢性和測題的類型所造成,則為修改測驗、排除無關因子的影響提供了依據(jù)。 以測驗結果為根據(jù)來驗證假設結構中的各種因素是否成立,其驗證的方法,可從差異性上尋求證據(jù)。假如道德品質好的與道德品質差的被試,所居住的地區(qū)環(huán)境有顯著差異,那么,居住的地區(qū)環(huán)境就是形成青少年道德品質傾向結構中的因素之一。通過實驗研究也可以驗證假設結構中的各種因素是否成立。例如,對一般性焦慮作實驗
38、研究,在學期開始時將一個班級的學生隨機分成兩組,向其中一組學生宣布,學期末考試總分只有10%的人會得甲等,有一半人會不及格;而向另一組學生宣布,所有的人都會及格,有一半人會得甲等。然后對兩組學生進行焦慮測驗,如果兩組測驗分數(shù)有顯著性差異,則可表明事先宣布可能的學習成績與一般性焦慮有密切關系。 將與假設結構相違背的測題刪去,對測驗進行修改之后,再重新實施第和第個步驟。 5. 相關系數(shù)1) 為什么要研究相關首先讓我們來考慮以下幾種情況。第一種情況: 假定某一班先后參加了兩次測試,結果每個學生都得到兩個分數(shù)。我們需要知道的是學生兩
39、次測試的分數(shù)在多大程度上是一致的。這個問題直接關系到測試的可靠性和有效性。在相同的條件下,一次可靠性強的測試,知果再進行一次,將會得出與第一次相同的結果。如果同一測試采用的兩種形式都可靠的話,它們就應當能把學生分成同樣等級。一個效性高的測試考查的是它所應當考查的東西,因此,它對學生程度的劃分應當和考查同一技能的其它有效性強的測試相一致??梢?,兩種測試能否把學生分成同一等級,這一問題對測試的可靠性和有效性都是很重要的。第二種情況:某一班學生先后參加了一次閱讀理解測試和一次閱讀速度測試。我們很想知道這兩種技能的關系。換句話說,我們想知道在多大程度上從學生的閱讀速度上能推斷出他的閱讀理解能力;或者與
40、此相反,閱讀理解的測試能在多大程度上預示閱讀的速度。第三種情況:假定某班學生寫了一次作文。鑒于批改作文常常缺乏可靠性,每篇作文都由兩名教師分別評分。這樣,我們就有必要知道這兩次評分在多大程度上是一致的。以上這三種情況有一個共同點,即從同一組學生中產(chǎn)生了兩組分數(shù),我們需要知道這兩組分數(shù)的關系如何。這就要靠統(tǒng)計學來幫忙了。我們可先畫出這兩組分數(shù)的分布圖。以閱讀速度和閱讀理解的測試為例,如果座標上的點能夠連成一條向上的直線,就說明這兩組分數(shù)把"生分成完全一樣的等級。閱讀速度越快,理解越好。我們完全可以從學生的閱讀速度上推測出他的理解能力。(見圖10)
41、160; 如果座標上的點組成一條向下的直線,就說明一種完全相反的情形,即閱讀速度越快,理解越差。但是我們仍舊可以從閱讀速度中看出閱讀理解能力。(見圖11) 如果座標上的點零散地分布在圖上,形成一片,那就說明兩者之間沒有任何聯(lián)系。(見圖12)
42、; 再以作文為例,如果兩名教師對每篇作文都給予相同的評分,座標上就會顯示出一條向上的直線。(見圖13) 如果其中一名教師的評分始終是另一名所評的分數(shù)的一半,座標上仍會呈現(xiàn)出一條直線,但其傾斜度會稍有不同。(見圖14) 在實際教學申,就普通規(guī)模的班級而言,完全一致的兩組分數(shù)幾乎是不可能出現(xiàn)的
43、。通常出現(xiàn)的情形是在兩組分數(shù)間有一定的聯(lián)系,座標上分布的點接近于一條直線,但還有許多點分散在直線兩側。這種座標圖叫做散點相關圖(scatter plot)。(見圖15) 當遇到這種情況時,就應求助于統(tǒng)計學了。用來表示相關程度的數(shù)據(jù)叫做相關系數(shù)。 2) 相 關 系 數(shù)相關系數(shù)的范圍是+1.O到-1.0。+1.0意味著從一組分數(shù)上完全可以推算出另一組分數(shù);學生在一組分數(shù)里的分越高;在另一組里的分數(shù)也就越高。-1.0同樣意味著從一組分數(shù)上可以完全推算出另一組
44、分數(shù),不過學生在一組里的分數(shù)越高,他們在另一組里的分數(shù)就越低。相關系數(shù)等于0的時候,說明兩組分數(shù)之間沒有任何聯(lián)系。不能從一組分數(shù)中推算出另一組分數(shù)。要注意,相關系數(shù)是正數(shù)還是負數(shù)并不重要。重要的是它的數(shù)值的大小。相關系數(shù)的絕對值越大,就越能從一組分數(shù)里推算出另一組分數(shù)。在實際教學中,相關系數(shù)很少是+1.0。如果我們在一個五十人的班級里進行兩次英語水平測試的話,相關系數(shù)能達到0.70就很不錯了。一個試卷的總分和同一試卷上其一部分的分數(shù)間的相關系數(shù)可能會高一些,如0.80。同樣考查英語能力,但側重點有所不同的測試間,如聽力和作文間的相關系數(shù),可能會低一些,如0.60。一一個學生所得的卷面分數(shù)和他試
45、卷上出現(xiàn)的錯誤數(shù)目間的相關系數(shù)可能會是-0.60。相關系數(shù)達到0.80或0.90時,就意味著兩者間相互推斷的可能性很大了。我們可以通過幾個實例來說明怎樣分析相關系數(shù)。到美國威斯康星大學就學的外國留學生都要通過英語作為第二語言的測試,即密執(zhí)安英語水平測試(Michigan Test of English Language Proficiency)。其中有三部分:語法、詞匯和閱讀埋解。我們很想知道這三部分之間有多大相關性。比如說,能在多大程度上從一個學生的語法分數(shù)上推測出他的詞匯分數(shù),或能在多大程度上從詞匯分數(shù)上推測出閱讀理解分數(shù)。我們可以預期它們之間會有相當?shù)穆?lián)系,因為考查的內容都屬于學生語言能
46、力。如果一個學生在詞匯部分得了最高分,而在閱讀理解部分卻得了最低分,我們一定會感到意外。在另一方面,這幾部分又不可能完全一致,因為考查的畢竟是不同的技能。如果三者相關度很高,就沒有必要把一個測試分成三部分了。我們實際得到的結果如下: Grammar Vocabulary Vocabulary 0.70 1.00 Reading 0.58 0.64表中數(shù)字表明,三者間確有一定程度的相關。在
47、看到實際數(shù)字前,可能有人會預料詞匯和閱讀理解間的相關系數(shù)最高。但事實上是詞匯和語法間有更密切的聯(lián)系。不出多數(shù)人的預料,語法和閱讀理解是最不相關的兩項。顯然,一般學生并不見得需要懂得許多語法,就能夠看明白整個篇章。下面是另一個實例。威斯康星大學每年暑期都舉辦英語作為第二語言的補習班。補習班結業(yè)時,每位參加學習的留學生都要通過三項測試: 密執(zhí)安英語水平測試,聽力測試和作文。這三者之間到底有什么聯(lián)系· 比如,聽力和寫作之間有多少一致的地方· 它們是否是完全不同的技能· 如果是不同的技能,兩者間的相關系數(shù)就會很低。我們需要了解這些情況的原因之一,就是要確定有無必要進行全部
48、三項測試。假如密執(zhí)安測試和作文的相關系數(shù)很高,就可以只進行一項,而把節(jié)省下來的時間用于課堂教學。另外,批改作文需要花很長的時間。為了保證可靠性,每篇作文都要請三名老師批改,而這個工作量是很大的。我們實際得到的結果如下: Michigan Test Listening Comprehension Listening Comprehension0.70 1.00 Composition 0
49、.64 0.49 這三者間的關系有的很一般,有的屬于中等或偏上。這說明它們之間的相似之處并不很多。三項測試考查的是雖有聯(lián)系,但又不相同的能力。因此,三項測試都進行還是有必要的。 3) 怎樣分析相關系數(shù)當相關系數(shù)不是+1.0或-1.0時,分析相關系數(shù)要按照以下四個步驟:1. 首先要核對該相關系數(shù)是否達到一定的值,以便確定該系數(shù)的出現(xiàn)是否具有偶然性。具體做法是查對一個標明數(shù)值意義的表格。從表格上可以知道,就一定數(shù)量的學生而言,相關系數(shù)達到多少時,它的出現(xiàn)才沒有
50、或有很少的偶然性。具體說,在一個52個人的班級里,相關系數(shù)大于0.27時,它的出現(xiàn)就只有5%的偶然性。換句話說,假定兩個測試間沒有任何關系(如任意取兩個數(shù)字),那么產(chǎn)生大于0.27的相關系數(shù)的可能性就只有5%。當然,任何數(shù)值的相關系數(shù)都可能在偶然中產(chǎn)生。也正因為這樣,我們必須知道某-數(shù)值出現(xiàn)的純偶然性究竟有多大。2. 計算出兩個分數(shù)間可以互相推斷的程度。從相關系數(shù)本身并不能看出這一點。也就是說,相關系數(shù)是0.50時,并不意味著兩個測試的評分中有50%是一致的。我們必須要算出相關系數(shù)的平方,所得的數(shù)字就代表兩個測試中相同因素的比例。比如,相關系數(shù)是0.50 時,0.50×0.50 =
51、0.25,即25%。這說明兩個測試的分數(shù)中只有25%的因素是一樣的。相關系數(shù)的平方可直接反映出在多大程度上可以從一個測試分數(shù)上推測出另一個測試的分數(shù)。3. 確定相關的程度是否具有實際意義。例如,數(shù)值為0.27的相關系數(shù)所代表的相同因素,只有7%(0.27×0.27=0.07)。在實際工作中,這個數(shù)值就沒有什么意義了。它表明兩組分數(shù)間沒有什么共同性,它們不足以把學生分成相應的等級。上文提到威斯康星大學暑期英語補習班結束時要舉行三項測試,究竟有無必要全部進行呢·回答是肯定的,從三個相關系數(shù)的平方值可看出,三項測試問相同的因素并不多。密執(zhí)安測試和聽力測試間的相同因素最多,但也只有
52、大約50%。其它兩個數(shù)值就更小了??傊?,三項測試說明了不同的問題,它們考查的技能雖有聯(lián)系,但并不相同。判斷的標準還要視情況而改變。比如,密執(zhí)安測試有多種不同的編號。在兩次平行的密執(zhí)安測試間應有多大的相關系數(shù)呢· 應該不小于0.90。再如,兩名教師對同一組作文的評分的相關系數(shù)應該比較高。雖然兩組作文分數(shù)間很難有很高的相關系數(shù),但如果數(shù)值低于0.70,那也是出乎意料的。分析相關系數(shù)沒有一個絕對的標準,要根據(jù)情況而定。4. 分析一下為什么會出現(xiàn)這種程度的相關。較明顯的原因可能是兩個測試在一定程度上考查的是相同或相近的技能(高相關系數(shù)),或者是不同的技能(低相關系數(shù))。比如,知果一個語法測試
53、和一個詞匯測試高度相關,可能是由于語法測試中有許多難懂的詞,使得語法測試成了一個變相的詞匯測試。還有一些其它的因素,也能影響相關的程度。比如,測試時如果只讓兩個極端的學生參加(即只有學習最好的學生和學習最不好的學生,而沒有中等水平的學生),也會使相關系數(shù)顯得很高而足以使人誤解。因為兩類學生的水平懸殊太大,所以在一次測試中得高分的學生,肯定也會在另一次測試中得高分;同樣道理,在一次測試中得低分的學生,也肯定會在另一次測試里得低分。相反的情形也會影響相關系數(shù)。如果有一組分數(shù)相差不大,那么不管兩個測試在實際上有沒有關系,都會使相關系數(shù)變得很低。以作文為例,如果一位教師所評分數(shù)的范圍是從A到D,另一位
54、教師所評的分數(shù)只限于很小的范圈內,如B+,B,B-等,這樣兩組分數(shù)間的相關系數(shù)就會很小。分析相關系數(shù)時還應注意以下幾點:1. 相關的程度和可推斷性并不直接和相關系數(shù)成比例關系。0.80和0.90之間可推斷性的差別比0.20相0.30之間的差別大得多。(大家自己計算一下,就可看出差別了。)2. 知果甲和乙高度相關,我們不能得出結論,說甲是造成乙的原因,也不能說乙是造成甲的原因。這樣下結論是一種很常見的錯誤。例如,在上文所舉的密執(zhí)安測試的第一個例子中,0.70是否意味著只要詞匯量大,就可以把語法題目做得很好呢·不是的。真正的原因可能在于詞匯考得好的學生學習英語的時間較長,所以他們的語法也
55、考得較好。如果是這樣,這兩部分高度相關的原因在于它們都和第三個因素有關,即和學生學習英語的時間有關。3. 一般說來,相關系數(shù)可以座標圖上的直線來表示,這種相關又稱為線性相關。如果兩個因素的關系在座標圖上呈曲線,線性相關這一概念就不能充分反映出兩者間的可推斷性。 亞力山大·吉歐拉(Alexander Guiora)曾做過一個飲酒對外語發(fā)音影響的試驗。在教學生練習泰國語發(fā)音之前,他讓一部分學生喝了數(shù)量不等的酒。結果很有趣。沒有喝酒的學生在練習這個完全陌生的語言時,發(fā)音不很準確。喝了少量酒的學生的發(fā)音比較好,這可能是由于酒使他們精神放松,減少了一些不必要的顧慮。喝酒多的學生的發(fā)音又不準確了,這可能是因為酒喝得過多,以致使他們都不能控制自己的舌頭了。如圖16所示,飲酒量(alcohol)和發(fā)音之間存在一個曲線關系。總之,當有這種曲線關系出現(xiàn)時,再分析線性相關就不適當了。對于推斷性而言,曲線和直線是兩種不同的基礎· 6. 考試的價值語言測試的有用程度 = 信度構想效度測試的真實性交往程度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電商解決方案
- 包覆貴金屬金屬材料行業(yè)相關投資計劃提議
- 纖維增強行業(yè)相關投資計劃提議范本
- 如何規(guī)劃店鋪運營
- 大專工商企業(yè)三年規(guī)劃
- 食物中毒事件演練報告
- 五年級上冊第七單元
- 第七章 循證醫(yī)學課件
- 第二章 3認知取向課件
- 2025新課改-高中物理-選修第1冊(21講)08 B簡諧運動的回復力和能量 中檔版含答案
- 2023年8月26日事業(yè)單位聯(lián)考C類《職業(yè)能力傾向測驗》試題
- 2023年天津公務員已出天津公務員考試真題
- 施工現(xiàn)場臨水施工方案
- 2022年公務員多省聯(lián)考《申論》真題(四川縣鄉(xiāng)卷)及答案解析
- 艾滋病職業(yè)防護培訓
- 2025年高考數(shù)學專項題型點撥訓練之初等數(shù)論
- 上海市浦東新區(qū)2024-2025學年六年級上學期11月期中數(shù)學試題(無答案)
- 2024年全國消防宣傳月《全民消防、生命至上》專題講座
- 通信技術工程師招聘筆試題與參考答案(某世界500強集團)2024年
- 2024至2030年中國節(jié)流孔板組數(shù)據(jù)監(jiān)測研究報告
- 2024年第九屆“學憲法、講憲法”活動知識競賽測試題庫及答案
評論
0/150
提交評論