語(yǔ)言測(cè)試要素課件_第1頁(yè)
語(yǔ)言測(cè)試要素課件_第2頁(yè)
語(yǔ)言測(cè)試要素課件_第3頁(yè)
語(yǔ)言測(cè)試要素課件_第4頁(yè)
語(yǔ)言測(cè)試要素課件_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Chapter Three Some Essential elements in maintaining or evaluating test quality(語(yǔ)言測(cè)試的基本要素 ) What do we need to know ? Teaching objectives of this chapter :1. what is test reliability ?How can we check the test reliability?2. what is test validity?How many kinds of validities ?3. what is the relation

2、ship between test reliability and validity ?4.the other elements in language testing . I. What is test reliability?語(yǔ)言測(cè)試的信度,指的是測(cè)試結(jié)果是否可靠可信。(李筱菊,1997) According to Henning( 2001), reliability is a measure of accuracy(準(zhǔn)確性), consistency(一致性), dependability(可靠性), or fairness of scores(評(píng)分的公平性) II.How can y

3、ou measure the testing reliability in practice?Three ways: 1.test-retest testing method(重復(fù)測(cè)試法). ( consistency over time)2.parallel-form testing method(平行卷測(cè)試法)(consistency in form) 3. split-half testing method.(對(duì)半分析法) ( internal consistency ) 所謂重復(fù)性測(cè)試就是通過(guò)對(duì)同一組學(xué)生重復(fù)使用同一份試卷來(lái)確定試卷的信度。兩次考試之間需間隔一定的時(shí)間。重復(fù)測(cè)試法的可靠

4、性基于一個(gè)同步性假設(shè)之上: 在兩次考試之間學(xué)生在學(xué)習(xí)上都沒(méi)有或都獲得了新的進(jìn)展。如果在此間一部分學(xué)生的學(xué)習(xí)成績(jī)發(fā)生了變化,而另一部分則保持原狀,那么兩次考試成績(jī)就會(huì)出現(xiàn)差異。分?jǐn)?shù)缺乏了穩(wěn)定性,得出的考試信度數(shù)據(jù)就會(huì)偏低。需注意兩點(diǎn):第一,控制相隔時(shí)間段內(nèi)的教學(xué)內(nèi)容,以保證學(xué)生學(xué)習(xí)進(jìn)展方面的一致性。第二,兩次考試的間隔時(shí)間應(yīng)適當(dāng)。為了減少記憶力因素的影響,可以重新調(diào)整題目。例如:第一次考試順序: Can you think of a _ excuse for our being late? A. flexible B. reliable C. favorable D. reasonable 第二

5、次考試順序:Can you think of a _ excuse for our being late? A. reliable B. flexible C. reasonable D. favorable 如果說(shuō)重復(fù)測(cè)試法是通過(guò)時(shí)間求得一致性的話(huà)(consistency in time),平行卷測(cè)試法是通過(guò)A|B卷的形式以求得一致(consistency in form).這種方法是先讓學(xué)生做兩套試卷,隨后分析考試的結(jié)果??荚嚨男哦仁峭ㄟ^(guò)兩組分?jǐn)?shù)的比較而求得。分?jǐn)?shù)組之間的一致性決定考試的信度。A/B卷可以先后完成,或間隔一兩天。平行測(cè)試卷對(duì)試卷的制作要求高,在考試內(nèi)容、題目難度及其坡度、試

6、卷長(zhǎng)度、試卷數(shù)量、施考時(shí)間,甚至于題目順序等方面都必須吻合。此外,兩套試卷的題目都必須經(jīng)過(guò)預(yù)測(cè)與分析,以確定它們的一致性。重復(fù)測(cè)試法和平行卷測(cè)試法在實(shí)際操作中都有一定難度,為此,語(yǔ)言測(cè)試通常采用對(duì)半分析法來(lái)確立考試信度。對(duì)半分析法就是把一份試卷作為兩個(gè)相對(duì)獨(dú)立且相應(yīng)的部分,通過(guò)對(duì)這兩個(gè)部分分?jǐn)?shù)的比較以獲得整份試卷的信度。兩個(gè)部分分?jǐn)?shù)的一致性越高,試卷的信度就相應(yīng)提高。因此對(duì)半分析法也被稱(chēng)為一種求內(nèi)部一致性的方法(internal consistency)。III、What is test validity?語(yǔ)言測(cè)試的效度也稱(chēng)有效性,指測(cè)試所考的,是否就是所要考的,或者說(shuō),在多大程度上是考了目的

7、所要考(李筱菊,1997)。Validity in general refers to the appropriateness of a given test or any of its component parts as a measure of what it is supposed to measure. A test is said to be valid to the extent that it measures what it is supposed to measure. Validity may be determined in a variety of ways. Fac

8、e validity表面效度Clarification of test validity facrfacrfacrContent validity 內(nèi)容效度Criteria-related validity尺度關(guān)聯(lián)效度Construct validity結(jié)構(gòu)效度表面效度:引用Ingram的原話(huà),表面效度指的是“surface credibility or public acceptability”,也即考試的“表面可信度或公眾的可接受度”。一般來(lái)說(shuō),一個(gè)考試看上去測(cè)試了預(yù)定的技能或能力范疇,那么這個(gè)考試就具有了表面效度。辨析:1.測(cè)試學(xué)生口語(yǔ)能力的考試讓學(xué)生開(kāi)口說(shuō)英語(yǔ)/測(cè)試學(xué)生語(yǔ)音語(yǔ)調(diào)的考試通

9、過(guò)筆頭答題形式完成。 2.測(cè)試學(xué)生書(shū)面表達(dá)能力的考試讓學(xué)生寫(xiě)一篇作文/測(cè)試學(xué)生寫(xiě)作能力的考試通過(guò)聽(tīng)力閱讀完成。內(nèi)容效度:用Kerlinger 的話(huà)說(shuō),內(nèi)容效度是指“測(cè)量工具內(nèi)容上,包括材料、題材、題目的代表性(representativeness),或者所選內(nèi)容樣本的充分性(sampling adequacy)。例如:閱讀課程結(jié)束時(shí)要進(jìn)行期末考試,根據(jù)大綱要求,學(xué)生應(yīng)掌握的閱讀技能包括:Recognizing the script of a languageDeducing(推斷) the meaning and use of unfamiliar lexical items(詞條).Unde

10、rstanding explicitly stated informationUnderstanding implicitly stated informationUnderstanding the communicative value of sentence.Understanding relations within the sentence.閱讀材料的類(lèi)別包括小故事、信或明信片、報(bào)刊雜志上的文章節(jié)選、廣告等。題材涵蓋文學(xué)、文化、政治、歷史、日常生活等范疇。在出卷時(shí)如何兼顧到內(nèi)容效度呢?所選材料內(nèi)容的覆蓋面要廣,要反映出教學(xué)內(nèi)容的特點(diǎn),即有代表性。2. 被測(cè)試的技能應(yīng)明確并具有代表性,避

11、免題目過(guò)多地集中在某一或某幾項(xiàng)語(yǔ)言技能上。3.所選材料和技能都應(yīng)在規(guī)定的范圍內(nèi),即內(nèi)容具有關(guān)聯(lián)性??荚噧?nèi)容應(yīng)避免不著邊際、與教學(xué)內(nèi)容或大綱豪不相關(guān)。尺度關(guān)聯(lián)效度:主要指的是考試與某一個(gè)”獨(dú)立并且相當(dāng)可靠的學(xué)生能力測(cè)量工具之間的關(guān)聯(lián)程度。這里的尺度實(shí)際上就是后者。如果兩者之間的關(guān)聯(lián)程度高,那就表明前者具有尺度關(guān)聯(lián)效度。尺度關(guān)聯(lián)效度可分為“共時(shí)效度(concurrent validity)和預(yù)測(cè)效度(predictive validity).尺度關(guān)聯(lián)效度共時(shí)效度:共時(shí)效度建立在差不多同時(shí)施考的兩個(gè)考試結(jié)果的比較之上。例如:學(xué)生做了一套英語(yǔ)水平考試卷(A卷),為了了解這套試卷的共時(shí)效度,我們挑選另一

12、套試卷(B卷)作為衡量A卷的尺度。分兩次讓學(xué)生做這兩套卷子,時(shí)間間隔要短。卷子做完后,我們比較兩組成句,如果它們之間出現(xiàn)較高的一致性,那么就可以說(shuō),A卷具有較高共時(shí)效度的結(jié)論,反之,則可以說(shuō)A卷缺乏共時(shí)效度。需要強(qiáng)調(diào)的是,作為衡量尺度的B卷,它在尺度關(guān)聯(lián)效度論證過(guò)程中具有舉足輕重的地位。對(duì)它的設(shè)計(jì)要注意:1.B卷本身的信度與效度要有保證。前期應(yīng)有充分的數(shù)據(jù)印證它的質(zhì)量。2.B卷自身的難度應(yīng)與A卷相仿。3.考試方式與題型應(yīng)盡量與A卷保持一致。總之,要最大限度排除可能造成兩組分?jǐn)?shù)不一致的偶發(fā)因素,要使B卷成為名副其實(shí)的尺度。尺度關(guān)聯(lián)效度預(yù)測(cè)效度:預(yù)測(cè)效度也同樣是建立在兩個(gè)考試結(jié)果的比較之上。但它與

13、共識(shí)效度的區(qū)別在于兩個(gè)考試之間要相隔一定時(shí)間。考試的預(yù)測(cè)效度主要用來(lái)表明考試是否具有預(yù)測(cè)學(xué)生未來(lái)學(xué)習(xí)成績(jī)的供暖。如水平考試、分班考試等。如果一個(gè)分班考試不具有預(yù)測(cè)效度的話(huà),那么在此基礎(chǔ)上做出的分班決定都將是錯(cuò)誤的。注意事項(xiàng):1.預(yù)測(cè)效度中的B卷,也即尺度,不一定與A卷具有共同的特征或測(cè)試重點(diǎn)。比如,A卷可能是普通考卷,B卷卻可能是專(zhuān)業(yè)考試試卷。兩套試題在測(cè)試內(nèi)容、測(cè)試能力范疇上會(huì)有所不同。2.在預(yù)測(cè)效度中,比較的重點(diǎn)并不是學(xué)生的分?jǐn)?shù),而是他們的排序。3.要認(rèn)識(shí)到,盡管預(yù)測(cè)效度是建立在考試結(jié)果的比較之上,但影響考試結(jié)果的因素很多,如果一次測(cè)試顯示出較低的預(yù)測(cè)效度時(shí),一些考試之外的因素就應(yīng)該被探討

14、了。結(jié)構(gòu)效度:結(jié)構(gòu)效度指的是語(yǔ)言能力理論中假設(shè)的基礎(chǔ)能力或特征。比如,閱讀能力(reading ability)或?qū)懽髂芰?writing ability)就代表了兩個(gè)典型的理論能力結(jié)構(gòu)(theoretical construct)。如果一個(gè)測(cè)試能夠測(cè)量某個(gè)理論能力結(jié)構(gòu),它就具有了結(jié)構(gòu)效度。對(duì)測(cè)試的結(jié)構(gòu)效度進(jìn)行論證的目的是:確定考分的含義是否與測(cè)試者的預(yù)期一致。也就是說(shuō),結(jié)構(gòu)效度實(shí)質(zhì)與考分的解釋功能有關(guān),如交際能力考試的分?jǐn)?shù)能否代表學(xué)生的交際能力等。確定測(cè)試的結(jié)構(gòu)效度的方法:定性與定量的方法。定性的方法是:專(zhuān)家評(píng)定,即由專(zhuān)家依照相應(yīng)的理論確定測(cè)試是否具有結(jié)構(gòu)效度。定量的方法可有多種:對(duì)試卷內(nèi)各

15、項(xiàng)目之間相關(guān)的分析,考試成績(jī)與考生特征之間關(guān)系的分析,以及因素分析等等。結(jié)論:測(cè)試效度是一個(gè)整體概念,以上所提到的四種效度是這個(gè)概念的不同側(cè)面,雖然某一個(gè)效度(如預(yù)測(cè)效度)對(duì)于某類(lèi)考試(如分班考試)可能更為重要些,但在確定一個(gè)測(cè)試的效度時(shí),必須通盤(pán)考慮測(cè)試效度的各個(gè)方面。效度與信度的關(guān)系信度指的是測(cè)試結(jié)果(分?jǐn)?shù))的可靠性;效度指的是測(cè)試達(dá)到預(yù)期目標(biāo)的程度。一次測(cè)試可以具備較高的信度,但可能是缺乏信度的。比如,用一套被證明有較高信度的閱讀測(cè)試卷考查學(xué)生的寫(xiě)作能力,測(cè)試結(jié)果即使有再高的穩(wěn)定性也沒(méi)有意義,因?yàn)樗鼰o(wú)法測(cè)量到我們預(yù)期的能力或技能。一次測(cè)試要具有效度的話(huà),首先必須具有信度。第一,如果測(cè)試結(jié)

16、果本身不可靠的話(huà),就無(wú)從談起測(cè)試是否有效測(cè)試了所選定的語(yǔ)言能力或技能。 第二,確定效度的一些方法需要考試的結(jié)果作為基本數(shù)據(jù),不可靠的數(shù)據(jù)無(wú)法來(lái)確定測(cè)試效度??傊?,對(duì)于語(yǔ)言測(cè)試來(lái)說(shuō),信度與效度都是必不可少的:信度是保證效度的基礎(chǔ);撇開(kāi)效度只談信度是沒(méi)有實(shí)際意義的。V.some other elements in language testingAuthenticity真實(shí)性 Involvement交互性Washback effect 后效作用 Practicality 可操作性1.真實(shí)性真實(shí)性是測(cè)試的另一個(gè)重要評(píng)價(jià)指標(biāo)。Bachman 和Palmer認(rèn)為:真實(shí)性指的是某一語(yǔ)言測(cè)試認(rèn)為(a giv

17、en language test task)與實(shí)際語(yǔ)言運(yùn)用任務(wù)(target language-use task)在特征方面的對(duì)應(yīng)程度(degree of correspondence) 真實(shí)性語(yǔ)言測(cè)試的任務(wù)特征實(shí)際語(yǔ)言運(yùn)用任務(wù)特征 2.交互性交互性指的是在考試所設(shè)計(jì)的任務(wù)(test task)中學(xué)生的參與程度(degree of involvement)。參與程度越高,考試的交互性也就越強(qiáng)。例1:一假設(shè)的測(cè)試包括50道多項(xiàng)選擇題,期中25道是語(yǔ)法題,其余的是詞匯題,測(cè)試要求學(xué)生從所給的選項(xiàng)中選擇正確的一個(gè)。例2:一假設(shè)的口試采取小組討論(group discussion)的形式,討論的題目是

18、:The impact of TV advertisements on teenagers.分析:例1的測(cè)試對(duì)語(yǔ)言運(yùn)用的要求極為有限,它只要求學(xué)生選出正確的答案,所以它的交互性較低。 例2的討論中學(xué)生可以選擇不同的角度來(lái)探討這個(gè)問(wèn)題;可以發(fā)表不同的觀點(diǎn)或見(jiàn)解;學(xué)生在完成任務(wù)的過(guò)程中有一定的自由度,所以它的交互性較高。補(bǔ)充:當(dāng)然,測(cè)試的交互性也與測(cè)試目的、測(cè)試用途等因素有關(guān)。3.后效作用測(cè)試的后效作用(washback effect)指的是測(cè)試對(duì)教學(xué)的影響。主要表現(xiàn)在兩個(gè)方面:教與學(xué)。第一,測(cè)試的內(nèi)容與方式在相當(dāng)程度上左右學(xué)校的教學(xué)計(jì)劃或教學(xué)內(nèi)容。第二,測(cè)試會(huì)像指揮棒一樣控制或引導(dǎo)學(xué)生的學(xué)習(xí)。4.可操作性可操作性也就是可行性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論