簡明英語測試教程課件_第1頁
簡明英語測試教程課件_第2頁
簡明英語測試教程課件_第3頁
簡明英語測試教程課件_第4頁
簡明英語測試教程課件_第5頁
已閱讀5頁,還剩352頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

簡明英語測試教程,主講:?;駮r(shí)間:2012年2月手機(jī)-mail:niuhuaxu,一、英語測試概述:過去、現(xiàn)在與未來,語言測試是一門古老而又年輕的學(xué)科,盡管現(xiàn)代語言測試的歷史不到100年,語言測試的歷史淵源卻可以追溯到很久以前(Spolsky1995)。語言測試是應(yīng)用語言學(xué)的一個(gè)重要分支,它涉及教學(xué)法、二語習(xí)得理論、語用學(xué)、心理語言學(xué)、認(rèn)知心理學(xué)、教育測量學(xué)、計(jì)算機(jī)科學(xué)等多種學(xué)科。語言測試是伴隨著語言教學(xué)出現(xiàn),并隨著語言教學(xué)的發(fā)展而發(fā)展,不同的時(shí)期,人們的語言觀不同,采用的語言測試方法也不同。世界語言測試?yán)碚摻?jīng)歷了四個(gè)發(fā)展階段,反映了三個(gè)語言測試的理論模式。隨著語言測試?yán)碚摰陌l(fā)展,語言測試在實(shí)際應(yīng)用和理論研究方面也出現(xiàn)了許多新的變化,已引起越來越多學(xué)者們的注意。,語言測試主要用于語言教學(xué)、語言研究和教學(xué)研究、選拔人才三個(gè)方面,其中最為普遍的是用于語言教學(xué)。語言測試與語言教學(xué)之間存在著一種相互依賴的關(guān)系。語言測試是衡量語言教學(xué)成效和提高語言教學(xué)質(zhì)量的重要手段,是語言教學(xué)過程中的重要組成部分。語言測試的目的是提供一種科學(xué)的衡量工具,一方面對(duì)學(xué)生的語言能力進(jìn)行客觀、準(zhǔn)確、公正的評(píng)價(jià),另一方面檢測教學(xué)效果,反映教學(xué)中的長處與短處,為提高教學(xué)質(zhì)量服務(wù)。由此可見,語言測試是語言教學(xué)過程中不可欠缺的重要環(huán)節(jié),語言教學(xué)離不開語言測試。,語言測試與語言教學(xué)是同時(shí)存在,息息相關(guān),緊密聯(lián)系而且相互作用的。然而,語言教學(xué)與語言測試的發(fā)展并非總是同步的。一個(gè)語言測試體系一經(jīng)確定,在一定時(shí)期以內(nèi)就具有相對(duì)穩(wěn)定性,會(huì)對(duì)語言教學(xué)產(chǎn)生積極或消極的反撥作用。,語言教學(xué)與測試的關(guān)系,語言測試是伴隨著語言教學(xué)出現(xiàn)的,語言教學(xué)與語言測試密切相關(guān),這是毋庸質(zhì)疑的。但對(duì)于語言教學(xué)與測試之間的關(guān)系或從屬地位人們卻有各自不同的看法,基本上可以歸納為兩種:主仆關(guān)系與伙伴關(guān)系。持有主仆關(guān)系觀點(diǎn)的人認(rèn)為持有這種觀點(diǎn)的人認(rèn)為語言測試是語言教學(xué)的一部分,并服務(wù)于語言教學(xué)。代表人物為英國語言測試專家AlanDavies。持另一種主仆關(guān)系觀點(diǎn)的人沒有代表人物,卻在實(shí)際中廣為應(yīng)用,即“考試是教學(xué)的指揮棒”。持伙伴關(guān)系觀點(diǎn)的代表人物是世界著名語言測試專家ArthurHughes,他認(rèn)為教學(xué)與測試是“伙伴關(guān)系”(partnership)測試與教學(xué)既互相促進(jìn)又彼此制約。,1.主仆關(guān)系語言教學(xué)是第一性的,語言測試為語言教學(xué)服務(wù)考試是左右教學(xué)的指揮棒2.伙伴關(guān)系持這一種看法的人認(rèn)為,測試與教學(xué)既互相促進(jìn)又彼此制約,教學(xué)從目標(biāo)、內(nèi)容、方法與手段等方面制約著測試,而測試又在目標(biāo)、內(nèi)容和方法上對(duì)教學(xué)起著重要的反撥作用。,世界著名語言測試專家ArthurHughes認(rèn)為,教學(xué)與測試是“伙伴關(guān)系”(partnership)(Hughes1989)。他說,“Theproperrelationshipbetweenteachingandtestingissurelythatofpartnership.Wecannotexpecttestingonlytofollowteaching.Whatweshoulddemandofit,however,isthatitshouldbesupportiveofgoodteachingand,wherenecessary,exertacorrectiveinfluenceonbadteaching.”(ArthurHughes2000)下面的圖示反映了教學(xué)與測試的相互關(guān)系。,考試是外語教學(xué)過程中的一個(gè)重要的組成部分,外語考試與外語教學(xué)之間存在著相輔相成,互為影響的關(guān)系。在教學(xué)中教學(xué)目標(biāo)起著決定性的作用,它決定了教什么(教學(xué)內(nèi)容)和怎么教(教學(xué)方法);教學(xué)目標(biāo)是否達(dá)到需要考試作為它的評(píng)估手段,因此考試的測試目標(biāo)必須以教學(xué)目標(biāo)為依據(jù),這樣才能起到評(píng)估教學(xué)目標(biāo)的作用。在教學(xué)考試中,教學(xué)內(nèi)容決定了考試的內(nèi)容(考什么),而教學(xué)方法決定了考核方法(怎么考),因此從理論上說,考試只是教學(xué)的一個(gè)組成部分,它的考核內(nèi)容與方法由教學(xué)目標(biāo)、教學(xué)內(nèi)容和教學(xué)方法所決定??荚噾?yīng)在教學(xué)目標(biāo)的指導(dǎo)下進(jìn)行,并不是說考試可有可無。在教學(xué)實(shí)踐中,我們發(fā)現(xiàn)考試占有很重要的地位。有時(shí)甚至影響到整個(gè)教學(xué)過程,使教學(xué)圍繞考試進(jìn)行,其典型例子就是應(yīng)試教育。,這是因?yàn)榭荚嚦擞惺芙虒W(xué)其他環(huán)節(jié)和因素影響的一面外,它反過來對(duì)教學(xué)其他環(huán)節(jié)又有反作用的一面,亦即所謂的反撥作用(backwash)。因?yàn)橥庹Z測試的結(jié)果不但能判斷外語教學(xué)目標(biāo)設(shè)置的正確性、可行性及實(shí)現(xiàn)的程度,而且也能反饋、控制外語教學(xué)活動(dòng)。過分強(qiáng)調(diào)考試的反撥作用,特別是強(qiáng)調(diào)考試的評(píng)定和選拔功能,必然導(dǎo)致考試在教學(xué)過程中的錯(cuò)位。教師、學(xué)生、家長、教育部門對(duì)考試作用的過度強(qiáng)化所形成的合力就會(huì)導(dǎo)致應(yīng)試教育,使考試成為教學(xué)的核心和教學(xué)的目的,這應(yīng)該加以避免。,鄒申(2005)則認(rèn)為,語教學(xué)與語言測試之間存在一種相互依賴的關(guān)系,教學(xué)(或課程設(shè)置)的有效性可以通過測試加以檢驗(yàn),而我們從測試中得到的信息反饋也有助于改進(jìn)和提高教學(xué)質(zhì)量,或完善課程設(shè)置。,四種英語語言測試法,1.寫作-翻譯法(theessay-translationapproach).這種方法主要有以下特征:1.對(duì)測試的技能或?qū)iL沒有特殊要求,主要是依據(jù)教師的主觀判斷力;2.試卷通常包括翻譯、寫作和語法分析等項(xiàng)目;3.試卷的內(nèi)容帶有濃厚的文學(xué)或文化色彩;4.試卷一般采用書面回答形式,試卷需要人工評(píng)閱。由于寫作-翻譯法不強(qiáng)調(diào)測試的科學(xué)性或理論基礎(chǔ),故有時(shí)被一些學(xué)者稱為語言測試的前學(xué)科階段。(科舉考試,博士,碩士研究生考試),2.結(jié)構(gòu)主義/心理測量法(thestructuralist-psychometricapproach).這種測試法以結(jié)構(gòu)主義語言學(xué)為其理論基礎(chǔ),強(qiáng)調(diào)不同的語言成分可以分別測試,比如語音、語法和詞匯都可以脫離上下文進(jìn)行單獨(dú)測試。此外,聽、說、讀、寫等項(xiàng)語言技能也可以分開測試,因?yàn)檫@個(gè)測試法的重要特征是一道題可以單獨(dú)測試一個(gè)語言成分或技能。這種方法的另一大特點(diǎn)是采納了心理測量學(xué)的一些方法,強(qiáng)調(diào)語言測量的可靠性和客觀性。結(jié)構(gòu)主義/心理測量法在語言測試中的典型表現(xiàn)形式是多項(xiàng)選擇題,一種既能達(dá)到一題測試一成分的要求,同時(shí)又適合于進(jìn)行考后統(tǒng)計(jì)分析的題型。,3.綜合法(theintegrativeapproach).綜合法有如下特點(diǎn):1.語言測試要在一定上下文(context)中進(jìn)行;2.不在測試中刻意追求區(qū)分各單項(xiàng)語言成分、技能或能力,而是強(qiáng)調(diào)兩項(xiàng)或兩項(xiàng)以上的綜合評(píng)估。較能體現(xiàn)綜合法的考試題型有完形填空、聽寫、翻譯、寫作等。以完形填空為例,這類形式可以同時(shí)測試學(xué)生的語法、詞匯知識(shí)以及閱讀理解能力。此外,語法、詞匯知識(shí)以及閱讀理解能力的測試在一個(gè)特定的上下文(即所給的完形填空材料)環(huán)境中進(jìn)行。但,上下文環(huán)境在綜合法中不是真正意義上的語用環(huán)境,只是起到輔助測試語言知識(shí)的作用。,4.交際法(thecommunicativeapproach)。有學(xué)者認(rèn)為交際法與綜合法在某種程度上有相似之處,即兩者都強(qiáng)調(diào)語言的意義而不是語言的形式和結(jié)構(gòu);但同時(shí)兩者之間又存在根本區(qū)別:交際法更注重語言在交際過程中的使用。這里牽扯到兩個(gè)概念:usage和use。Usage主要指語言形式和結(jié)構(gòu),而use則是有關(guān)語言的交際功能以及使用。語言運(yùn)用是語言學(xué)習(xí)的最終目標(biāo),語言形式的掌握是實(shí)現(xiàn)這一目標(biāo)的方法。因此,衡量一個(gè)人語言熟練程度的最終標(biāo)準(zhǔn)是看此人能否在語言使用環(huán)境中有效的進(jìn)行交際。交際法包括usage的成分,但更多的是評(píng)價(jià)學(xué)生在特定語言使用環(huán)境中交際能力(use)。,隨著交際教學(xué)法在語言教學(xué)領(lǐng)域日漸盛行,從20世紀(jì)80年代起語言測試界也逐步受到其影響,并出現(xiàn)了一系列旨在測試交際能力的探索性考試,這類考試大概有以下幾個(gè)特點(diǎn):1.考試內(nèi)設(shè)計(jì)“信息溝”(informationgap),要求學(xué)生通過各種已饋入的信息來獲取未知信息。2.考試任務(wù)或項(xiàng)目之間存在關(guān)聯(lián)性(taskdependency),即一個(gè)項(xiàng)目要基于前一個(gè)項(xiàng)目完成的基礎(chǔ)上,比如學(xué)生先聽一個(gè)電話交談,然后根據(jù)交談的內(nèi)容寫一封信。3.考試強(qiáng)調(diào)針對(duì)性,根據(jù)學(xué)生的具體需求設(shè)計(jì)考試內(nèi)容,比如在專門用途英語(EnglishforSpecificpurpose)考試中,要根據(jù)學(xué)生的具體語言要求,確定測試內(nèi)容、所需語言交際模式及其相關(guān)語言技能。4.側(cè)重更廣泛地測試語言能力,包括語言知識(shí)、語言功能,語言使用的合適性等。,5.考試采用定性評(píng)估方式(qualitativemodesofassessment),以取代純粹的定量評(píng)估方式(quantitativemodesofassessment)或作為其補(bǔ)充。前者屬于標(biāo)準(zhǔn)參照性質(zhì)(criterion-referenced),后者屬于常模參照性質(zhì)(norm-referenced).,1.3當(dāng)代國內(nèi)外大規(guī)??荚囈挥[1.3.1全國英語等級(jí)考試(PublicEnglishTestSystem,簡稱PETS)1.3.2大學(xué)英語四六級(jí)考試1.3.3英語專業(yè)四八級(jí)考試1.3.4美國托福考試1.3.5英國雅思考試1.3.6商務(wù)英語考試1.3.7人事部翻譯資格證書考試1.3.8教育部翻譯資格證書考試1.3.9上海市口譯資格證書考試,縱觀上述考試的設(shè)計(jì)宗旨和測試目的,我們可以歸納出以下幾個(gè)特點(diǎn):1.所有考試都旨在全面測量考生的語言水平,故無一遺漏地測試各主要單項(xiàng)語言能力(聽說讀寫)。2.考試日趨注重對(duì)口語能力的測試,并且口試與筆試分開的時(shí)間間隔也越來越短;托??荚囋趯?shí)施了18年后于1981年推出托??谠?;CET考試在開考12年后于1999年增加CET-SET考試,而在1999年開始正式實(shí)施的PETS考試,在推出時(shí)已包含了口語測試項(xiàng)目。,3.考試在測試考生接受性語言技能(receptive)的同時(shí),更加注重評(píng)價(jià)他們的產(chǎn)出性語言技能(productiveskills),所以在題型選擇上絕大多數(shù)采用多樣化的形式,既有多項(xiàng)選擇題,又有其他形式,如簡答題、填空題、匹配題、翻譯題、寫作題等。4.考試不僅考慮到信度(如分?jǐn)?shù)的可靠性),而且更加注重其效度(是否達(dá)到預(yù)期測試目標(biāo)等)。增加口語/寫作考試和多種題型有機(jī)組合都是為了能夠考核學(xué)生綜合運(yùn)用英語進(jìn)行交流的能力,以提高考試效度。,考試今后的發(fā)展趨勢,首先,隨著計(jì)算機(jī)的普及,考試計(jì)算機(jī)化或無紙化的進(jìn)程將加快,國外的托福考試已在推行考試計(jì)算機(jī)化(CBT,CAT)。我們國內(nèi)的有關(guān)人士也已完成了這方面的理論研究;有的地方性考試已開始實(shí)行外語考試網(wǎng)絡(luò)化,如上海市高考英語口試已連續(xù)幾年實(shí)施網(wǎng)上口試和網(wǎng)上評(píng)分。我們可以預(yù)測在不久的將來CBT和CAT將成為考試的常見形式。,第二,在考試方式的作用、考試分析手段、考生特征以及語言能力性質(zhì)等方面的研究將會(huì)繼續(xù)深入下去。第三,對(duì)常規(guī)考試以外其他評(píng)估方法的可行性探討也會(huì)成為研究的熱點(diǎn),比如小組測試方式(grouptesting),以學(xué)習(xí)者為中心的測試方式(learner-centeredtesting),自我評(píng)估(self-assessment)等。第四,考試的后效作用(washbackeffects),即考試對(duì)社會(huì)、教育機(jī)構(gòu)以及學(xué)生個(gè)人的影響等,也將成為研究的焦點(diǎn)之一。以上方面的研究成果無疑將會(huì)給考試注入活力,使考試成為一種更完善的評(píng)估手段。第五,考試開發(fā)設(shè)計(jì)將更加注重以考生為本的理念;考生群體的特殊要求將引導(dǎo)考試開發(fā);考試的社會(huì)服務(wù)功能將進(jìn)一步凸現(xiàn)。,比如,英國劍橋大學(xué)地方考試委員會(huì)(UCLES)開發(fā)的劍橋商務(wù)英語證書(BusinessEnglishCertificate,簡稱BEC)考試專門針對(duì)商務(wù)從業(yè)人員群體。該考試從聽說、說、讀、寫4個(gè)方面,綜合考查考生在商務(wù)及一般生活環(huán)境下使用英語的能力。又如,美國教育考試服務(wù)中心(ETS)推出的國際交流英語考試托業(yè)考試(TestofEnglishforInternationalCommunication,簡稱TOEIC),其考試設(shè)計(jì)對(duì)象為到國外出差或國際交往頻繁的非英語母語人士,如跨國公司的雇員等。,第二章考試功能及其類別,2.1測量、考試與評(píng)估1測量。什么是測量?Stevens(195)認(rèn)為,“廣義而言,測量(measurement)就是根據(jù)法則賦予事物數(shù)量?!币簿褪钦f,按照一定的規(guī)則給事物的屬性指派數(shù)字或符號(hào)的過程就是測量。這是迄今為止公認(rèn)的測量定義。舉例來講,要測量一下桌子的高度,我們可以拿尺子來量一量,看看它有多高。尺子是人們根據(jù)一定的法則制定的量具,利用它就可以把事物的屬性,即桌子的高度用數(shù)字表示出來,如,0.75米。這種測量屬于客觀測量,因?yàn)樗旧喜皇苡^察者的主觀判斷的影響。,測量這一定義包含三個(gè)要素:1)事物及其屬性。這是測量的對(duì)象或目標(biāo)。上面提到的對(duì)桌子的高度進(jìn)行測量,屬于對(duì)物體進(jìn)行測量,其屬性高度,是可以觀察到的,可以進(jìn)行客觀測量的。在外語教學(xué)領(lǐng)域,我們感興趣的是學(xué)生的語言能力,而學(xué)生的語言能力屬于人的心理特征,是無法直接測量的,但是人的心理活動(dòng)會(huì)在人的具體活動(dòng)和行為中體現(xiàn)出來,所以只能通過測量其外顯行為或外在表現(xiàn)特征來推論一個(gè)學(xué)生語言能力的高低。,2)指派數(shù)字或符號(hào)。所謂指派數(shù)字或符號(hào),就是用數(shù)字或符號(hào)來代表某一事物或事物的某一屬性的量。如張三在本次閱讀考試中得了87分,李四得了92分,我們說李四比張三多考了5分。數(shù)字本身沒有意義,只是一種符號(hào)。我們用它來代表考生的閱讀成績,這時(shí)它就變成了量化的數(shù),可以對(duì)其進(jìn)行解釋和分析。在一定的條件下,還可以對(duì)數(shù)據(jù)進(jìn)行運(yùn)算從而對(duì)事物的屬性進(jìn)行推測。,3)法則。法則是指測量所依據(jù)的規(guī)則和方法,是測量的關(guān)鍵。法則不好或不可靠,得到的測量結(jié)果就會(huì)出偏差,失去測量的意義。簡單來說,尺子不準(zhǔn),測量的結(jié)果就無法使人信服。對(duì)客觀世界的物體進(jìn)行測量時(shí),由于有公認(rèn)的測量法則或尺度,如測量物體的高度、重量等;一般不會(huì)出現(xiàn)大的偏差。而對(duì)人的某些特性(心理特征)進(jìn)行測量時(shí),則往往會(huì)出現(xiàn)較大的偏差。舉例來講,有幾個(gè)評(píng)委對(duì)某學(xué)生的英語口語進(jìn)行評(píng)定。評(píng)委A認(rèn)為一個(gè)人的口語要好,必須發(fā)音準(zhǔn)確,而該學(xué)生的發(fā)音好,所以他給打了個(gè)5分。評(píng)委B認(rèn)為流利性最能體現(xiàn)一個(gè)人的口語水平,該同學(xué)盡管發(fā)音不錯(cuò),但流利性差一些,所以她給他3分。同一名學(xué)生,讓不同的評(píng)委去打分,成績出現(xiàn)了偏差。這也很自然,原因是他們沒有按照一個(gè)評(píng)定口語成績的統(tǒng)一法則(rules)去給這名學(xué)生打分,結(jié)果造成了偏差。這個(gè)例子提醒我們,在對(duì)人的某些心理特征,如口語表達(dá)能力、閱讀理解能力等等進(jìn)行測量時(shí),首先要制定一個(gè)便于操作的,穩(wěn)定的法則或標(biāo)準(zhǔn)。這樣得到的測量結(jié)果才可靠,才具有可比性。,2測試測試(test)又稱測驗(yàn)。不同的心理學(xué)家對(duì)此下的定義不同。Anastasi(1982)認(rèn)為,“測試實(shí)質(zhì)上是對(duì)行為樣本所做的客觀的標(biāo)準(zhǔn)化的測量。”這個(gè)定義是人們公認(rèn)的最權(quán)威的定義,它包含以下三個(gè)基本要素:1)行為樣本語言測試的目的是要測量受試者的語言能力。上面提到,語言能力是無形的,如何測量?只能測量它的有形表現(xiàn),這里所說的有形表現(xiàn),是指語言表現(xiàn),如說出來的話,寫出來的句子,對(duì)測試題目所做的各種反應(yīng)等等、這些行為,都是無形的語言能力的有形表現(xiàn),用心理學(xué)術(shù)語叫“表征”(manifestation)。,所謂行為樣本,是指對(duì)語言能力表現(xiàn)行為的有效的抽樣。我們知道,一個(gè)人的語言能力的表現(xiàn)行為會(huì)有各種各樣的形式,測試時(shí)不可能也沒有必要把它的全部表現(xiàn)行為都測到,只能選取一部分有代表性的抽樣進(jìn)行測量,然后據(jù)此對(duì)受試者的語言能力作出推測。2)客觀的測量。所謂客觀的測量是指測量的標(biāo)準(zhǔn)是否符合實(shí)際。對(duì)于一項(xiàng)測試的客觀性程度可以從這么幾個(gè)方面去評(píng)價(jià):測試題目的難易度和區(qū)分度如何;測試結(jié)果的可靠性程度如何?測試結(jié)果的有效性如何?這幾項(xiàng)指標(biāo)是衡量一項(xiàng)測試質(zhì)量的重要指標(biāo)。3)標(biāo)準(zhǔn)化的測量標(biāo)準(zhǔn)化的測量是指在測試題目的編制、測試的實(shí)施、記分以及對(duì)分?jǐn)?shù)的解釋等方面有一套嚴(yán)密的系統(tǒng)的程序。只有這樣,測試才有統(tǒng)一的標(biāo)準(zhǔn),對(duì)不同人的測量結(jié)果才有可比性。凡是不標(biāo)準(zhǔn)化的測量,都沒有可比性。,3評(píng)價(jià)Weiss(1972)認(rèn)為,“評(píng)價(jià)(evaluation)是指為作出某種決策而收集資料,并對(duì)資料進(jìn)行分析,作出解釋的系統(tǒng)過程?!迸c測量、測試相比,評(píng)價(jià)的含義更廣、綜合性更強(qiáng)。Bachman(1990)指出,決策的正確與否,一方面取決與決策者本身的能力,另一方面則取決于收集到的信息的質(zhì)量。在其它條件等同的情況下,如果收集到的信息越可靠,相關(guān)性越強(qiáng),那么,作出正確決策的可能性就越大。所以說,評(píng)價(jià)的一個(gè)很重要的方面就是要獲得可靠的、相關(guān)的信息。在談到評(píng)價(jià)與測量及測試的關(guān)系時(shí),Bachman指出,在對(duì)個(gè)體(學(xué)生)作出評(píng)價(jià)時(shí),我們可以從質(zhì)量和數(shù)量兩個(gè)方面進(jìn)行描述,或只描述其中一個(gè)方面。所謂質(zhì)量方面的描述是指對(duì)學(xué)生的行為作出定性的描述,如某某學(xué)生的口頭表達(dá)能力優(yōu)秀,書面表達(dá)能力優(yōu)等;數(shù)量方面的描述則是指某次測驗(yàn)的分?jǐn)?shù)等。,測試、測量及評(píng)價(jià)三者之間的關(guān)系,使用下面的圖來表示。,從圖中可以看出,我們?cè)趯?duì)某教育目標(biāo)(或?qū)W生的行為)作出評(píng)價(jià)時(shí)不一定用到測試或測量(如面積1所示),這種評(píng)價(jià)屬于質(zhì)量評(píng)價(jià),或叫定性評(píng)價(jià),如指出學(xué)生在學(xué)習(xí)方面存在的問題。有時(shí)在作出評(píng)價(jià)時(shí)只需測量,而無需測試(如面積2所示),對(duì)學(xué)生的口頭表達(dá)能力定出級(jí)別就屬于這種性質(zhì)的評(píng)價(jià)。如果要檢查學(xué)生學(xué)習(xí)的進(jìn)步情況,通常就要對(duì)學(xué)生實(shí)施測試,這又是另一種性質(zhì)的評(píng)價(jià),即只通過測試對(duì)學(xué)生的成績作出評(píng)價(jià)(如面積3所示)。許多情況下,測試只是作為一種科研的工具或手段,而不是用來作出評(píng)價(jià)(如面積4所示),在外語教學(xué)、第二語言習(xí)得研究領(lǐng)域,我們經(jīng)常拿水平測試作為研究的工具。不用測試便可進(jìn)行測量的情況(如面積5所示)在外語教學(xué)研究領(lǐng)域也經(jīng)常碰到,在研究學(xué)生的第二語言習(xí)得時(shí),如果研究對(duì)象為來自不同國家的學(xué)生,人們一般按其母語情況編號(hào)。總而言之,并非所有的測量都是測試,并非所有的測試都屬于評(píng)價(jià),而且并非所有的評(píng)價(jià)活動(dòng)都涉及到測試或測量。,2.2考試功能一般說來,考試的不同用途賦予其不同的功能。比如,用來挑選學(xué)生的考試具有篩選功能。這里主要介紹與教學(xué)和科研有關(guān)的兩大功能:教學(xué)功能及科研功能。2.2.1教學(xué)功能毋庸置疑,考試在教學(xué)過程中起到積極的、必不可少的作用。使用得當(dāng)?shù)目荚囉兄诮虒W(xué)的順利開展,有助于提高教學(xué)效果。讓我們來比較以下兩個(gè)教學(xué)流程圖:,圖一:,入學(xué),課程,結(jié)業(yè),圖一所顯示的教學(xué)流程圖中只包括3個(gè)階段:入學(xué)、課程和結(jié)業(yè)。在學(xué)校的課程設(shè)置中有些課程與圖一相似,如學(xué)校開設(shè)的課外興趣活動(dòng)課、社區(qū)志愿服務(wù)等。這類課程的主要目的是擴(kuò)大學(xué)生的知識(shí)面,拓寬學(xué)生與社會(huì)的接觸渠道,故課程流程中只有3個(gè)部分。但是,如果課程是主要科目(如英語)時(shí),圖一的流程圖就顯得過于簡單。有以下幾個(gè)原因:1.主要科目課程一般要進(jìn)行階段性評(píng)估以確保課程質(zhì)量,而評(píng)估方法之一是考試。,2.學(xué)生入學(xué)后如果隨即分班學(xué)習(xí),自然班中的水平很有可能參差不齊。這實(shí)際上不利于教師因人施教,也不利于提高教學(xué)效率。如果在分班學(xué)習(xí)前進(jìn)行摸底考試,教師就能了解學(xué)生的水平,并以此為依據(jù)制定出有效的教學(xué)計(jì)劃。3.如學(xué)生結(jié)業(yè)時(shí)沒有檢查方法(如結(jié)業(yè)考試),那么學(xué)生不清楚自己的學(xué)習(xí)進(jìn)展,教師也無法了解教學(xué)效果。,圖2,入學(xué),課程,結(jié)業(yè),考試,考試,圖2是在圖1的基礎(chǔ)上擴(kuò)展的流程圖,考試作為教學(xué)的一部分被包括在其中。這樣,課程開始前的考試可以幫助教師調(diào)整現(xiàn)有的教學(xué)計(jì)劃,或制訂適合當(dāng)前學(xué)生水平的教學(xué)計(jì)劃,以達(dá)到最大限度地提高教學(xué)效果的目的。課程結(jié)束時(shí)的考試則可以使教師了解實(shí)際教學(xué)效果。從中我們可以得出這樣一個(gè)結(jié)論:考試在教學(xué)過程中有其必不可少的作用。以上主要從教師的角度談了考試的教學(xué)功能。從廣義上講,教師是考試使用者(testusers)的一部分。其他有關(guān)使用者包括學(xué)生本人、家長和教育管理部門。對(duì)后者來說,考試的教學(xué)功能主要體現(xiàn)在考試信息的反饋與使用上。對(duì)學(xué)生而言,考試反饋的信息在一定程度上反映學(xué)習(xí)上的進(jìn)展與存在的問題。對(duì)于家長,考試反饋的信息是他們了解自己子女學(xué)業(yè)進(jìn)展的主要途徑之一。至于教育管理部門,考試反饋的信息可以作為評(píng)估教學(xué)或課程設(shè)置的一部分。,2.2.2科研功能考試的另一大功能體現(xiàn)在科研領(lǐng)域。這里我們主要以語言研究為例。在該領(lǐng)域的基礎(chǔ)研究或應(yīng)用研究中,考試作為一種具體的測量形式,有其潛在的重要價(jià)值。比如,語言測試可以用在語言能力性質(zhì)(thenatureoflanguageproficiency)、語言處理(languageprocessing)、語言習(xí)得(languageacquisition)、語言流失(languageattrition/loss)及語言教學(xué)(languageteaching)的研究中。讓我們來看兩個(gè)例子。,例1.一位語言研究者注意到,使用同一母語的人之間的語言能力參差不齊。由此他想了解,他所執(zhí)教的美國學(xué)生的母語(英語)與他們所學(xué)的法語(學(xué)習(xí)時(shí)間為3年)之間有無關(guān)系。為了做調(diào)查,他讓研究對(duì)象參加了兩場考試,一個(gè)用來測量學(xué)生的母語能力,后者則檢查學(xué)生的法語水平。例2.在一個(gè)閱讀課教學(xué)方法的調(diào)查中,研究人員將兩種不同的方法做比較。一種方法強(qiáng)調(diào)閱讀過程中詞匯與句法的重要性,另一種方法則偏重于閱讀技巧的訓(xùn)練。為了得知接受不同方法訓(xùn)練的學(xué)生的閱讀能力是否存在區(qū)別,并希望獲取量化的指標(biāo),研究人員采取兩次統(tǒng)一考試的方法,即課程開始前的考試和課程結(jié)束后的考試。,例1屬于語言習(xí)得的研究范疇,例2屬于語言教學(xué)研究的范疇。盡管兩例的研究目標(biāo)、內(nèi)容等不盡相同,它們都不約而同地把考試作為一種獲取量化指標(biāo)的方法。例1用考試的方法來檢驗(yàn)?zāi)刚Z與所學(xué)外語之間有無關(guān)系的假設(shè)。例2通過對(duì)兩組學(xué)生在兩次考試中成績的分析和比較來證實(shí)不同的方法是否會(huì)導(dǎo)致閱讀能力上的區(qū)別。從這兩個(gè)例子中我們可以看出,考試的用途不限于教學(xué)領(lǐng)域,它在科研方面也應(yīng)用廣泛??荚囁峁┑囊恍?shù)據(jù)可以使我們科研報(bào)告的論證過程更具有科學(xué)性,結(jié)論更具有說服力。,2.3考試類別2.3.1根據(jù)考試目的分類從考試設(shè)計(jì)者的角度來說,每一種考試,不管是小型的還是大規(guī)模的,都應(yīng)有一個(gè)明確目的,即所設(shè)計(jì)的考試旨在獲取何種信息。因此,根據(jù)考試目的,考試大致可以分成以下幾種:1.水平考試(proficiencytests)通常用來衡量考生語言能力的考試屬于此類考試。比如,國內(nèi)的高考英語考試、研究生入學(xué)英語考試、英語等級(jí)考試(PETS)、國外的托??荚?,等等。,水平考試具有以下兩大特點(diǎn)。第一,它是選拔性考試(selectiontests),如前面提到的幾種考試都具有選拔性質(zhì),目的是從眾多考生中選拔出佼佼者。第二,它不是與某一具體課程掛鉤的考試;它的設(shè)計(jì)基礎(chǔ)是語言理論,即theory-based;換句話說,水平考試的目的不是看考生對(duì)某一課程內(nèi)容的理解,掌握程度如何,而是根據(jù)語言理論所設(shè)計(jì)的標(biāo)準(zhǔn)來測試考生現(xiàn)有的語言能力。這里值得一提的是,水平考試不完全是通用英語考試(Englishforgeneralpurpose);在一些情況下,水平考試的內(nèi)容可能只涉及某一具體語言應(yīng)用領(lǐng)域(Englishforspecificpurpose),比如,上海市的中高級(jí)口譯資格證書考試,劍橋商務(wù)英語等級(jí)考試。,2.成就考試(achievementtests)此類考試的目的是檢查學(xué)生在某一課程中的學(xué)習(xí)進(jìn)展情況。在教學(xué)過程中教師參與設(shè)計(jì)命題的大都是這類考試。根據(jù)考試舉行的時(shí)間,成就考試又可具體分為兩種:期中考試(midtermtests)和期末考試(finaltests)。期中考試又可稱為progresstests。從評(píng)估的角度看,其中考試的性質(zhì)屬于進(jìn)行性評(píng)估(formativeevaluation),因?yàn)樗饕菍?duì)學(xué)生的課程學(xué)習(xí)進(jìn)行中期檢查;,期末考試屬于終結(jié)性評(píng)估(summativeevaluation),它在課程結(jié)束或告一段落時(shí)組織實(shí)施。成就考試的最大特點(diǎn)顯示在它與教學(xué)大綱的關(guān)系上。成就考試可以說是基于教學(xué)大綱內(nèi)容上的考試,即syllabus-based。成就考試的內(nèi)容必須在教學(xué)大綱的范圍內(nèi),這是成就考試與水平考試的區(qū)別所在。,3.分班考試(placementtests)在教學(xué)活動(dòng)中我們經(jīng)常采用這類考試來確定學(xué)生(新生)中不同的語言水平,以便制定或根據(jù)實(shí)際情況調(diào)整教學(xué)內(nèi)容或計(jì)劃。同時(shí),教師根據(jù)考試成績把學(xué)生編入不同進(jìn)度的班級(jí)。分班考試的內(nèi)容既可基于語言理論之上,也可以實(shí)際教學(xué)大綱中高一級(jí)的要求為起點(diǎn)。例如,對(duì)于剛?cè)雽W(xué)的新生,我們可以使用第一學(xué)期其中或期末的試卷。由此可以說,分班考試內(nèi)容的選擇具有靈活性。對(duì)于教師來說,更須關(guān)注的是這類考試的難易程度以及考試內(nèi)容的代表性。能否把握好難易度關(guān)系到分班考試能否成為有效地測量工具。如果考試的難度大大超過學(xué)生的現(xiàn)有水平,那么,考試就很難起到區(qū)分學(xué)生水平的作用。此外,選擇的考試內(nèi)容要能夠均衡地考察學(xué)生的水平,不偏重某一方面。,4.診斷考試(diagnosistests)此類考試的目的是了解學(xué)生在某一階段學(xué)習(xí)上的長處與短處,其最終目的是給教師提供教學(xué)效果或質(zhì)量方面的信息.我們?cè)诮虒W(xué)中經(jīng)常采取的課堂小測驗(yàn)(quiz)實(shí)際上就是一種診斷考試。這類考試有以下幾個(gè)特點(diǎn)。第一,在教學(xué)過程中可以隨時(shí)使用,不受階段性的限制。第二,考試內(nèi)容一般與所教內(nèi)容有關(guān),即syllabus-based。第三,考試內(nèi)容的選擇可以更有針對(duì)性或側(cè)重點(diǎn)。比如,如果想了解學(xué)生現(xiàn)階段對(duì)某些動(dòng)詞短語的掌握情況,我們可以專門設(shè)計(jì)一份試卷。第四,試卷的長度視情況而定,可以短則一頁,長則數(shù)頁。,5.潛能測試(apititudetests)語言潛能測試也叫做預(yù)測性測試(prognostictests),是通過衡量學(xué)生在一門陌生語言中的語言表現(xiàn),以預(yù)測其是否有學(xué)好這門語言的潛力。語言學(xué)習(xí)潛力受到多方面因素的影響,如智商、年齡、動(dòng)機(jī)、記憶力、語言敏感度和語法結(jié)構(gòu)敏感度等。語言潛能測試與之前所學(xué)的知識(shí)無關(guān),很多情況下是學(xué)生以前從未接觸過的語言。一些專家認(rèn)為在實(shí)際操作中不太可能對(duì)應(yīng)試者的語言潛能進(jìn)行全面的測試,因此多數(shù)測試只是衡量考生某一部分的潛能如聽、譯領(lǐng)域的潛能。詞匯測試常被認(rèn)為是有效的潛能測試方法,因其與智商緊密相連并且能反應(yīng)出應(yīng)試者對(duì)這一領(lǐng)域的興趣。測試語言多采用人工語言,多關(guān)注音位區(qū)分能力和系統(tǒng)運(yùn)用語言結(jié)構(gòu)的能力,潛能測試題目數(shù)量較多,如TheModernLanguageAptitudeTest。,2.3.2根據(jù)考試分類根據(jù)考試方式進(jìn)行分類,英語語言測試可以分為直接測試(directtests)和間接測試(indirecttests)。1.直接測試(directtests)在這類考試中,學(xué)生被要求直接運(yùn)用被試的技能或能力。比如,要了解學(xué)生英語語音、語調(diào),我們可以讓他們朗讀一篇短文,或者讓他們用英語會(huì)話。朗讀和會(huì)話都直接涉及到語音和語調(diào)的使用。通過這兩項(xiàng)活動(dòng),教師可以比較直觀地了解到學(xué)生這方面的能力。同樣,如果我們想知道學(xué)生的寫作水平如何,最簡單的、也是最直接的方法就是讓學(xué)生寫一篇作文,因?yàn)閷W(xué)生在完成作文的過程中必須運(yùn)用他們的英語寫作能力。,歸納起來,直接考試有以下幾個(gè)特點(diǎn)。第一,直接考試側(cè)重考試形式的真實(shí)性(authenticity),及考試內(nèi)容與現(xiàn)實(shí)語境的緊密性(closeresemblance)。第二,直接考試便于從總體上考查產(chǎn)出性技能(productiveskills),如口語能力、寫作能力、翻譯能力等。第三,從命題人員的角度出發(fā),直接考試具有比較明確的測試目標(biāo)。通俗點(diǎn)說,也就是命題人員清楚地知道要考什么。,當(dāng)然,這并不意味著直接考試是完美無缺的。它自身帶有一些問題,如評(píng)分標(biāo)準(zhǔn)的制訂與統(tǒng)一、分?jǐn)?shù)的可靠性、分?jǐn)?shù)的可解釋性等。,2.間接考試(indirecttests)在介紹間接考試之前,我們先來看一看能力(ability)與技能(skill)之間的區(qū)別。簡單地說,能力指的是一個(gè)人在某一方面能干什么,即whatheisabletodo。它是一個(gè)較為籠統(tǒng)的概念。比如,我們常說某某人有較強(qiáng)的英語寫作能力、英語會(huì)話能力。然而,寫作能力或會(huì)話能力有哪些具體體現(xiàn)和構(gòu)成因素呢?這就涉及到一些具體的技能。比如說,一個(gè)人寫作能力的強(qiáng)弱可以體現(xiàn)在文章的組織(organization)、用詞(vocabulary)、語法(grammar)、連貫性(coherence)等方面。又如,在語法上的具體體現(xiàn)可為英語冠詞的使用、主謂一致等。,可以這樣說,某一能力是由其相關(guān)的技能所組成。間接考試是試圖測試那些相關(guān)的技能,以達(dá)到評(píng)估能力的目的。它之所以被稱為“間接”,是因?yàn)樗扇×擞鼗氐姆椒▉碓u(píng)估語言能力。間接考試的一個(gè)典型例子是形式各異的改錯(cuò)練習(xí)。請(qǐng)看下例:ThepopulationofChinaismuchmoreABClargerthanthatofCanada.D這道多項(xiàng)選擇題從表面上看是考比較級(jí)的用法,實(shí)際上是一道間接測試寫作能力的題目,因?yàn)楸容^級(jí)的正確使用是寫作能力中的一項(xiàng)具體技能。,概括起來,間接考試有這么幾個(gè)特點(diǎn)。第一,它不強(qiáng)調(diào)考試形式上的真實(shí)性,考試形式無需與實(shí)際語用環(huán)境相一致。第二,由于不受語用環(huán)境的限制,所選擇測試的技能可以更具有代表性和概括性。第三,間接考試可選用多項(xiàng)選擇題型,這可以提高考試的信度。但是,對(duì)于間接考試是否能夠真正測試預(yù)期的能力,人們還是存有疑慮。這主要反映在考試成績與該考試所測試能力的關(guān)系上。我們是否能十分肯定地說,在測試寫作能力的間接考試中(如語法試卷)獲取高分的人,他的寫作能力也相對(duì)突出?盡管經(jīng)驗(yàn)告訴我們兩者之間有關(guān)聯(lián),我們?nèi)詿o法百分之百地確定它們之間的絕對(duì)關(guān)系。對(duì)于我們教師來說,在選擇考試方式時(shí),要切記寸有所長,尺有所短。兩種考試方式各有優(yōu)缺點(diǎn),正確合理的使用或組合才能揚(yáng)長避短。,2.3.3.根據(jù)語音測量形式分類就具體測試語言而言,考試可分為分離式考試和綜合式考試兩類。1.分離式考試(discretepointtests)在這類考試?yán)?,一道題目一次只牽涉到一個(gè)考點(diǎn)。讓我們來看一道分離式考題:Weareallgoingtothegames.Whydontyoucome_?A.upB.acrossC.alongD.to這道題的考點(diǎn)是comealong的用法,除此之外,沒有其它考點(diǎn),比如時(shí)態(tài)或冠詞。這是分離式考題的一大特點(diǎn)。,分離式考試的其它特點(diǎn)如下。第一,每道題提供的信息反饋明確、具體,不摻和其它因素。如果學(xué)生答對(duì)上述這道題,在一般情況下,我們可以得知該學(xué)生了解或掌握了這個(gè)動(dòng)詞詞組的含義及用法。第二,分離式試題通常采用多項(xiàng)選擇題的形式。第三,分離式考試由于采取了多項(xiàng)選擇題的形式,較易達(dá)到理想的信度。然而,人們經(jīng)常對(duì)該類考試的有效性產(chǎn)生懷疑。受結(jié)構(gòu)主義語言學(xué)的影響,分離式考試把語言學(xué)習(xí)看成是系統(tǒng)的語言習(xí)慣獲取過程,認(rèn)為可以通過測試獨(dú)立的語言成分來檢查一個(gè)人的語言能力。因而,分離式考試的題目往往是相互間沒有關(guān)系,同時(shí)也不提供上下文情景。因此,分離式考試主要測量學(xué)生的語言知識(shí),而不是語言能力。,2.綜合式考試(integrativetests)此類考試要求學(xué)生在答題時(shí)運(yùn)用多種語言成分或技能,因?yàn)榫C合式考試項(xiàng)目不只含一個(gè)考點(diǎn)。讓我們來看幾個(gè)綜合式考試的例子。我們?cè)诮虒W(xué)中常用的聽寫練習(xí)(dictation)實(shí)際上屬于綜合考試項(xiàng)目。聽寫練習(xí)所要檢驗(yàn)的不只是拼寫(spelling),它還涉及詞匯知識(shí)(vocabulary)、語法知識(shí)(grammar)、聽力技巧(listening)等。另外一個(gè)我們較熟悉的例子是完形填空(cloze)。要完成完形填空項(xiàng)目,學(xué)生不僅要掌握詞匯、語法知識(shí),同時(shí)還要具備必要的閱讀技巧。從中我們可以總結(jié)出綜合考試的幾個(gè)特點(diǎn)。第一它是在一定的上下文中考查語言知識(shí)或技能。第二,它比較側(cè)重考查語言的意義(meaning)而不是語言的形式(form)。第三,由于要求同時(shí)運(yùn)用多種技能或知識(shí),綜合式考試強(qiáng)調(diào)語言熟練度的整體性。,2.3.4.根據(jù)評(píng)分方式分類按照試卷評(píng)分方式的不同,英語語言測試可分為主觀性測試(subjectivetests)和客觀性測試(objectivetests)。1.主觀性測試(subjectivetests)試題答案具有開放性或靈活性的考試稱為主觀考試。主觀性測試和客觀性測試的區(qū)別在于評(píng)分方式的不同。主觀性測試需要評(píng)分人對(duì)答案做出觀念性判斷,這種判斷往往基于評(píng)分人的經(jīng)驗(yàn)和所受過的相關(guān)訓(xùn)練。主觀性測試的題目主要有簡述題、翻譯題、作文、口試等。但這些題目在主觀性的程度上有所不同,例如自由寫作比基于閱讀的簡答題明顯具有更高的主觀性。主觀性測試由于需要評(píng)分人做出主觀性的判斷,因此在信度上明顯稍差。一篇作文,讓不同的評(píng)分人去評(píng)閱,就會(huì)出現(xiàn)不同的分?jǐn)?shù),甚至相差很多的分?jǐn)?shù),這主要是由于評(píng)分人的觀點(diǎn)、知識(shí)背景等各不相同。信度是主觀性測試一直追求的目標(biāo)。實(shí)現(xiàn)主觀性測試的信度主要要考慮以下幾點(diǎn):對(duì)評(píng)分人給予足夠的培訓(xùn)。主觀性測試的評(píng)分人最好要有相關(guān)的經(jīng)驗(yàn),在每次評(píng)分前,都要針對(duì)本次測試的主觀性試題進(jìn)行培訓(xùn),以熟悉試題內(nèi)容、評(píng)分標(biāo)準(zhǔn)。同時(shí)還要進(jìn)行試評(píng),每輪試評(píng)后,應(yīng)對(duì)每一位評(píng)分人的評(píng)分結(jié)果進(jìn)行分析,如果某位評(píng)分人的分?jǐn)?shù)總是與標(biāo)準(zhǔn)分?jǐn)?shù)相差甚遠(yuǎn)或不符合標(biāo)準(zhǔn),則應(yīng)不再使用該評(píng)分人。,以雅思為例,根據(jù)IELTS評(píng)分、分?jǐn)?shù)報(bào)告和解釋,對(duì)于受考官主觀性影響較強(qiáng)的寫作和口語考試部分,IELTS官方強(qiáng)調(diào):考官均須按照已制定的明確標(biāo)準(zhǔn)進(jìn)行招聘及培訓(xùn),且須每兩年接受檢驗(yàn)證明其評(píng)分符合標(biāo)準(zhǔn)。在評(píng)分初始,就要確定可接受的答案,考試結(jié)束后應(yīng)該立即選樣。例如作文測試,應(yīng)當(dāng)選取不同層次的樣本,供評(píng)分人進(jìn)行討論,當(dāng)所有評(píng)分人意見一致后,才可以進(jìn)行大規(guī)模評(píng)閱。對(duì)于簡述題、翻譯題等,考試結(jié)束后也應(yīng)當(dāng)立即選取一定數(shù)量的樣本,在試評(píng)中應(yīng)注意把握準(zhǔn)是否給分的語言點(diǎn),尤其是共性的問題,然后進(jìn)行討論訂立標(biāo)準(zhǔn),并告知所有評(píng)分人引起他們的注意。使用多名獨(dú)立評(píng)分人。一般來說,對(duì)于主觀題應(yīng)至少有兩名獨(dú)立評(píng)分人,兩人應(yīng)在不知道對(duì)方所給分?jǐn)?shù)的前提下進(jìn)行各自的評(píng)分,最后由他人匯總兩位評(píng)分人的分?jǐn)?shù),進(jìn)行比較。如果相差太大,則退回重評(píng)或交予權(quán)威專家進(jìn)行評(píng)判。避免給予應(yīng)試者過多選擇的權(quán)利。在主觀性測試中,應(yīng)避免讓考生從一系列題目中選取某一題目回答。例如,在寫作中提供多個(gè)題目,讓學(xué)生從中選取一個(gè)題目進(jìn)行寫作,這只會(huì)干擾測試的信度,并有不公平之嫌。,2.客觀性測試(objectivetests)試題答案具有規(guī)定性或排他性的考試,一般稱為客觀考試??陀^性測試是指不需要評(píng)分人主觀判斷、答案唯一或固定的測試形式??陀^性測試不需要對(duì)評(píng)分人進(jìn)行培訓(xùn),也不需要評(píng)分人的專業(yè)性判斷,甚至直接使用閱卷機(jī)就可以完成閱卷工作。客觀性測試的典型題目是單項(xiàng)選擇題。但是單項(xiàng)選擇題不是唯一的客觀性測試題型,單詞拼寫、動(dòng)詞填空、正誤判斷、配伍題等都是客觀性試題。客觀性測試內(nèi)容較為廣泛,比較適合分離式測試。但這也使客觀性測試只能間接反應(yīng)考生語言能力,同時(shí)加強(qiáng)了考試內(nèi)容取樣的主觀性??陀^性測試效度差,它往往只要求考生涂卡、打鉤等,答題存在猜測性因素,無法考察考生的實(shí)際語言應(yīng)用能力??陀^性測試信度好,唯一或固定的答案保持了評(píng)分標(biāo)準(zhǔn)的準(zhǔn)確性??陀^性測試能夠?qū)φZ言點(diǎn)有所控制,閱卷省時(shí)省力。但有一點(diǎn)我們需要注意,客觀性測試并不是完全客觀的,決定考點(diǎn)的過程、制作試題的過程本身就是主觀的。,2.3.5根據(jù)考分解釋分類考試分?jǐn)?shù)如何解釋?參照依據(jù)是什么?在這點(diǎn)上,考試可以分為兩個(gè)類別:常模參照考試與標(biāo)準(zhǔn)參照考試。1.常模參照性測試(norm-referencedtests)所謂“常?!保瑒櫱逭J(rèn)為:“常模是指一群類型相同的人在一類考試中的成績,這個(gè)常模一般用該考試的平均分與標(biāo)準(zhǔn)差來表示”(劉潤清2000:13)。因此,常模參照性測試是指對(duì)同一次測試的結(jié)果進(jìn)行比較,參照考試目的與要求設(shè)定合格分?jǐn)?shù)線。合格分?jǐn)?shù)線的設(shè)定主要以平均分?jǐn)?shù)為依據(jù)。,常模正態(tài)分?jǐn)?shù)的特點(diǎn)是能夠報(bào)道考生在常模群體中所處的百分位置。如某考生四級(jí)報(bào)道總分是550分,則根據(jù)大學(xué)英語四級(jí)考試(CET-4)報(bào)道分?jǐn)?shù)百分位對(duì)照表,可判斷其在常模群體中的百分位是76%,表示這名考生的英語成績優(yōu)于常模群體中76%的人。如某考生六級(jí)報(bào)道總分是600分,則根據(jù)大學(xué)英語六級(jí)考試(CET-6)報(bào)道分?jǐn)?shù)百分位對(duì)照表,可判斷其在常模群體中的百分位在87%92%之間,表示這名考生的英語成績至少優(yōu)于常模群體中87%的人,但不會(huì)優(yōu)于92%的人。,常模參照性測試以與其他考生的分?jǐn)?shù)進(jìn)行比較來衡量某一考生的成績,確定其在全體考生中的位置,因此常模參照性測試適用于選拔性測試,我國比較重要的考試大都是常模參照性測試,如中考、高考、研究生入學(xué)考試等。常模參照性測試的選拔性目的決定了其獨(dú)有的特點(diǎn),從命題角度而言,命題內(nèi)容覆蓋面寬,命題難易度離散程度較高,有助于拉開分?jǐn)?shù)段;分?jǐn)?shù)主要采用百分或標(biāo)準(zhǔn)分?jǐn)?shù)的形式。,2.標(biāo)準(zhǔn)參照性測試(criterion-referencedtests)與常模參照性測試不同,標(biāo)準(zhǔn)參照性測試在考試之前就已經(jīng)預(yù)先定好了衡量標(biāo)準(zhǔn),然后根據(jù)這些標(biāo)準(zhǔn)來判斷學(xué)生是否通過和不通過。在標(biāo)準(zhǔn)參照性測試中學(xué)生的表現(xiàn)并不取決于與其他學(xué)生所做的比較。標(biāo)準(zhǔn)參照性測試根據(jù)考生能否令人滿意地完成某些任務(wù)來劃分檔次。,例如,雅思中的學(xué)術(shù)類作文考試,如果某一學(xué)生得到6分,那么與這一分級(jí)對(duì)應(yīng)的寫作水準(zhǔn)如下:(A)在任務(wù)完成方面,達(dá)到寫作任務(wù)各項(xiàng)要求、能確切選擇有用信息進(jìn)行全面評(píng)述、呈現(xiàn)并強(qiáng)調(diào)主要特點(diǎn)或要點(diǎn),但細(xì)節(jié)可能與要點(diǎn)無關(guān)、不恰當(dāng)或不準(zhǔn)確。(B)連貫及銜接方面,信息和分論點(diǎn)安排連貫,論證過程清楚,有效使用銜接手段,但句內(nèi)或句間銜接有錯(cuò)誤或顯機(jī)械呆板,有時(shí)指代不清晰或不恰當(dāng)。(C)詞匯量方面,相對(duì)寫作任務(wù)而言,所運(yùn)用的詞匯量充足,嘗試運(yùn)用非常見詞匯但有時(shí)出現(xiàn)錯(cuò)誤,拼寫和構(gòu)詞出現(xiàn)一些錯(cuò)誤,但不影響交流。(D)句式多樣性及語法準(zhǔn)確性方面,混合使用簡單和復(fù)合句,語法和標(biāo)點(diǎn)出現(xiàn)一些錯(cuò)誤但基本不影響交流。,同樣在口語部分,考官會(huì)以流利度及連續(xù)性,詞匯內(nèi)容豐富性及語法標(biāo)準(zhǔn)性與語音作為評(píng)分標(biāo)準(zhǔn)。如果一名考生得到6分,那么他已達(dá)到的相應(yīng)的口語標(biāo)準(zhǔn)如下:(A)流利度及連貫性方面,愿意進(jìn)行詳細(xì)描述,但有時(shí)因重復(fù)、自我更正或停頓而造成不連貫,運(yùn)用不同的連接詞和語篇標(biāo)記但有時(shí)不恰當(dāng)。(B)詞匯方面,盡管有時(shí)詞匯運(yùn)用不恰當(dāng),但詞匯量足以詳細(xì)表述主題,表意清楚;總體上能成功地變換措辭進(jìn)行復(fù)述。(C)句式多樣性及語法準(zhǔn)確性方面,混合使用簡單和復(fù)合句式,但不夠靈活;經(jīng)常在使用復(fù)合句式時(shí)出錯(cuò),但很少因此給理解帶來障礙。(D)語音方面,總體能聽懂,偶爾因發(fā)音錯(cuò)誤給聽者理解造成負(fù)擔(dān)。,標(biāo)準(zhǔn)參照性測試與常模參照性測試相比較具有以下優(yōu)勢:首先,它以實(shí)際語言要求為標(biāo)準(zhǔn)確定衡量標(biāo)準(zhǔn),從而更傾向于直接反映并描述語言能力;其次,標(biāo)準(zhǔn)參照性測試能夠激勵(lì)學(xué)生實(shí)現(xiàn)標(biāo)準(zhǔn)??忌允孪却_定的標(biāo)準(zhǔn)做為目標(biāo),不用擔(dān)心自己比別人差,就一定會(huì)被淘汰。標(biāo)準(zhǔn)參照性測試不以淘汰多少考生為目的;此外,標(biāo)準(zhǔn)參照性測試與教學(xué)目標(biāo)緊密相連。考生的表現(xiàn)可促進(jìn)課程、教學(xué)方法、教學(xué)目標(biāo)的改進(jìn)。標(biāo)準(zhǔn)參照性測試的缺點(diǎn)在于:首先,考試內(nèi)容范圍狹窄,只涉及標(biāo)準(zhǔn)規(guī)定的內(nèi)容;其次,考生不能夠通過與他人比較知道自己在考試人群中所處的地位。尤其對(duì)于好學(xué)生而言,缺少獲得更高成績的動(dòng)力;此外,標(biāo)準(zhǔn)的設(shè)定難免有隨意性之嫌。,2.3.6.其它類型除以上談到的測試類型,近年來比較流行的測試還包括交際性測試(communicativetesting)和計(jì)算機(jī)輔助測試(computer-assistedtesting)。1.交際性測試(communicativetesting)自從Hymes提出了交際能力理論,語言教學(xué)開始注重學(xué)生交際能力的培養(yǎng),因此交際性測試也就應(yīng)運(yùn)而生。Hymes的語言交際能力框架由possible(可能)、feasible(可行)、appropriate(恰當(dāng)/得體)、done(完成)組成,換句話說語言能力不僅包括語言知識(shí)(詞匯、語法知識(shí))而且也包括交際能力,即有能力使用這些語言知識(shí)來得體地完成交際任務(wù)。,1995年Bachman對(duì)語言能力進(jìn)行了概括,即語言能力包括組織能力(organizationalcompetence)和語用能力(pragmaticcompetence)。組織能力二分為語法能力(grammaticalcompetence)和語篇能力(textualcompetence);語用能力二分為施為能力(illocutionarycompetence)和社會(huì)語言能力(sociolinguisticcompetence)。交際能力的發(fā)展對(duì)于交際性測試有很大的推動(dòng)作用。例如,Bachman的社會(huì)語言能力包括方言能力。方言的使用符合交際性測試對(duì)語言材料的要求,即語境的真實(shí)性。在英國劍橋大學(xué)地方考試委員會(huì)的熟練英語證書考試(CPE,五級(jí)水平考試中的最高級(jí))聽力材料中就有帶地方口音的講話。,McNamara提出交際語言測試應(yīng)具有兩種特征(McNamara2003:16-17):交際語言測試是語言表現(xiàn)測試(performancetests),其評(píng)價(jià)需要在學(xué)習(xí)者從事交際的擴(kuò)展行為時(shí)進(jìn)行。這種擴(kuò)展行為可以是接受性的,也可以是產(chǎn)出性的,或兩者兼而有之。交際語言測試側(cè)重參與者在實(shí)際場景中可能扮演的社會(huì)角色,并提供具體說明這些角色需要的方法。,Weir在CommunicativeLanguageTesting一書中提到了交際語言測試的一些主要特征:重點(diǎn)是意義語境化語言活動(dòng)帶有可接受的目的性有實(shí)際意義的言語使用真實(shí)的語言材料文本處理有真實(shí)性考試結(jié)果不可預(yù)見以互動(dòng)為基礎(chǔ)考生在真實(shí)心理狀態(tài)下展示語言能力根據(jù)實(shí)際結(jié)果判斷成績。(Weir1990:167),交際性測試在英國和澳大利亞等國家很受歡迎,例如,澳大利亞為以英語為第二語言的健康從業(yè)人員設(shè)計(jì)的考試。在考試中,任務(wù)的設(shè)計(jì)以真實(shí)診所常見的場景為背景,包括:與病人交流,為同事提供病例等。分?jǐn)?shù)以交際的復(fù)雜性、流利性做為標(biāo)準(zhǔn)。我國的交際語言測試主要是全國英語等級(jí)測試,其考試大綱中就明確了該考試是交際性語言測試,即“其語言運(yùn)用能力的分類和定義建立在交際性語言活動(dòng)模式的基礎(chǔ)上”(全國英語等級(jí)考試考試大綱第五級(jí)1999:7)。其不同的級(jí)別描述了不同的交際能力,及這些能力所能應(yīng)付的語言需要。例如:該考試對(duì)三級(jí)水平的描述“通過該級(jí)考試的考生,其英語已達(dá)到高等教育自學(xué)考試非英語專業(yè)本科畢業(yè)水平或符合普通高校非英語專業(yè)本科畢業(yè)的要求,基本符合企事業(yè)單位行政秘書、經(jīng)理助理、一般管理人員或科技工作者、外企職員的工作要求,以及同層次其他工作在對(duì)外交往中的基本需要”(全國英語等級(jí)考試考試大綱第三級(jí)2003:11-12)。五級(jí)水平為“通過該級(jí)考試的考生,其英語水平基本滿足在國外攻讀碩士研究生非英語專業(yè)或從事學(xué)術(shù)研究工作的需要。該水平的英語也能滿足他們?cè)趪鴥?nèi)、外從事專業(yè)和管理工作的基本需要”(全國英語等級(jí)考試考試大綱第五級(jí)1999:8-9)。,2.2.計(jì)算機(jī)輔助測試(computer-assistedtesting)計(jì)算機(jī)輔助測試(computer-assistedtesting,CAT),是指利用計(jì)算機(jī)協(xié)助對(duì)于學(xué)生的學(xué)習(xí)效果進(jìn)行測試和對(duì)學(xué)生的能力進(jìn)行評(píng)估。它以現(xiàn)代教育測試測量理論項(xiàng)目反應(yīng)理論(itemresponsetheory)為基礎(chǔ),以計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)為依托,力圖快速準(zhǔn)確地測量考生的潛在語言能力。計(jì)算機(jī)輔助測試有聯(lián)機(jī)測試與單機(jī)測試兩種方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論