標(biāo)準(zhǔn)設(shè)定:步驟、方法與評價指標(biāo)_第1頁
標(biāo)準(zhǔn)設(shè)定:步驟、方法與評價指標(biāo)_第2頁
標(biāo)準(zhǔn)設(shè)定:步驟、方法與評價指標(biāo)_第3頁
標(biāo)準(zhǔn)設(shè)定:步驟、方法與評價指標(biāo)_第4頁
標(biāo)準(zhǔn)設(shè)定:步驟、方法與評價指標(biāo)_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、標(biāo)準(zhǔn)設(shè)定:步驟、方法與評價指標(biāo)標(biāo)準(zhǔn)設(shè)定:步驟,方法與評價指標(biāo)術(shù)李珍辛濤陳平考試研究2010年4月第6卷第2期examinationsresearchapr.2010voi.6.no.2【摘要】標(biāo)準(zhǔn)設(shè)定(standardsetting)是劃分標(biāo)準(zhǔn)的過程,指在測驗分?jǐn)?shù)分布中劃分出兩類或兩類以上的分界分?jǐn)?shù).通過標(biāo)準(zhǔn)設(shè)定,考生可以被分為通過和未通過,或者是被分為更多的有序表現(xiàn)類別.標(biāo)準(zhǔn)設(shè)定是標(biāo)準(zhǔn)參照測驗的重要組成部分,也可為測驗決策者提供關(guān)于測驗效度的依據(jù),是目前測量領(lǐng)域一個頗受關(guān)注的研究問題.本文首先回顧了標(biāo)準(zhǔn)設(shè)定的源起和發(fā)展歷程,然后詳細(xì)地介紹了標(biāo)準(zhǔn)設(shè)定的基本步驟和幾種主要的標(biāo)準(zhǔn)設(shè)定方法,評估標(biāo)準(zhǔn)

2、設(shè)定過程的指標(biāo),最后簡單論述了在國內(nèi)各類考試中應(yīng)用標(biāo)準(zhǔn)設(shè)定的必要性.【關(guān)鍵詞】標(biāo)準(zhǔn)設(shè)定標(biāo)準(zhǔn)設(shè)定方法評價指標(biāo)【中圖分類號】g449.7【文獻(xiàn)標(biāo)識碼】a【文章編號】16731654(2010)020083013一,引言20世紀(jì)80年代以來,美國進(jìn)行了旨在提高基礎(chǔ)教育質(zhì)量的大規(guī)模教育改革,又被稱為標(biāo)準(zhǔn)化運(yùn)動.最新標(biāo)準(zhǔn)化運(yùn)動的改革大多源于不讓一個孩子落后法案(nochildleftbehind,nclb),除要求各州建立一個包含標(biāo)準(zhǔn),評估和年度表現(xiàn)目標(biāo)的問責(zé)制系統(tǒng)外,該法案更強(qiáng)調(diào)對測驗的嚴(yán)格要求,創(chuàng)建與內(nèi)容標(biāo)準(zhǔn)相對應(yīng)的表現(xiàn)標(biāo)準(zhǔn).標(biāo)準(zhǔn)化運(yùn)動不僅推動了大型評估的發(fā)作者簡介李珍,北京師范大學(xué)心理學(xué)院碩士研究

3、生;辛濤,博士,北京師范學(xué)大學(xué)心理學(xué)院教授,博士生導(dǎo)師;陳平,北京師范大學(xué)博士研究生.北京,100875.項目支持:新世紀(jì)優(yōu)秀人才支持計劃,北京師范大學(xué)應(yīng)用實驗心理北京市重點實驗室規(guī)劃項目資助(jd100270541).耋翌霾筮鲞笠塑展,也使標(biāo)準(zhǔn)參照測驗的廣泛使用成為必然.與常模參照測驗相對,標(biāo)準(zhǔn)參照測驗是根據(jù)內(nèi)容標(biāo)準(zhǔn)(知識,技能和能力)對考生的表現(xiàn)水平進(jìn)行界定的一類考試,如資格考試,高中會考等.在標(biāo)準(zhǔn)參照測驗中,標(biāo)準(zhǔn)設(shè)定(standardsetting)是非常重要的環(huán)節(jié),指在測驗分?jǐn)?shù)分布中劃分出兩類或兩類以上的分界分?jǐn)?shù)(cutscofe).通過標(biāo)準(zhǔn)設(shè)定,考生可以被分為通過和未通過,或者是被分

4、為更多的有序表現(xiàn)類別,比如低于基礎(chǔ)水平,基礎(chǔ)水平,熟練水平和高級水平.標(biāo)準(zhǔn)參照測驗的結(jié)果通常直接用于決策,如補(bǔ)習(xí)課程的安排,雇員的選擇,獎學(xué)金及職業(yè)許可證的發(fā)放等,標(biāo)準(zhǔn)設(shè)定的主要目的就是為決策提供證據(jù).在應(yīng)用標(biāo)準(zhǔn)參照測驗對考生進(jìn)行分類時,分界分?jǐn)?shù)是實現(xiàn)分類的途徑,因此通過標(biāo)準(zhǔn)設(shè)定獲得一個可信的分界分?jǐn)?shù)就顯得尤為重要,也是測驗結(jié)果效度的重要指標(biāo).本文首先描述了標(biāo)準(zhǔn)設(shè)定的發(fā)展歷史,然后對標(biāo)準(zhǔn)設(shè)定的基本框架,不同的標(biāo)準(zhǔn)設(shè)定方法,以及評估標(biāo)準(zhǔn)設(shè)定過程的要素作詳細(xì)的介紹.二,標(biāo)準(zhǔn)設(shè)定研究的興起和發(fā)展歷程關(guān)于標(biāo)準(zhǔn)設(shè)定的研究興起于20世紀(jì)70年代.在此以前,人們通常使用常模參照的方法進(jìn)行標(biāo)準(zhǔn)設(shè)定,如規(guī)定考試

5、的通過率為20%.1962年,glaser和klaus首先提出了標(biāo)準(zhǔn)參照測驗這一概念,隨著標(biāo)準(zhǔn)參照測驗的發(fā)展,人們才逐漸意識到標(biāo)準(zhǔn)設(shè)定的重要性.與此同時,美國從1977年開始發(fā)起了學(xué)生最低能力測試運(yùn)動,各州相繼立法要求學(xué)生在獲得高中文憑前必須通過最低能力測試,自此,標(biāo)準(zhǔn)參照測驗得到了迅猛的發(fā)展,標(biāo)準(zhǔn)設(shè)定也成為政策制定者和研究者共同關(guān)注的一個熱點話題.在上述背景下,標(biāo)準(zhǔn)設(shè)定方法開始大量涌現(xiàn),如埃伯方法(ebelmethod),邊緣組方法(borderlinegroupmethod)和安戈夫方法(angoffmethod)等.隨著大量標(biāo)準(zhǔn)設(shè)定方法的產(chǎn)生,研究者們開始進(jìn)行各種標(biāo)準(zhǔn)設(shè)定方法之間的比較.

6、研究結(jié)果發(fā)現(xiàn)不同的標(biāo)準(zhǔn)設(shè)定方法會產(chǎn)生不同的分界分?jǐn)?shù),不同的評委也會產(chǎn)生不同的分界分?jǐn)?shù).顯而易見,所有標(biāo)準(zhǔn)設(shè)定方法都依賴于人的主觀判斷,研究者們開始對標(biāo)準(zhǔn)設(shè)定方法的應(yīng)用產(chǎn)生懷疑,并引發(fā)了大量r4示準(zhǔn)設(shè)定:步驟方法與評價指標(biāo)的爭論.為此,1978年教育測量雜志(journalofeducationalmeasurement,jem)出版了一期???就標(biāo)準(zhǔn)設(shè)定是否合理這一問題進(jìn)行了大論戰(zhàn)(引自曹怡,2003).在其中,glass(1978)詳細(xì)闡述了他將標(biāo)準(zhǔn)設(shè)定方法稱為武斷和錯誤的,以及將標(biāo)準(zhǔn)設(shè)定的整個決策過程稱為主觀,反復(fù)無常以及本質(zhì)上不可驗證的原因,而scriven(1978),hambleto

7、n(1978),block(1978)和popham(1978)四人對glass的論點進(jìn)行了反駁,認(rèn)為標(biāo)準(zhǔn)設(shè)定并非是一個武斷的過程,至少不是一個反復(fù)無常的過程.鑒于標(biāo)準(zhǔn)設(shè)定的主觀性,linn(1978)建議為了獲得可信有效的決策,標(biāo)準(zhǔn)設(shè)定的結(jié)果必須經(jīng)過時間的驗證.由于1978年的jem使得標(biāo)準(zhǔn)設(shè)定的理論探討開始受到廣泛關(guān)注,因此被看做是標(biāo)準(zhǔn)設(shè)定研究領(lǐng)域建立的標(biāo)志.目前,盡管研究者們在標(biāo)準(zhǔn)設(shè)定的一些方面仍存在著分歧,但已意識到并能坦然接受這樣一個觀點:沒有完全客觀的標(biāo)準(zhǔn)設(shè)定方法,所有的標(biāo)準(zhǔn)設(shè)定方法,即使其再詳盡再系統(tǒng),都不能脫離人的主觀判斷.從這個意義上來說,標(biāo)準(zhǔn)設(shè)定是主觀的,但并不武斷.因為標(biāo)

8、準(zhǔn)設(shè)定的整個過程是經(jīng)過精心規(guī)劃的,并收集了大量的數(shù)據(jù),且選拔和培訓(xùn)了那些最適合進(jìn)行標(biāo)準(zhǔn)設(shè)定的評委,最后對于產(chǎn)生的分界分?jǐn)?shù)的有效性還進(jìn)行了充分的評價和驗證.如今,研究者不再爭論標(biāo)準(zhǔn)設(shè)定是否客觀的問題,而是對標(biāo)準(zhǔn)設(shè)定的方法和實施進(jìn)行更深入細(xì)致的探討.由美國心理協(xié)會,美國教育研究協(xié)會和全國教育測量委員會聯(lián)合發(fā)布的教育與心理測量標(biāo)準(zhǔn)(簡稱標(biāo)準(zhǔn),1999)特別強(qiáng)調(diào)了標(biāo)準(zhǔn)設(shè)定的重要性,并提出了標(biāo)準(zhǔn)設(shè)定的新的指導(dǎo)方針.2001年出臺的法案不讓一個孩子落后,提出在閱讀,數(shù)學(xué)和科學(xué)領(lǐng)域建立內(nèi)容標(biāo)準(zhǔn),根據(jù)這些標(biāo)準(zhǔn)進(jìn)行測驗編制,并通過標(biāo)準(zhǔn)設(shè)定確定三個表現(xiàn)水平.此外,cizek(2001)等人所寫的設(shè)定表現(xiàn)標(biāo)準(zhǔn):概念

9、,方法和前景一書,詳細(xì)介紹了標(biāo)準(zhǔn)設(shè)定的源起,概念,發(fā)展歷程,效度檢驗,在教育評估中的應(yīng)用,評價標(biāo)準(zhǔn)設(shè)定過程的標(biāo)準(zhǔn),各種標(biāo)準(zhǔn)設(shè)定方法在實踐中的應(yīng)用,以及與標(biāo)準(zhǔn)設(shè)定相關(guān)的一些社會,政策,教育和法律的問題.2006年出版的教育測量一書,也專門有一章詳細(xì)介紹標(biāo)準(zhǔn)設(shè)定的概念,步驟,方法等.這些都說明,標(biāo)準(zhǔn)設(shè)定已經(jīng)成為教育和心理測量領(lǐng)域的研究熱點,是教育測量不可或缺的重要組85耋疊蕉復(fù)鲞塑成部分.三,標(biāo)準(zhǔn)設(shè)定的基本概念和步驟(一)標(biāo)準(zhǔn)設(shè)定的基本概念標(biāo)準(zhǔn)設(shè)定中兩個重要的概念是內(nèi)容標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn).cizek等人(2004)區(qū)分了內(nèi)容標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn),認(rèn)為內(nèi)容標(biāo)準(zhǔn)是用來描述特定年齡和領(lǐng)域的考生應(yīng)該掌握的知識和技能

10、,回答了是什么的問題;而表現(xiàn)標(biāo)準(zhǔn)定義為被分到特定類別的考生應(yīng)該表現(xiàn)出的水平或程度,回答了是多少和程度如何的問題.hambleton等人(2006)也認(rèn)為,標(biāo)準(zhǔn)一詞有兩層含義:內(nèi)容標(biāo)準(zhǔn)和表現(xiàn)標(biāo)準(zhǔn),而通過分?jǐn)?shù),分界分?jǐn)?shù),臨界分?jǐn)?shù),表現(xiàn)水平,成就水平,掌握水平,能力水平,閾限等都是表現(xiàn)標(biāo)準(zhǔn)的不同說法.但實際上,關(guān)于內(nèi)容標(biāo)準(zhǔn),表現(xiàn)標(biāo)準(zhǔn),分界分?jǐn)?shù),表現(xiàn)水平的定義,研究者沒有達(dá)成一致,有的研究者將表現(xiàn)標(biāo)準(zhǔn)與內(nèi)容標(biāo)準(zhǔn)等同起來,而使用表現(xiàn)水平作為分界分?jǐn)?shù)的代名詞(kane,1994).為了統(tǒng)一,在本文中全部使用表現(xiàn)標(biāo)準(zhǔn)一詞.另一個重要的概念是表現(xiàn)類別,用于表示在分?jǐn)?shù)量表上各表現(xiàn)標(biāo)準(zhǔn)相隔的區(qū)間.在分?jǐn)?shù)報告中,需

11、要對各個表現(xiàn)類別考生的知識技能進(jìn)行詳細(xì)的描述.(-)標(biāo)準(zhǔn)設(shè)定的基本步驟hambleton等人(2006)描述了標(biāo)準(zhǔn)設(shè)定的九個基本步驟:選擇標(biāo)準(zhǔn)設(shè)定方法;選擇評委;由設(shè)定標(biāo)準(zhǔn)的評委或其他專家完成對表現(xiàn)類別的描述;培訓(xùn)評委;評委進(jìn)行判斷,收集評委對項目的評分;向評委提供反饋并推動討論;合并評委評分并獲得表現(xiàn)標(biāo)準(zhǔn);獲取評委對標(biāo)準(zhǔn)設(shè)定過程的評價;收集效度證據(jù)并準(zhǔn)備技術(shù)報告,包括對標(biāo)準(zhǔn)設(shè)定過程的詳細(xì)記錄及其他來源的效度證據(jù).在不同的方法中,這些步驟的組合方式和順序會有所不同,側(cè)重點也不一樣.需要注意的是,并非每個方法都包含以上九個步驟,一些方法還可能包含這些步驟之外的其他步驟.總的來說,標(biāo)準(zhǔn)設(shè)定的幾個要

12、點是:標(biāo)準(zhǔn)設(shè)定方法的選擇,專家評委的選擇和培訓(xùn),標(biāo)準(zhǔn)設(shè)定過程中各項活動的順序,效度驗證和對過程的詳細(xì)記錄.只有把這些問題處理好,才能通過該方法得到可靠而有效的結(jié)果.86準(zhǔn)設(shè)定:步驟方法與評價指標(biāo)四,主要的標(biāo)準(zhǔn)設(shè)定方法近四十年來,學(xué)者們先后提出多種標(biāo)準(zhǔn)設(shè)定方法,通??蓺w入兩類(cizek,1996;jaeger,1989;kane,1994):一類是以測驗為中心的標(biāo)準(zhǔn)設(shè)定方法,另一類是以考生為中心的標(biāo)準(zhǔn)設(shè)定方法.以測驗為中心的標(biāo)準(zhǔn)設(shè)定方法要求評委對評價任務(wù)作出評判,評委對臨界水平考生在每個項目上的期望表現(xiàn)水平作出評判,如安戈夫方法(angoff,1971).相比之下,以考生為中心的標(biāo)準(zhǔn)設(shè)定方法將

13、注意力直接集中于考生,要求熟悉考生的評委在不了解考生測驗表現(xiàn)的情況下將他們置于有序的表現(xiàn)類別,如臨界組(borderlinegroupmethod)和對照組方法(contrastinggroupsmethod).hambleton和jaeger等人于2000年提出一個全面的分類方法,將之前的以測驗為中心和以考生為中心的分類擴(kuò)展成四類:(1)對項目進(jìn)行評判的方法,(2)對考生進(jìn)行評判的方法,(3)觀察考生表現(xiàn)的方法,(4)評委對分?jǐn)?shù)曲線進(jìn)行評判的方法.目前已知的標(biāo)準(zhǔn)設(shè)定方法達(dá)一百種之多,還有很多方法的變式,但是幾乎所有方法都可以被歸入這四類中.下面介紹幾種常用的方法.angoff方法是最早被廣泛

14、使用的標(biāo)準(zhǔn)設(shè)定方法之一,擁有很多變式.對angoff方法的介紹最早出現(xiàn)于教育測量第二版的評分,常模和等值分?jǐn)?shù)一章(angoff,1971),其基本思想是,由評委專家對多項選擇題進(jìn)行審閱之后,給出每道題目上臨界水平考生正確作答的概率估計;然后把單個評委在每個項目上的概率估計進(jìn)行加和,求出所有評委這個加和的平均數(shù),即得到專家組的表現(xiàn)標(biāo)準(zhǔn).當(dāng)然,重復(fù)這個過程就可以得到多重表現(xiàn)標(biāo)準(zhǔn).這是angoff方法最常見的形式,卻不是唯一一種.人們在使用angoff方法的時候,通常會改變原始形式的一些特征,譬如為評委提供實際數(shù)據(jù),鼓勵專家之問的討論,使用多輪評定法等等,這些改變后的angoff方法又被稱為調(diào)整后的

15、angoff.近年來,書簽法(bookmarkmethod)逐漸取代angoff方法,成為美國各州使用最多的標(biāo)準(zhǔn)設(shè)定方法.截至2005年,美國有31個州在使用書簽法進(jìn)行標(biāo)準(zhǔn)設(shè)定,遠(yuǎn)遠(yuǎn)高于其他標(biāo)準(zhǔn)設(shè)定方法的使用率(perle,2005).書簽法是一種基于項目反應(yīng)理論的標(biāo)準(zhǔn)設(shè)定方法,它首先將項目難度映射到irt能力量87耋蕉笠鲞筮表上,得到項目難度定位值(bookmarkdifficultylocation,記為bdl),然后將項目按照bdl值由小到大排序生成有序測驗項目冊(ordereditembooklet,記為oib).之后,要求評委在oib的某兩個項目間放置書簽,使得從整體上而言,與某個表

16、現(xiàn)標(biāo)準(zhǔn)對應(yīng)的臨界水平考生能夠掌握書簽之前項目所反映的內(nèi)容,或者能夠以某個預(yù)定的反應(yīng)概率(responseprobability,記為rp)正確作答書簽之前的所有項目,書簽之后的項目則不能滿足rp的概率標(biāo)準(zhǔn).書簽確定之后,采用分界分?jǐn)?shù)估計方法確定每個評委的分界分?jǐn)?shù),再計算所有評委的平均數(shù)或中位數(shù),即可得到整個評委組的分界分?jǐn)?shù).最后將考生的能力估計值與分界分?jǐn)?shù)進(jìn)行比較,就可以將考生分類到預(yù)定的表現(xiàn)水平.以上介紹的兩種方法都屬于對項目進(jìn)行評判的方法,下面介紹兩種典型的對考生進(jìn)行評判的方法:臨界組方法和對照組方法.臨界組方法(borderlinegroupmethod,zieky&living

17、ston,1977)依據(jù)的理論假設(shè)是分界分?jǐn)?shù)應(yīng)從一組臨界水平考生的測驗分?jǐn)?shù)中產(chǎn)生.它的基本程序是:根據(jù)合格評委或教師的評分,為每個表現(xiàn)標(biāo)準(zhǔn)確定一組臨界水平考生,然后收集這些臨界水平考生的測驗分?jǐn)?shù),計算所有分?jǐn)?shù)的中位數(shù)作為表現(xiàn)標(biāo)準(zhǔn).另一種較為常用的是對照組方法(thecontrasting-groupsmethod,livingston&zieky,1982).在這個方法中,由評委根據(jù)考生的知識和技能水平,確定一組明顯高于表現(xiàn)標(biāo)準(zhǔn)水平的考生和另一組明顯低于表現(xiàn)標(biāo)準(zhǔn)水平的考生,然后分別對這兩組考生實施測驗,獲得測驗分?jǐn)?shù),再將這兩組考生測驗分?jǐn)?shù)的頻數(shù)分布繪制在同一坐標(biāo)系中,這兩個頻數(shù)分布的交

18、叉點就是測驗的分界分?jǐn)?shù).工作體方法(bodyofwork,bow方法,kingston,kahl,sweeney&bay,2001)是觀察考生表現(xiàn)的方法中較為常見的一種.在工作體方法中,首先根據(jù)考生的測驗總分進(jìn)行排序,然后由評委按照這個順序查看考生在測驗中的所有作答反應(yīng),包括多項選擇題的答案和對建構(gòu)反應(yīng)項目的應(yīng)答.評委的任務(wù)就是把每個考生的作答組合分配到一個表現(xiàn)類型中.其實施的步驟是:培訓(xùn)評委;對考生答卷初評以確定表現(xiàn)標(biāo)準(zhǔn)的大致范圍;增加總分在表現(xiàn)標(biāo)準(zhǔn)附近的考生,對其所有的作答反應(yīng)集合進(jìn)行深入分析,考生數(shù)量的增加會加強(qiáng)考試標(biāo)準(zhǔn)的穩(wěn)定性;最后用logistic回歸或平均數(shù)的方法計算表現(xiàn)標(biāo)

19、準(zhǔn).88標(biāo)準(zhǔn)設(shè)定:步驟方法與評價指標(biāo)除以上列出的幾種常用的方法外,目前已知的標(biāo)準(zhǔn)設(shè)定方法達(dá)一百多種,不再一一列舉.作為標(biāo)準(zhǔn)設(shè)定的第一步,標(biāo)準(zhǔn)設(shè)定方法的選擇主要取決于幾個方面的因素(hambleton,2006).首先,項目的組成扮演了重要的角色.多重選擇題組成的測驗應(yīng)該選擇bookmark方法或angoff方法,而表現(xiàn)測驗則更適合工作體的方法.其次,設(shè)定標(biāo)準(zhǔn)可用的時間和資源也會影響并改變方法的選擇和實施.例如,如果時間緊迫,就不能選擇需要準(zhǔn)備太多材料或耗時較長的方法.再次,一個機(jī)構(gòu)對于標(biāo)準(zhǔn)設(shè)定的先前經(jīng)驗也很重要.如果測驗機(jī)構(gòu)不熟悉某種方法,使用時還需要開發(fā)新的材料并進(jìn)行預(yù)試,就增加了實施的成本

20、.最后,關(guān)于方法有效性的證據(jù)也是選擇標(biāo)準(zhǔn)設(shè)定方法的重要因素,如果一個方法缺乏有效的證據(jù),使用機(jī)構(gòu)就不會青睞它.五,對標(biāo)準(zhǔn)設(shè)定過程的評價對標(biāo)準(zhǔn)設(shè)定的評價是一個需要從多方面考慮的復(fù)雜任務(wù).kane(1994,2001)提供了一個如何對表現(xiàn)標(biāo)準(zhǔn)進(jìn)行效度檢驗的框架.他認(rèn)為要使表現(xiàn)標(biāo)準(zhǔn)成為相應(yīng)分界分?jǐn)?shù)的有效解釋,就要使標(biāo)準(zhǔn)和分界分?jǐn)?shù)所使用的解釋性說明有效.為了達(dá)到這一點,kane建議依靠三種類型的效度證據(jù):過程性,內(nèi)部性和外部性證據(jù).過程性證據(jù)是指方法使用的正確性及方法實施的質(zhì)量.他認(rèn)為,盡管過程性證據(jù)是設(shè)定正確標(biāo)準(zhǔn)的必要條件,但過程性證據(jù)并不能保證建立的標(biāo)準(zhǔn)是合適的.內(nèi)部性證據(jù)即檢查評委將表現(xiàn)標(biāo)準(zhǔn)轉(zhuǎn)換

21、成分界分?jǐn)?shù)的一致性,可以通過對分界分?jǐn)?shù)的標(biāo)準(zhǔn)誤進(jìn)行評估而得出,有兩種計算方式:一是將不同的評委多次召集起來,得到重復(fù)設(shè)定分界分?jǐn)?shù)的標(biāo)準(zhǔn)誤;二是使用概化理論估計協(xié)方差成分.外部性證據(jù)依賴于與其他證據(jù)源的比較,比如不同標(biāo)準(zhǔn)設(shè)定方法的分界分?jǐn)?shù)一致性或者是與關(guān)于被試能力水平分類的外部標(biāo)準(zhǔn)的一致性.表1展示了對標(biāo)準(zhǔn)設(shè)定過程進(jìn)行評價的各種證據(jù)及其來源.耋叢疊筮復(fù)鲞笠呈塑表1評價標(biāo)準(zhǔn)設(shè)定過程的標(biāo)準(zhǔn)來源:摘自cizek(2004),有改動.關(guān)于哪種標(biāo)準(zhǔn)設(shè)定方法在特定情境中最有效,研究者目前還沒有達(dá)成共準(zhǔn)設(shè)定:步驟方法與評價鱟標(biāo)識(zieky,2001).因此,對于一個標(biāo)準(zhǔn)設(shè)定方法的提出,需要研究者提供盡可能多

22、的有效性證據(jù).即使每種方法都有不嚴(yán)密之處,收集關(guān)于標(biāo)準(zhǔn)設(shè)定過程有效性的證據(jù)(如了解評委對表現(xiàn)標(biāo)準(zhǔn)設(shè)定的理解程度,使用和對結(jié)果的信心等)還是非常重要的(cizek,1996).例如,egan(2001)在討論由ctb/mcgraw.hill實施書簽法所得的分界分?jǐn)?shù)的有效性和可解釋性時使用了六個標(biāo)準(zhǔn):優(yōu)先考慮,健全的研究基礎(chǔ),學(xué)術(shù)界的詳細(xì)審查,評委培訓(xùn),文檔記錄,主持研究計劃的部門與合作方的共同努力.雖然這些效度的證據(jù)往往不能證明該方法是絕對有效的,但如果缺乏這些證據(jù),這種方法肯定不能得到使用者的認(rèn)可.六,小結(jié)標(biāo)準(zhǔn)設(shè)定被稱為當(dāng)前教育測量領(lǐng)域最具爭議的論題(hambleton,1998).首先,標(biāo)準(zhǔn)

23、設(shè)定中包含評委的主觀判斷,常常被批評是武斷的;其次,標(biāo)準(zhǔn)設(shè)定方法仍然缺乏理論上的指導(dǎo);最后,對于標(biāo)準(zhǔn)設(shè)定的結(jié)果,缺乏公認(rèn)的系統(tǒng)的信效度檢驗方案.但同時,作為測量領(lǐng)域的新的研究課題,標(biāo)準(zhǔn)設(shè)定在高風(fēng)險決策中起著決定性作用,近年來受到了廣泛的關(guān)注.目前,我國已有較多應(yīng)用廣泛的標(biāo)準(zhǔn)參照測驗(如高中會考,大學(xué)英語四六級考試,計算機(jī)等級考試,普通話水平考試,公務(wù)員考試等),但現(xiàn)有大多數(shù)資格考試主要采用三種方法來確定合格分?jǐn)?shù):傳統(tǒng)的60分及格,以特定考生樣本的預(yù)期通過率反推合格分?jǐn)?shù)線,基于考試內(nèi)容確定單次考試的合格分?jǐn)?shù)(趙世明,2007).使用科學(xué)方法來確立標(biāo)準(zhǔn)的測驗屈指可數(shù),僅有護(hù)士資格考試和少數(shù)民族漢語

24、水平考試(徐靜,2004).因此,國內(nèi)研究者應(yīng)當(dāng)致力于研究出適合國內(nèi)各類水平考試和資格考試的標(biāo)準(zhǔn)設(shè)定方法,打破現(xiàn)有的6o分及格的迷信,以增強(qiáng)國內(nèi)各種水平考試和資格認(rèn)證考試的公平性,合理性,這也是對國內(nèi)教育測量領(lǐng)域研究的一大拓展.參考文獻(xiàn)1曹怡,若干標(biāo)準(zhǔn)設(shè)定方法的心理計量學(xué)比較初探d,華東師范大學(xué),2003.2趙世明,科學(xué)確定專業(yè)人才資格考試的合格標(biāo)準(zhǔn)j,中國人才,2007(17):6667.耋筵復(fù)鲞復(fù)呈塑3徐靜,對hsk三,六級發(fā)證標(biāo)準(zhǔn)的驗證性研究d,北京語言大學(xué),2004.4buekendabl,c.w.,smith,r.w.,impara,j.c.,&plake,b.s.,acom

25、parisonofangoffandbookmarkstandardsettingmethodsj.joumalofeducationalmeasurement,2002,39(3),253263.5beretvas,n.s.,comparisonofbookmarkdifficultylocationsunderdifferentitemresponsemodelsj.appliedpsychologicalmeasurement,2004,28(1),2547.6cizek,g.j.,settingpassingscorej.educationalmeasurement:issuesand

26、practice,1996,15(2):2031.7cizek,g.j.,conjecturesontheriseandcallofstandardsetting:anintroductiontocontextandpractice.ing.j.cizek(ed.),settingperformancestandards:concepts,methods,andpempeefives(pp.317).mahwah,nj:erlbaum.20018cizek,g.j.,bunch,m.b.,&koons,h.,settingperformancestandards:contemporar

27、ymethodsj.educationalmeasurement:issuesandpractice,2004,23(4),3150.9clauser,b.e.,harik,p.,margolis,m.j.,etal,anempiricalexaminationoftheimpactofgroupdiscussionandexamineeperformanceinformationonjudgmentsmadeintheangoffstandardsettingprocedurej.appliedmeasurementineducation,2009,22(1):121.10dawber,t.

28、,lewis,d.m.,&rogers,w.t.,thecognitiveexperienceofbookmarkstandardsettingparticipants.paperpresentedattheannualmeetingoftheamericaneducationalreseawhassociation,neworleans.la.2002egan,k.l.,validityanddefensibilityofcutscoresestablishedbythebookmarkstandardsettingmethod.paperpresentedatthe2001coun

29、cilofchiefstateschoolofficersconferenceon【a唱escaleassessment,houston,tx.200112glazer,r.,&klaus,d.j.,proficiencymeasurement:assessinghumanperformance.inr.m.gagne(ed),psyehologicalprinciplesinsystemdevelopment.newyork:holt,rinehart,andwinston,196213green,d.r.,tfimble,c.s.,&lewis,d.m.,interpret

30、ingtheresultsofthreedifferentstandardsettingpmcedures.educationalmeasurement:issuesandpractice,2003,22(1),2232.14hambleton,r.k.,ontheuseofcut?offscoreswithcriterionreferencedtests:instructionalsettings.journalofeducationalmeasument,1978,15,277290.15hambleton,r.k.,jaeger,r.m.,hake,b.s.,&mills,c.,

31、settingperformancestandardsoncomplexeducationalassessments.appliedpsychologicalmeasurement,2000,24,355366.16hambleton,r.k.,&pitoniak,m.j.,settingperformancestafldards.inbrennan,r.l(ed.),educationalmeasurement(4thedition,pp.433-435).westport,ct:praeger2006.17huynh,h.,onscorelocationsofbinaryandpa

32、rtialcredititemsandtheirapplicationstoitemmappingandcriterionreferencedinterpretation.journalofeducational&behavioralstatistics.1998.23:3556.18huynh,h.,onitemmappingsandstatisticalrulesforselectingbinaryitemsforcriterionreferencedinterpretationandbookmarkstandardsettings.paperpresentedattheannua

33、lmeetingofthenationalcouncilonmeasurementineducation.neworleans.la.2000.92標(biāo)準(zhǔn)設(shè)定:步驟,方法s評價指標(biāo)19jaeger,r.m.,certificationofstudentconlpetence.inr.l.linn(ed),educationaled.pp.485514).newyork:macmillan.1989.t(3rd20jaeger,r.m.,settingstandardsforcomplexperformances:aniterative,judgementalpolicycapturingstra

34、tegy.educationalmeasurement:issuesandpractice,1995,1620.21jaeger,r.m.,&mills,c.n.,anintegratedjudgmentprocedureforsettingstandardoncomplex,largescaleassessments.ing.j.cizek(ed.).standardsetting:concepts,methods,andperspectives(pp.313338).mahwah.nj:edbaum.2001.22kane,m.t.,validatingtheperformance

35、standardsassociatedwithpassingscores.reviewofeducationalresearch,1994,64:425461.23kane,m.,somuchremainsthesame:conceptionandstatusofvalidationinsettingstandards.ing.j.cizek(ed.),standardsetting:concepts,methods,andperspectives(pp5388).mahwah,nj:erlbaum.2001.24karantonis,a.,&sireci,s.g.,thebookma

36、rkstandardsettingmethod:aliteraturereview.educationalmeasurement:issuesandpractice,2006,25(1),412.25kingston,n.m.,kahl,s.r.sweeney,k.,&bay,l.,settingperformancestandardsusingthebodyofworkmethod.ing.j.cizek(ed),standardsetting:concepts,methods,andperspectives(pp.219248).mahwah,nj:erlbaum.2001.26k

37、olstad,a.,cohen,j.,baldi,s.,chan,t.,defur,e.,&angeles,j.,theresponseprobabilityconventionusedinreportingdatafromirtassessmentscales:shouldncesadoptastandard?washington,dc:americaninstitutesforresearch.1998.27lee,g.,&lewis,d.m.,ageneralizabilitytheoryapproachtowardestimatingstandarderrorsofcu

38、tscoressetusingthebookmarkstandardsettingprocedure.paperpresentedattheannualmeetingofthenationalcouncilonmeasurementineducation,seattle,wa.2001.28lewis,d.m.,mitzel,h.c.,&green,d.r.,standardsetting:abookmarkapproach.ind.r.green(chair),irtbasedstandardsettingproceduresutilizingbehavioralanchoring.

39、symposiumpresentedatthecouncilofchiefstateschoolofficersnationalconferenceonlargescaleassessment,phoenix,az.1996.29lewis,d.m.,green,d.r,mitzel,h.c.,baum,k.,&patz,r.j.,thebookmarkstandardsettingprocedure:methodologyandrecentimplementations.paperpresentedatthenationalcouncilformeasurementineducati

40、onannualmeeting,sandiego,ca,1998.30lewis,d.m.,mitzel,h.c.,green,d.r.,&patz,r.j.,thebookmarkstandardsettingprocedure.monterey,ca:mcgrawhill,1999.31mitzel,h.c.,lewis,d.m.,patz,r.j.,&green,d.r.,thebookmarkprocedure:psychologicalperspectives.ing.j.cizek(ed.),standardsetting:concepts,methods,andp

41、erspectives(pp.249281).mahwah,nj:erlbaum.2001.32perie,m.,angoffandbookmarkmethods.workshoppresentedattheannualmeetingofthenationalcouncilonmeasurementineducation.montrea1.canada.2005.93耋叢筵復(fù)鲞呈塑33plake,b.s.,&impara,j.c.,abilityofpaneliststoestimateitemperformanceforatargetgroupofcandidates:anissue

42、injudgmentalstandardsetting.educationalassessment,2001,7(2),8797.34reckase,m.d.,atheoreticalevaluationofanitemratingmethodandabookmarkmethodforsettingstandards.paperpresentedattheannualmeetingofthenationalcouncilonmeasurementineducation,montreal,quebec.2005.35reckase,m.d.,aconceptualframeworkforapsy

43、chometrictheoryofstandardsettingwithexamplesofitsuseforevaluatingthefunctioningoftwostandardsettingmethods.educationalmeasurement:issuesandpractice,2006,25(2),48.36reckase,m.d.,rejoinder:evaluatingstandardsettingmethodsusingerrormodelsproposedbyschulz.educationalmeasurement:issues&practice,2006,

44、25(3):1417.37sehulz,e.m.,lee,w.,&mullen,k.,adomainlevelapproachtodescribinggrowthinachievement.journalofeducationalmeasurement,2005,42,126.38schulz,e.m.,commentary:aresponsetoreckasesconceptualframeworkandexamplesforevaluatingstandardsettingmethods.educationalmeasurement:issuesandpractice,2006,2

45、5(3),4一l3.39skaggs,g.,&tessema,a.,itemdisordinalitywiththebookmarkstandardsettingprocedure.paperpresentedattheannualmeetingofthenationalcouncilonmeasurementineducation,seattle,wa.20o1.40wang,n.,useoftheraschirtmodelinstandardsetting:anitemmappingmethod.journalofeducationalmeasurement,2003,40,231253.41williams,n.j.,&schulz,e.m.,aninvestigationofresponseprobability(rp)valuesusedinstandardsetting.paperpresentedatt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論