信息技術(shù)教育評(píng)價(jià)基礎(chǔ)_第1頁
信息技術(shù)教育評(píng)價(jià)基礎(chǔ)_第2頁
信息技術(shù)教育評(píng)價(jià)基礎(chǔ)_第3頁
信息技術(shù)教育評(píng)價(jià)基礎(chǔ)_第4頁
信息技術(shù)教育評(píng)價(jià)基礎(chǔ)_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第一章 信息技術(shù)教育評(píng)價(jià)基礎(chǔ)通過本章的學(xué)習(xí),你將能:1區(qū)別測量、測驗(yàn)、考試、評(píng)價(jià)等概念2區(qū)分常模參照和標(biāo)準(zhǔn)參照評(píng)價(jià)3描述效度和信度的意義及其對測驗(yàn)準(zhǔn)備的作用4描述主要的評(píng)價(jià)方式并各舉出一個(gè)例子5能從任務(wù)的真實(shí)性、任務(wù)的復(fù)雜性、所需的評(píng)價(jià)時(shí)間和計(jì)分的主觀性等方面對主要的評(píng)價(jià)方式進(jìn)行比較分析6描述實(shí)施有利于促進(jìn)學(xué)生學(xué)習(xí)的教學(xué)評(píng)價(jià)對教師能力的要求第一節(jié) 基本概念的界定問題:我們在日常的教學(xué)中,在各類教育教學(xué)專業(yè)期刊中,會(huì)不斷看到諸如“評(píng)價(jià)”、“測量”、“測驗(yàn)”、“考試”等概念,你認(rèn)為這些概念之間有區(qū)別嗎?如果你認(rèn)為有區(qū)別,那你認(rèn)為這些概念分別適合什么場合? 一、測量、測驗(yàn)、考試、評(píng)價(jià)(一)測量早在1

2、951年,史迪文森在其實(shí)驗(yàn)心理學(xué)手冊中提出“廣義而言,測量是根據(jù)法則給事物賦予數(shù)量?!?1也就是說,用一定規(guī)則給事物屬性指派數(shù)字或符號(hào)的過程即測量。這是迄今為止公認(rèn)的測量定義。根據(jù)這一定義,測量通常包含三個(gè)要素:1事物及屬性:即測量的對象或目標(biāo)。教育和心理測量往往是通過測量個(gè)體的外顯行為或外在表現(xiàn)特征,來探知隱含于所外顯行為之中的個(gè)體潛在特質(zhì)及其水平,比如說某次表現(xiàn)性評(píng)價(jià)測量是學(xué)生在某個(gè)信息問題解決任務(wù)上的表現(xiàn)。但測量者真正想測查的是學(xué)生的信息素養(yǎng)。因此教育與心理測量中的事物屬性是指個(gè)體的心理特質(zhì),是間接測量的結(jié)果。2法則:即測量所依據(jù)的規(guī)則和方法,法則是測量的關(guān)鍵。法則的選擇直接決定測量是否

3、可靠,好的法則可保證得到可靠的測量,差的法規(guī)則往往會(huì)得到不可靠的甚至是錯(cuò)誤的結(jié)果。法則的好壞取決于它是否符合被測事物屬性和規(guī)律,以及是否易于制定和便于操作。由于人類的心理特質(zhì)抽象易變,其測量規(guī)則的制定和應(yīng)用相對困難得多。3數(shù)字或符號(hào):數(shù)字是代表某一事物或事物某一屬性的量。數(shù)字本身只是一種符號(hào),只有當(dāng)我們賦予它意義時(shí),它才變成量化的數(shù)。數(shù)具有自然數(shù)系統(tǒng)的某些特點(diǎn),包括:區(qū)分性,例如“相等”“不相等”等;等級(jí)性,例如,123;等距性,21=32;可加性,1+1=2,等等。由于數(shù)字本身具有這些邏輯運(yùn)算的特征,所以通過測量所得的數(shù),不僅可以表示事物屬性的類別、大小、多少,而且還可以在一定的條件下由數(shù)的

4、運(yùn)算而對事物的屬性進(jìn)行推測。任何領(lǐng)域里的測量都應(yīng)包含上述三元素,教育評(píng)價(jià)也是利用測量原理對教育領(lǐng)域內(nèi)的事物或現(xiàn)象給予數(shù)字化的描述,比如學(xué)生的學(xué)業(yè)成就、學(xué)習(xí)能力水平等。可以說,測驗(yàn)則是教育評(píng)價(jià)的主要量化工具。(二)測驗(yàn)對測驗(yàn)有多種多樣的定義,阿娜斯塔西221982年在其心理測驗(yàn)中所下的定義比較完整,至今仍為大多數(shù)教育和心理測驗(yàn)學(xué)家所接受,而且適于對中小學(xué)教學(xué)中使用的測驗(yàn)進(jìn)行解釋:“測驗(yàn)實(shí)質(zhì)上是對行為樣本的客觀的和標(biāo)準(zhǔn)化的測量。”根據(jù)這一定義,測量與測驗(yàn)是包含關(guān)系,測驗(yàn)是對測量對象、測驗(yàn)程序、測驗(yàn)的客觀性和規(guī)范性做了明確界定的測量,也就是說,一個(gè)測量要成其為測驗(yàn),必須包含三個(gè)基本界定因素:1行為樣

5、本中小學(xué)教學(xué)中采用測驗(yàn)是希望了解學(xué)生對課程規(guī)定的學(xué)習(xí)目標(biāo)上的掌握情況,但中小學(xué)學(xué)習(xí)目標(biāo)是多層次,而且涉及的內(nèi)容十分廣泛,測驗(yàn)不可能涵蓋學(xué)生在某一階段學(xué)習(xí)內(nèi)容和學(xué)習(xí)目標(biāo)中所有可能的行為表現(xiàn),因此測驗(yàn)只能選取一組有代表性的內(nèi)容和目標(biāo),以學(xué)生在這些內(nèi)容和目標(biāo)上的行為作為行為樣本來考查學(xué)生在相應(yīng)行為領(lǐng)域的行為特征。當(dāng)學(xué)生的行為樣本很恰當(dāng)?shù)卮頊y驗(yàn)所要測的全部內(nèi)容時(shí),該測驗(yàn)就會(huì)提供了有用的預(yù)測信息,否則,就說明構(gòu)成測驗(yàn)的行為樣本代表性不強(qiáng)。2標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化是指測驗(yàn)在編制、施測、計(jì)分及分?jǐn)?shù)解釋方面應(yīng)依據(jù)一套系統(tǒng)規(guī)范的程序,保證測驗(yàn)有統(tǒng)一的標(biāo)準(zhǔn),并使不同學(xué)生或?qū)W生群體的測驗(yàn)結(jié)果具有可比性。同時(shí),可減少無關(guān)因素

6、對測驗(yàn)結(jié)果的影響,從而使之更為準(zhǔn)確、可靠。3客觀性測驗(yàn)的標(biāo)準(zhǔn)化是為為了提高測驗(yàn)的客觀性,但絕對的標(biāo)準(zhǔn)化在現(xiàn)實(shí)教學(xué)中難以做到,因此,人們通常 采用一下指標(biāo)來考察測驗(yàn)的客觀性:(1)測驗(yàn)項(xiàng)目分析,通常所說的測驗(yàn)題目在教育和心理測量學(xué)中被稱為“項(xiàng)目”,項(xiàng)目分析即對測驗(yàn)題目的難度和區(qū)分度等進(jìn)行分析,確保測驗(yàn)題目能合理地區(qū)分出學(xué)習(xí)成功和不成功的學(xué)生。(2)信度,指測驗(yàn)結(jié)果的可靠程度;(3)效度,指測驗(yàn)結(jié)果的有效程度。(三)考試在教育測量領(lǐng)域,經(jīng)常出現(xiàn)“考試”一詞,比如中學(xué)畢業(yè)考試、大學(xué)入學(xué)考試,等等??荚嚺c測驗(yàn)存在一些差異,主要有:1測驗(yàn)的范圍較廣,如心理測驗(yàn)、各種隨機(jī)的小測驗(yàn)等。而考試一般是指比較正式

7、場合下的測驗(yàn),比如說期末考試、高考、自學(xué)考試等。要根據(jù)二者分別適用的場合合理使用兩個(gè)術(shù)語,有些場合下兩者可以相互替換,如既可說“單元測驗(yàn)”又可說“單元考試”;有些場合下,尤其是對一些公認(rèn)的特殊稱謂,兩者不可相互替代,如“高考”不能說“高測”,“心理測驗(yàn)”不能稱為“心理考試”等2測驗(yàn)的目標(biāo)一經(jīng)確定,測驗(yàn)的內(nèi)容只會(huì)一定的范圍那變化,而且,測驗(yàn)經(jīng)過對某些群體的反復(fù)試用、修改后,會(huì)逐步形成標(biāo)準(zhǔn)化的測驗(yàn);而考試目的性很強(qiáng),大多在某一特殊的時(shí)間和地域范圍內(nèi)為了某一特殊的目的而實(shí)施,因?yàn)橄乱淮慰荚嚨哪康暮头秶鷷?huì)發(fā)生很大改變,所以難以在原有考試的基礎(chǔ)上進(jìn)行連續(xù)性的修改,所以,旨在測量學(xué)生對知識(shí)、技能掌握程度的

8、考試(如高考)很難實(shí)現(xiàn)標(biāo)準(zhǔn)化;當(dāng)然,以測量學(xué)生能力為主的考試也可實(shí)現(xiàn)標(biāo)準(zhǔn)化的過程,如GRE(Graduate Record Examination)?!翱荚囀窃u(píng)價(jià)的主要方式之一,考試應(yīng)與其他評(píng)價(jià)方式相結(jié)合,要根據(jù)考試的目的、性質(zhì)、內(nèi)容和對象,選擇相應(yīng)的考試方法。要充分利用考試促進(jìn)每個(gè)學(xué)生的進(jìn)步?!苯逃筷P(guān)于積極推進(jìn)中小學(xué)評(píng)價(jià)與考試制度改革的通知(教基200226號(hào))33(四)評(píng)價(jià)評(píng)價(jià)是一個(gè)非常寬泛的范疇,包括了各種用來確定學(xué)生達(dá)到教學(xué)預(yù)期的學(xué)習(xí)目標(biāo)的程度的方法,既包括測驗(yàn)又包括多種表現(xiàn)性評(píng)價(jià)方法。例如,為了評(píng)價(jià)一個(gè)學(xué)生處理多媒體信息的能力,可以使用客觀性測驗(yàn)(objective test)測查

9、學(xué)生掌握的多媒體工具方面的知識(shí),再讓學(xué)生在規(guī)定的實(shí)際操作任務(wù)中來搜集、處理多媒體信息并制作多媒體作品,來考察學(xué)生實(shí)際的多媒體信息處理技能。多媒體只是測驗(yàn)中包含了大量多媒體知識(shí)的樣本,其數(shù)量之大,遠(yuǎn)遠(yuǎn)超過了學(xué)生在實(shí)際操作任務(wù)中需要使用的知識(shí)技能。知識(shí)測驗(yàn)回答的是學(xué)生對要操作的技能“知道了多少”,表現(xiàn)性評(píng)價(jià)回答的則是學(xué)生“實(shí)際能做得如何”。本書主要關(guān)注信息技術(shù)教育過程中學(xué)生學(xué)習(xí)成就的評(píng)價(jià),就成就評(píng)價(jià)(achievement assessment),重在通過各種各樣的評(píng)價(jià)方法了解學(xué)生在信息技術(shù)教學(xué)干預(yù)下,對預(yù)期學(xué)習(xí)目標(biāo)的掌握程度。為了便于陳述,在全書中都用“評(píng)價(jià)”來表示成就評(píng)價(jià)。同時(shí),盡管我們倡導(dǎo)盡

10、可能多地使用真實(shí)性的評(píng)價(jià),但由于受學(xué)校環(huán)境、時(shí)間、設(shè)備等方面的限制,往往需要將紙筆測驗(yàn)和表現(xiàn)性評(píng)價(jià)結(jié)合使用,才能做到完整地評(píng)價(jià)學(xué)生的信息技術(shù)學(xué)習(xí)成就。所以,本書中所用的評(píng)價(jià)是同時(shí)包含了紙筆測驗(yàn)和表現(xiàn)性評(píng)價(jià)的成就評(píng)價(jià)?,F(xiàn)在對測驗(yàn)之外的評(píng)價(jià)方式出現(xiàn)了很多種稱謂,表11列出了與表現(xiàn)性評(píng)價(jià)有關(guān)的幾個(gè)術(shù)語及其解釋。表11與表現(xiàn)性評(píng)價(jià)有關(guān)的常用術(shù)語表現(xiàn)性評(píng)價(jià)(Performance Assessment或Performance-based Assessment)是指要求學(xué)生通過實(shí)際操作某項(xiàng)任務(wù)或一系列任務(wù)(如制作一個(gè)信息技術(shù)作品、利用信息技術(shù)開展一項(xiàng)研究等)來表現(xiàn)出他們的理解水平和操作技能水平的評(píng)價(jià)。另類

11、評(píng)價(jià)(Alternative Assessment)是表現(xiàn)性評(píng)價(jià)的另外一種稱謂,強(qiáng)調(diào)這些評(píng)價(jià)方法提供了有別于傳統(tǒng)紙筆測驗(yàn)的其他一些評(píng)價(jià)方式。真實(shí)性的評(píng)價(jià)(Authentic Assessment)是表現(xiàn)性評(píng)價(jià)的另外一種稱謂,強(qiáng)調(diào)在評(píng)價(jià)時(shí),關(guān)注學(xué)生將理解和操作技能應(yīng)用于真實(shí)世界中實(shí)際問題的重要性二、參照點(diǎn)與單位在利用測量原理進(jìn)行量化的教育評(píng)價(jià)時(shí)都會(huì)用到參照點(diǎn)和單位這兩個(gè)要素。(一)參照點(diǎn)參照點(diǎn)是計(jì)算的起點(diǎn),參照點(diǎn)不同,測量結(jié)果就會(huì)因其所代表的意義不同而無法進(jìn)行比較。理想的參照點(diǎn)是絕對零點(diǎn)。但是在教育和心理測量中,由于所要測量的特質(zhì)常常很模糊,所以很難找到絕對零點(diǎn),教育評(píng)價(jià)中的參照點(diǎn)一般隨所參照的

12、標(biāo)準(zhǔn)而變化。教育評(píng)價(jià)中主要采用兩種參照標(biāo)準(zhǔn)對評(píng)價(jià)結(jié)果進(jìn)行解釋:常模參照(normreferenced)和標(biāo)準(zhǔn)參照(criterionreferenced),采用這兩種參照標(biāo)準(zhǔn)對評(píng)價(jià)結(jié)果做出解釋分別被稱為“常模參照解釋”(normreferenced interpretation)和“標(biāo)準(zhǔn)參照解釋”(criterionreferenced interpretation)”。一次對學(xué)習(xí)學(xué)習(xí)成績的評(píng)價(jià)可以提供(1)學(xué)生的相對等級(jí)或者(2)學(xué)生能夠或不能夠操作某項(xiàng)任務(wù)的描述。第一種結(jié)果表示的是學(xué)生在全部學(xué)生中所處的相對位置(例如,“在某個(gè)測驗(yàn)中,學(xué)生A在全班35個(gè)學(xué)生中排第三名”)。這種解釋學(xué)生績效的

13、方法稱做常模參照解釋。第二種結(jié)果表示的是對每個(gè)學(xué)生在具體知識(shí)和某些能力上的掌握水平的描述,例如,“她能夠分析一段程序的基本結(jié)構(gòu)并描述它的用途”。這種解釋評(píng)價(jià)結(jié)果的方法稱做標(biāo)準(zhǔn)參照解釋(與標(biāo)準(zhǔn)參照解釋有關(guān)的術(shù)語見表12)。表12與標(biāo)準(zhǔn)參照解釋有關(guān)的術(shù)語領(lǐng)域參照解釋在一系列有關(guān)的、明確界定的任務(wù)范圍(即領(lǐng)域)內(nèi)解釋評(píng)價(jià)結(jié)果。其含義與標(biāo)準(zhǔn)參照解釋類似,這種解釋描述性較強(qiáng),較少使用內(nèi)容參照解釋與領(lǐng)域參照解釋基本相同,但這里的內(nèi)容領(lǐng)域更寬泛,即包括代表內(nèi)容的任務(wù)也包括代表過程的任務(wù)。本術(shù)語也較少使用,多被標(biāo)準(zhǔn)參照解釋代替目標(biāo)參照解釋評(píng)價(jià)結(jié)果是用某一系列試題所代表的具體目標(biāo)來解釋的。它也經(jīng)常被稱為標(biāo)準(zhǔn)參照

14、解釋,但主要用于局限于對某一非常具體的目標(biāo)的解釋。在具體教學(xué)中,這兩種方法各有所長,常模參照評(píng)價(jià)能告訴我們學(xué)生與其他同學(xué)比較的結(jié)果,標(biāo)準(zhǔn)參照評(píng)價(jià)則能告訴我們學(xué)生對某項(xiàng)技能掌握的情況,而不必考慮其他學(xué)生的表現(xiàn)(參見表13對兩者的比較)。大多數(shù)時(shí)候,這兩種方法被視為統(tǒng)一的而非分離開的,在開展成就測驗(yàn)時(shí)往往是將兩者的優(yōu)點(diǎn)結(jié)合起來使用。表13常模參照和標(biāo)準(zhǔn)參照評(píng)價(jià)的比較常模參照測驗(yàn)標(biāo)準(zhǔn)參照測驗(yàn)主要用途調(diào)查性測驗(yàn)掌握性測驗(yàn)主要側(cè)重點(diǎn)測量學(xué)生在成績上的個(gè)體差異描述學(xué)生可以完成的任務(wù)結(jié)果的解釋將學(xué)生的成績與其他學(xué)生的結(jié)果進(jìn)行比較將學(xué)生的表現(xiàn)與一個(gè)明確界定的成就范圍進(jìn)行比較內(nèi)容的覆蓋面通常覆蓋廣泛的成就領(lǐng)域通

15、常限定在某些特定學(xué)習(xí)任務(wù)中測驗(yàn)計(jì)劃的特點(diǎn)通常使用明細(xì)表傾向使用詳細(xì)具體的范圍說明項(xiàng)目選擇的程序選擇能最大程度將學(xué)生區(qū)分開的評(píng)價(jià)項(xiàng)目(例如,能得到一個(gè)可靠的等級(jí)),簡單的評(píng)價(jià)項(xiàng)目通常會(huì)從測驗(yàn)中刪去包括所有可用于充分描述學(xué)生表現(xiàn)的所有評(píng)價(jià)項(xiàng)目。無須過分考量評(píng)價(jià)項(xiàng)目的難度或?yàn)榱嗽黾臃謹(jǐn)?shù)的范圍而刪去簡單的項(xiàng)目績效標(biāo)準(zhǔn)通過在某一特定群體中的相對位置來確定學(xué)生的績效水平,例如,20個(gè)人中排第五名通過絕對標(biāo)準(zhǔn)確定學(xué)生的績效水平,例如,學(xué)生能說出90%的技術(shù)術(shù)語的定義,以此來描述學(xué)生的掌握水平(二)單位理想的單位應(yīng)具備兩個(gè)條件:一是要有確定的意義,即所有人對同一“單位”所代表的含義的理解相同,例如,所有人對“

16、1公里”的理解都相同;二是單位要具有相同的價(jià)值,即相鄰兩個(gè)單位點(diǎn)間的差別相等,比如一公里和兩公里之間以及二公里和三公里之間同樣有一公里的差距。但教育測量中得到的數(shù)據(jù)的單位往往是不等距的或者是等距不等值的。例如:在一次信息技術(shù)考試中學(xué)生A得到了90分,學(xué)生B得到了80分,學(xué)生C得到70分,盡管90分與80和80分與70之間的原始分差相同,但卻不等距,也就是說,不能據(jù)此判斷學(xué)生A與學(xué)生B學(xué)習(xí)成績的差異和學(xué)生B說學(xué)生C學(xué)習(xí)成績的差距相同;同樣,如果本次考試中,一道難題和一道相對容易的題目滿分都是5分,這兩個(gè)5分是不等值的。因此,分?jǐn)?shù)等值問題是教育評(píng)價(jià)中非常重要但極易被忽視的問題,本書后面的章節(jié)將專門

17、討論轉(zhuǎn)化原始分?jǐn)?shù)以使其等值、等距的方法。三、教育評(píng)價(jià)中的量表教育評(píng)價(jià)中的量表(scale)的原意是“稱”,也就是有零點(diǎn)并具有等距刻度,可用于給事物指派數(shù)字的測量工具。在教育評(píng)價(jià)中,量表可被定義為一個(gè)有單位和參照點(diǎn),可根據(jù)測量目的和測量規(guī)劃對被測事物賦值的連續(xù)體。根據(jù)量表的參照點(diǎn)和單位不同,從低級(jí)到高級(jí)、從模糊到精確將量表分成四類:(一)命名量表也稱類別量表,是值根據(jù)某種法則給事物及屬性指派名稱或類別的量表,是最為簡單、最為粗糙的量表,例如,在電子表格或數(shù)據(jù)庫中常用的用數(shù)字進(jìn)行編號(hào),或用數(shù)字給不同的群體命名(用1代表男生,0代表女生)等等。命名量表數(shù)據(jù)或符號(hào),只有區(qū)分性,但沒有序列性、等距性、可

18、加性等,不能進(jìn)行代數(shù)運(yùn)算和數(shù)量化分析,只適于進(jìn)行次數(shù)統(tǒng)計(jì),如次數(shù)、眾數(shù)、百分比、離散相關(guān)等。(二)順序量表也稱等級(jí)量表,這種量表不僅將事物及屬性分類,而且還在此基礎(chǔ)上根據(jù)統(tǒng)一標(biāo)準(zhǔn)將之分為若干等級(jí)或進(jìn)行順序排列。因此,順序量表比命名量表更為精確些,比如,根據(jù)學(xué)生的實(shí)際表現(xiàn)分別給予“優(yōu)(5)”“良(4)”“中(3)”“合格(2)”“不合格(1)”等。這種量表所得的數(shù)據(jù)或符號(hào)具備了序列性,但仍沒有等距性和可加性,仍不能對之進(jìn)行加、減、乘、除運(yùn)算。它所適用的統(tǒng)計(jì)有中位數(shù)、百分位數(shù)、等級(jí)相關(guān)系數(shù)、肯德爾和諧系數(shù)以及秩次方差分析等。(三)等距量表也稱區(qū)間量表,它在給事物及屬性指派數(shù)字和符號(hào)時(shí),要求各數(shù)字或

19、等級(jí)之間的差距是相同的,即具有相等的單位。本書后面講到的標(biāo)準(zhǔn)分?jǐn)?shù)即是一種等距量表。這種量表所得數(shù)字既具備了區(qū)分性和序列性,同時(shí)又具備了等距性和可加性。我們可加減或乘除同一個(gè)常數(shù)于每一個(gè)觀測值,而并不破壞這些數(shù)值的關(guān)系,因此在一個(gè)等距量表上所得到的測值可以轉(zhuǎn)換到另一個(gè)與該組資料計(jì)算的參照點(diǎn)和單位不同的等距量表上去。但是,由于這種量表的單位是人定零點(diǎn),因此不能將其數(shù)據(jù)直接乘除,以倍數(shù)來解釋。此種量表能最廣泛地應(yīng)用統(tǒng)計(jì)方法,如計(jì)算均數(shù)、變差、相關(guān)系數(shù)等統(tǒng)計(jì)量以及應(yīng)用t檢驗(yàn)、F檢驗(yàn)等。(四)比率量表這是測量的最高水平,也是一種理想的量表。它有相等單位和絕對零點(diǎn),因此所得結(jié)果不僅可以比較差距,而且還可以

20、計(jì)算比例,以倍數(shù)來解釋數(shù)據(jù)。很多物理測量都屬于這一類量表,比如長度、重量、時(shí)間等測量。而教育和心理測量由于難以確定絕對零點(diǎn),因此很難達(dá)到這一量表水平。四、評(píng)價(jià)的效度和信度在設(shè)計(jì)評(píng)價(jià)計(jì)劃應(yīng)充分考慮評(píng)價(jià)的效度和信度,即怎樣才能夠提供有效且可信的評(píng)價(jià)結(jié)果解釋。效度指的是從評(píng)價(jià)結(jié)果中獲取的信息的正確性和意義性,即評(píng)價(jià)所測的是不是評(píng)價(jià)者希望測量的內(nèi)容。信度指的是評(píng)價(jià)結(jié)果的一致性。在后面的章節(jié)種會(huì)對效度和信度以及獲得效度和信度的方法進(jìn)行具體的討論。表12列出了提高在準(zhǔn)備和實(shí)施評(píng)價(jià)時(shí)有利于提高評(píng)價(jià)效度和信度的建議。從表種可以看出,效度和信度是在擬定評(píng)價(jià)計(jì)劃和準(zhǔn)備評(píng)價(jià)的早期階段就獲得的,而不是在評(píng)價(jià)結(jié)果產(chǎn)生之

21、后才有的。表中所列的程序?qū)⒃凇皽y驗(yàn)和操作基礎(chǔ)上評(píng)價(jià)的準(zhǔn)備”一章中詳細(xì)討論。這里僅僅是想強(qiáng)調(diào)一下它們在提高效度和信度方面的重要性。表12增加評(píng)價(jià)結(jié)果效度和信度的建議理想的評(píng)價(jià)特征應(yīng)遵循的程序1. 明確列出學(xué)習(xí)成果1. 使用表現(xiàn)性的術(shù)語陳述學(xué)習(xí)目標(biāo)2. 從明確界定的學(xué)習(xí)任務(wù)的范圍中選取代表性的樣本2. 準(zhǔn)備一份關(guān)于計(jì)劃評(píng)價(jià)的學(xué)習(xí)成績范圍的說明以及對所用評(píng)價(jià)任務(wù)樣本的說明3. 與計(jì)劃測量學(xué)習(xí)結(jié)果相關(guān)的任務(wù)3. 使評(píng)價(jià)任務(wù)與學(xué)習(xí)結(jié)果中所描述的具體操作相匹配4. 評(píng)價(jià)任務(wù)的難度水平適宜4. 使評(píng)價(jià)任務(wù)的難度與學(xué)習(xí)任務(wù)的要求、學(xué)生的能力以及評(píng)價(jià)結(jié)果的潛在應(yīng)用相匹配5. 能有效區(qū)別達(dá)到學(xué)習(xí)目標(biāo)學(xué)生與未達(dá)到學(xué)

22、習(xí)目標(biāo)學(xué)生的任務(wù)5. 遵循準(zhǔn)備評(píng)價(jià)流程的一般指導(dǎo)原則和具體規(guī)則,避免可能歪曲普及結(jié)果的各種因素6. 保證測量任務(wù)樣本充分,以及得到的學(xué)生成績樣本充足,以提供可靠的結(jié)果并保證對結(jié)果的有意義的解釋6. 如果學(xué)生的年齡和評(píng)價(jià)時(shí)間限制了選用的任務(wù)數(shù)量,應(yīng)對結(jié)果做出謹(jǐn)慎的解釋,增加評(píng)價(jià)的頻率,并使用其他證據(jù)驗(yàn)證結(jié)果7. 采用的評(píng)價(jià)程序應(yīng)有利于評(píng)價(jià)的準(zhǔn)備和使用7. 撰寫明晰的指導(dǎo)語,評(píng)價(jià)程序的安排應(yīng)便于施測、評(píng)分和解釋第二節(jié) 常用教育評(píng)價(jià)方法的分類問題:幾乎每個(gè)教師在測驗(yàn)中都使用過填空題、選擇題、匹配題、簡答題、論述題,信息技術(shù)教師還經(jīng)常使用以學(xué)生上機(jī)操作為基礎(chǔ)的表現(xiàn)性評(píng)價(jià),有些教師還嘗試使用過更為綜合的

23、表現(xiàn)性評(píng)價(jià)方法。你認(rèn)為這些評(píng)價(jià)方法的各自的優(yōu)點(diǎn)是什么?又各自存在哪些局限?你在實(shí)際的教學(xué)中有沒有注意根據(jù)具體的評(píng)價(jià)需要選擇最合適的評(píng)價(jià)方法?你在選用評(píng)價(jià)方法時(shí),主要考慮哪些因素?一、教育評(píng)價(jià)方法的分類根據(jù)評(píng)價(jià)目標(biāo)的不同要求,可將教育評(píng)價(jià)分為成就評(píng)價(jià)、能力測驗(yàn)和能力傾向測驗(yàn)三大類。如前所述,本書主要關(guān)注針對學(xué)習(xí)學(xué)習(xí)過程和學(xué)習(xí)結(jié)果的成就測驗(yàn),所以對能力測驗(yàn)和能力傾向測驗(yàn)不做具體闡述。根據(jù)成就評(píng)價(jià)的內(nèi)容,可將成就評(píng)價(jià)分為單科評(píng)價(jià)和綜合評(píng)價(jià)兩種,信息技術(shù)教學(xué)評(píng)價(jià)主要關(guān)注學(xué)生在信息技術(shù)學(xué)習(xí)中的成就評(píng)價(jià),但應(yīng)盡量體現(xiàn)課程綜合化的需要;根據(jù)成就評(píng)價(jià)對應(yīng)的教學(xué)階段及其對教學(xué)和學(xué)習(xí)的功能,可將評(píng)價(jià)分為安置性評(píng)價(jià)

24、、過程性評(píng)價(jià)和總結(jié)性評(píng)價(jià),本書將在第二章結(jié)合評(píng)價(jià)與教學(xué)的關(guān)系詳細(xì)敘述。根據(jù)傳統(tǒng)的分類方法,會(huì)根據(jù)評(píng)價(jià)采用的測驗(yàn)題目的特性,將測驗(yàn)分為客觀性測驗(yàn)與主觀性測驗(yàn)兩大類。但隨之評(píng)價(jià)理論的發(fā)展,人們?nèi)找嬲J(rèn)識(shí)到客觀性測驗(yàn)和主觀性測驗(yàn)并非截然獨(dú)立的兩個(gè)極端,現(xiàn)實(shí)教學(xué)中采用的評(píng)價(jià)方法在評(píng)價(jià)任務(wù)的真實(shí)性、評(píng)價(jià)任務(wù)的復(fù)雜性、評(píng)價(jià)所需的時(shí)間、計(jì)分所需的判斷能力等四個(gè)方面均處于一個(gè)漸變的連續(xù)體上(見表13),根據(jù)這四個(gè)方面特性的區(qū)別,可將教學(xué)中常用的評(píng)價(jià)方法分為以下四種大類型:1選擇反應(yīng)(selected-response)測驗(yàn):要求學(xué)生從提供地各個(gè)答案中選擇正確的或最佳的答案,包括選擇題(multiple-choi

25、ce)測驗(yàn)、是非題(true-false)測驗(yàn)和匹配題(matching)測驗(yàn)。2補(bǔ)充反應(yīng)(supply-response)測驗(yàn):要求學(xué)生通過補(bǔ)充一個(gè)單詞、短語或一篇完整的論文做出反應(yīng),主要包括填空題、簡答題等。3限定性表現(xiàn)性(restricted performance)評(píng)價(jià):關(guān)注學(xué)生在一個(gè)結(jié)構(gòu)良好的限制性的任務(wù)中的實(shí)際表現(xiàn)。例如,按照明確的要求給一段文本設(shè)置格式;按要求制作一個(gè)多媒體作品;按要求寫出一段程序語言等;或者根據(jù)提供的關(guān)鍵詞使用搜索引擎查找信息等。4拓展性的表現(xiàn)性(extended performance)評(píng)價(jià):則涉及更綜合、結(jié)構(gòu)化較差的操作性任務(wù),例如,根據(jù)對一個(gè)名人的研究用文

26、字處理軟件寫一篇人物傳記;根據(jù)對當(dāng)?shù)厣钗鬯奶幚頎顩r,制作一篇關(guān)于環(huán)境保護(hù)的多媒體演示文稿;或者使用計(jì)算機(jī)軟件分析當(dāng)?shù)亟倌陙淼臍夂蜃兓?。除了更多地使用拓展性的表現(xiàn)性評(píng)價(jià),現(xiàn)在的信息技術(shù)評(píng)價(jià)一般都要求學(xué)生在現(xiàn)實(shí)情境中,有機(jī)結(jié)合和應(yīng)用學(xué)過的知識(shí)、技能去完成任務(wù)。如果該任務(wù)要求學(xué)生完成信息技術(shù)作品的話,一般還要求學(xué)生提交產(chǎn)品之前對作品進(jìn)行評(píng)價(jià)和修改。表13四種評(píng)價(jià)方法的比較總結(jié)測驗(yàn)表現(xiàn)性評(píng)價(jià)選擇-反應(yīng)測驗(yàn)補(bǔ)充-反應(yīng)測驗(yàn)限定性表現(xiàn)性評(píng)價(jià)拓展性表現(xiàn)性評(píng)價(jià)任務(wù)的真實(shí)性低fg高任務(wù)的復(fù)雜性低fg高評(píng)價(jià)所需時(shí)間低fg高計(jì)分所需的判斷能力低fg高在現(xiàn)實(shí)教學(xué)中,教師偏愛選擇型測驗(yàn)(包括選擇題、是非題和匹配題

27、)的出發(fā)點(diǎn)是可以在相對較短的時(shí)間內(nèi)完成大量的問題,而且便于施測和評(píng)分,測驗(yàn)結(jié)果又以數(shù)字的形式呈現(xiàn),易于記錄、比較及向他人報(bào)告。但教師使用的選擇型測驗(yàn)的內(nèi)容過分局限在對事實(shí)性知識(shí)和名詞的記憶上,大量研究(Gronlund, N. E., 2003)44表明80%90%的教師自編測驗(yàn)都是以知識(shí)類的學(xué)習(xí)成果作為考察對象。正是這種過分強(qiáng)調(diào)簡單知識(shí)的機(jī)械記憶和簡單復(fù)現(xiàn)為主要特征的選擇型測驗(yàn)招致了大量的批評(píng),教育界開始廣泛重視在實(shí)際情境中考察復(fù)雜的學(xué)習(xí)結(jié)果,并由此引發(fā)了評(píng)價(jià)技術(shù)改革的運(yùn)動(dòng)。但在追求表現(xiàn)性評(píng)價(jià)的這場運(yùn)動(dòng)中,人們往往忽視了這樣一個(gè)事實(shí)只要設(shè)計(jì)合理,紙筆測驗(yàn)也能考察廣泛的復(fù)雜的學(xué)習(xí)結(jié)果。在現(xiàn)實(shí)的

28、教學(xué)中,只有同時(shí)使用客觀性測驗(yàn)和表現(xiàn)性評(píng)價(jià)的教學(xué)才能取得理想的效果。二、常用教育評(píng)價(jià)方法的分析以下是對各種常用評(píng)價(jià)方法從價(jià)任務(wù)的真實(shí)性、評(píng)價(jià)任務(wù)的復(fù)雜性、評(píng)價(jià)所需的時(shí)間、計(jì)分所需的判斷能力等四個(gè)方面進(jìn)行的比較: 1評(píng)價(jià)任務(wù)的真實(shí)性任務(wù)的真實(shí)性是指評(píng)價(jià)任務(wù)在多大程度上模擬了真實(shí)生活中的表現(xiàn)。傳統(tǒng)的選擇型測驗(yàn)真實(shí)性很低,因?yàn)樗蟊辉u(píng)價(jià)者從給出的一系列可能答案中選擇一個(gè)作為答案,學(xué)生的反應(yīng)被限定在羅列出的選項(xiàng)中,而這種高度結(jié)構(gòu)化的問題在真實(shí)生活中很少發(fā)生。拓展性的表現(xiàn)性評(píng)價(jià)具有很高的真實(shí)性,因?yàn)樗噲D完全模擬真實(shí)生活中的表現(xiàn)。當(dāng)我們評(píng)價(jià)學(xué)生某種軟件操作的熟練程度如何,作品設(shè)計(jì)和制作的好不好,或者理

29、解現(xiàn)實(shí)生活中信息問題的能力怎樣(例如,如何在最短的時(shí)間那搜索到最有針對性和最有價(jià)值的信息等)時(shí),要求學(xué)生做出一系列與在真實(shí)生活中幾乎一樣的反應(yīng)。處于這兩個(gè)極端之間的是補(bǔ)充反應(yīng)測驗(yàn)(例如填空題、簡答題和論述題等)和限定性表現(xiàn)性評(píng)價(jià),它們所給任務(wù)的結(jié)構(gòu)化程度中等,所要求的反應(yīng)較自由,因此比選擇反應(yīng)測驗(yàn)更具有真實(shí)性。在人們?nèi)找嫣岢卣剐缘谋憩F(xiàn)性評(píng)價(jià)以增加評(píng)價(jià)的真實(shí)性的同時(shí),還呈現(xiàn)出另一種趨勢,即增強(qiáng)傳統(tǒng)紙筆測驗(yàn)的仿真性,測驗(yàn)中使用的問題和測驗(yàn)的過程更接近于真實(shí)生活,使紙筆測驗(yàn)也可以考察更復(fù)雜的學(xué)習(xí)結(jié)果。以一道關(guān)于“算法”的紙筆測驗(yàn)題為例,題目中呈現(xiàn)的信息可能會(huì)遠(yuǎn)遠(yuǎn)超過學(xué)生解決一個(gè)所需的信息,藉此考察

30、從中選擇和處理有用信息并整理解決問題思路的能力。另外,有些測驗(yàn)從選擇型向補(bǔ)充型轉(zhuǎn)變,或者采用綜合運(yùn)用兩種類型的測驗(yàn),例如,在學(xué)生選擇一個(gè)選項(xiàng)后,要求學(xué)生簡要解釋選擇該答案的理由等。2評(píng)價(jià)任務(wù)的復(fù)雜性選擇反應(yīng)類的測驗(yàn)試題在呈現(xiàn)的問題和期望學(xué)生做出的反應(yīng)都不復(fù)雜。盡管這類試題也可以考察學(xué)生的理解能力和思維能力,但它們的典型方式是呈現(xiàn)一個(gè)單一的、有明確限定條件的問題,并要求學(xué)生選出唯一正確或最佳的答案。而拓展性的表現(xiàn)性評(píng)價(jià)則涉及多種學(xué)習(xí)結(jié)果,需要有機(jī)結(jié)合來自不同來源的觀點(diǎn)和技能解決問題,需要采取各種可能的解決方案,并需要對結(jié)果從多維度進(jìn)行評(píng)價(jià)。例如,綜合考慮各種因素設(shè)計(jì)選擇最佳旅游計(jì)劃的算法等。就任

31、務(wù)的復(fù)雜性而言,補(bǔ)充型測驗(yàn)也處于兩個(gè)極端之間。以論述題為例,它可以考察學(xué)生選擇、整合和表達(dá)觀點(diǎn)的能力,但短文寫作的任務(wù)與表現(xiàn)性評(píng)價(jià)的任務(wù)相比,限定性更強(qiáng),結(jié)構(gòu)化程度更高。3評(píng)價(jià)所需的時(shí)間選擇型試題可以在一個(gè)相對較短的時(shí)間內(nèi)讓學(xué)生完成大量的任務(wù),評(píng)價(jià)結(jié)果可以依靠人工或機(jī)器迅速評(píng)出分?jǐn)?shù)。這種測驗(yàn)的高效率無疑是其能夠被廣泛使用的一個(gè)主要原因。表現(xiàn)性評(píng)價(jià)所需的評(píng)價(jià)時(shí)間則是最長的。這類評(píng)價(jià)中的一些任務(wù)可能需要幾天甚至幾周去完成,例如,研究性學(xué)習(xí)任務(wù)。還有一些表現(xiàn)性任務(wù)可能一次只能考察一個(gè)或少數(shù)學(xué)生,例如,計(jì)算機(jī)操作、研究結(jié)果演講等。通常評(píng)定這些表現(xiàn)性任務(wù)的過程和結(jié)果也比較費(fèi)時(shí)、費(fèi)力。補(bǔ)充型測驗(yàn),比如論述

32、題所需的時(shí)間要遠(yuǎn)遠(yuǎn)多于選擇型測驗(yàn)但少于表現(xiàn)性評(píng)價(jià)。由于表現(xiàn)性評(píng)價(jià)花費(fèi)的時(shí)間較多,能夠納入教學(xué)計(jì)劃的評(píng)價(jià)問題數(shù)量有限,會(huì)導(dǎo)致評(píng)價(jià)任務(wù)較少,使考察的內(nèi)容不全面。由此引起一個(gè)核心的評(píng)價(jià)問題,即評(píng)價(jià)的結(jié)果或?qū)W生在一個(gè)表現(xiàn)性評(píng)價(jià)任務(wù)中的表現(xiàn)在多大程度上能被推延到與之相似的任務(wù)中去。表現(xiàn)性評(píng)價(jià)可以給學(xué)生呈現(xiàn)“真實(shí)生活”中的問題,但問題通常是某個(gè)具體情境中的獨(dú)一無二的問題,而現(xiàn)實(shí)生活又是不斷變化的。所以,學(xué)習(xí)的遷移是表現(xiàn)性評(píng)價(jià)中要考慮的關(guān)鍵問題。在現(xiàn)實(shí)的教學(xué)中,需要慎重考慮在表現(xiàn)性評(píng)價(jià)上花費(fèi)的時(shí)間是否必要,一般來說,只有當(dāng)評(píng)價(jià)是教學(xué)過程中的有機(jī)組成部分,而且教學(xué)重視學(xué)生學(xué)習(xí)結(jié)果的可遷移性時(shí),例如,需要培養(yǎng)學(xué)生的推理能力、批判性思維能力等,才有必要花費(fèi)大量時(shí)間開展表現(xiàn)性評(píng)價(jià)4計(jì)分所需的判斷能力不同的評(píng)價(jià)方法需要做出的判斷相差很大。選擇型試題的反應(yīng)有明確的對錯(cuò)之分,由此得到的分?jǐn)?shù)具有完全的客觀性,即不同的評(píng)分者會(huì)對同一反應(yīng)給出同樣的分?jǐn)?shù)。論述題允許學(xué)生有較為自由的反應(yīng),這就使得最后的分?jǐn)?shù)帶有較強(qiáng)的主觀性色彩,不同的評(píng)分者會(huì)對答案的不同要素(例如,短文的完整性、短文的組織結(jié)構(gòu)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論