教育測量與評價全套

上傳人：鍵*** IP屬地：上海上傳時間：2023-04-11 格式：PPTX 頁數(shù)：529 大?。?.91MB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩524頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

教育測量與評價全套第1頁/共529頁本章內(nèi)容教育測量與評價的概念與內(nèi)涵教育測量與評價的發(fā)展歷史教育測量與評價的學(xué)科地位和作用第2頁/共529頁一、概念與內(nèi)涵測量與教育測量測量的含義：根據(jù)某些法則與程序，用數(shù)字對事物在量上的規(guī)定性予以確定和描述的過程。測量的要素量具測量單位參照點第3頁/共529頁（4）特點：間接性和推斷性測量對象的模糊性和測量誤差的不可避免性量表具有多樣性，結(jié)果具有相對抽象性第4頁/共529頁教育測量（1）概念：針對學(xué)校教育影響下學(xué)生各方面的發(fā)展，側(cè)重從量的規(guī)定性予以確定和描述的過程。（2）目的：了解學(xué)生的發(fā)展，關(guān)注學(xué)校（教師）的教學(xué)效果。（3）對象：知識，技能？道德、情感、態(tài)度、價值觀、興趣、思維能力、實踐能力、創(chuàng)造能力……

教育測量是精神特性的測量，涉及學(xué)生德育、智育、體育、美育、勞動技能及個性、心理素質(zhì)等許多方面第5頁/共529頁評價（evaluation）與教育評價評價（1）衡量、判斷人物或事物的價值；（2）一種劃定、獲取和提供敘述性和判斷性信息的過程；（3）對某些現(xiàn)象的價值如優(yōu)缺點的系統(tǒng)調(diào)查，是為教育政策提供依據(jù)的過程；（4）評價過程在本質(zhì)上是確定課程和教學(xué)大綱在實際上實現(xiàn)教育目標的程度的過程；（5）評價最重要的意圖不是為了證明，而是為了改進。第6頁/共529頁布盧姆的《教育評價》（1）評價是系統(tǒng)收集證據(jù)用以確定學(xué)習(xí)者實際上是否發(fā)生了某些變化，確定學(xué)生個體變化的數(shù)量或程度。（2）評價是為了某個目的而進行的，對各種想法、作品、解答、方法、資料等的價值作出判斷的活動。第7頁/共529頁教育評價概念：按照一定的價值標準和教育目標，利用測量和非測量的種種方法系統(tǒng)地收集資料信息，對學(xué)生的發(fā)展變化及其影響學(xué)生發(fā)展變化的各種要素進行價值分析和價值判斷，并為教育決策提供依據(jù)的過程。第8頁/共529頁

內(nèi)涵：（1）強調(diào)以教育目標為標準的價值判斷過程；（2）強調(diào)用多種方法（測量和非測量）系統(tǒng)收集資料與信息；（3）教育評價的內(nèi)容多元（包括教育計劃、課程、學(xué)生的學(xué)習(xí)結(jié)果、教學(xué)活動等）；（4）強調(diào)為學(xué)生發(fā)展和教育決策服務(wù)；（5）不同時期，不同學(xué)者提出教育評價的側(cè)重點有所不同。第9頁/共529頁拓展與練習(xí)討論1：教育測量與教育評價的區(qū)別?

評價=測量（定量描述）+非測量（定性描述）+價值判斷討論2：教育測量與教育評價有何聯(lián)系？

教育測量是教育評價的基礎(chǔ)，教育評價往往是教育測量的延續(xù)；部分教育測量本身含有價值判斷（e.g.高分=優(yōu)秀的學(xué)生=高素質(zhì)）第10頁/共529頁教育評價（educationalevaluation）與教育評估（educationalassessment）教育評價教育評估想一想：圖中”重疊部分”與“非重疊部分”各代表什么？第11頁/共529頁測驗（test）與考試（examination）測驗：測量的工具，能引起人的有代表性的行為，以便對人的行為特性或心理特性進行測量與評價；考試：廣義上，泛指人類社會一切測度和甄別人的身心各方面之群體或個體差異的活動；狹義上，由主試根據(jù)一定社會的要求，在一定場所，采取一定的方式方法，選擇適當?shù)膬?nèi)容，對應(yīng)試者的德、學(xué)、才、識、體諸方面所進行的有組織、有目的的測度或甄別的活動。第12頁/共529頁二、發(fā)展歷史（一）我國考試制度的演變西周：考試制度初見端倪“古之教者，家有塾，黨有庠，術(shù)有序，國有學(xué)。比年入學(xué)，中年考核，……”兩漢時期：考試制度正式確立（察舉制）隋唐時期：科舉制度的確立與發(fā)展清末民初：現(xiàn)代學(xué)制下的考試制度變革第13頁/共529頁（二）教育測量學(xué)科的誕生桑代克：《精神與社會測量導(dǎo)論》（1904）第14頁/共529頁（三）教育測量運動的蓬勃開展與反思時間發(fā)展背景或主題具體進展20世紀初—20世紀30年代心理測驗、智力研究的興起法國比納等人發(fā)表“標準化智力測驗”；英國當局利用“智力測驗和標準化測驗”，形成11歲考試制度；美國標準化人格測試的問世與應(yīng)用20世紀30年代—20世紀40年代教育評價（”八年研究“）除了采用傳統(tǒng)的教育測驗外，還用問卷、觀察、交談、軼事記錄、作品分析、表演、操作、寫作等測量和非測量的方法對課程的效果和學(xué)生的行為變化進行測量和評價。第15頁/共529頁（四）教育測量與評價理論的發(fā)展測量的統(tǒng)計模型為教育測量的學(xué)科發(fā)展提供了強有力的理論支撐教育目標分類學(xué)促進教育測量與教育評價的學(xué)科整合教育評價學(xué)科內(nèi)容的發(fā)展第16頁/共529頁三、學(xué)科地位和作用教育測量與評價的學(xué)科地位教育測量與評價是教育測量學(xué)與教育評價學(xué)內(nèi)容的整合并側(cè)重于教育測量的一門綜合性教育課程是一個兼容了教育統(tǒng)計、教育測量、心理測量、教育評價、教育評估、教育督導(dǎo)和教育科學(xué)研究方法等在內(nèi)的學(xué)科群教育測量與評價科學(xué)研究、教育基本理論研究和教育發(fā)展理論研究成為現(xiàn)代科學(xué)研究的三大領(lǐng)域第17頁/共529頁教育測量與評價的學(xué)科發(fā)展——以美國為例創(chuàng)辦了大量有關(guān)教育測量與評價方面的雜志：《教育測量研究》、《教育測量評論》、《評價研究》、《教育評價與政策分析》等；出版了大量有關(guān)教育測量與評價方面的學(xué)術(shù)著作與教科書：《教育測量》、《心理測量》、《心理與教育測量年鑒》、《教育評價》等；成立了若干專業(yè)協(xié)會，如“全國教育測量委員會”、“全國教育進展評估中心”、“全國教育評價聯(lián)合會”等第18頁/共529頁教育測量與評價在教育改革中的作用教育改革常以教育測量與評價的改革作為突破口考試與評價改革成為基礎(chǔ)教育改革的重要內(nèi)容教育測量與評價是教師的專業(yè)素養(yǎng)和能力正確評價學(xué)生的發(fā)展是教師職業(yè)能力的重要組成部分國外教師教育普遍開設(shè)“教育測量與評價”類課程第19頁/共529頁—完—第20頁/共529頁量表（scale）：確定了測量單位與參照點并具有取值系統(tǒng)的測量工具

類型用途稱名量表（nominalscale)分類順序量表（ordinalscale）分類+相同的測量單位等距量表（intervalscale）分類+相同的測量單位+相對零點比率量表（ratioscale）分類+相同的測量單位+絕對零點第21頁/共529頁布盧姆的目標分類圖第22頁/共529頁第二章教育測量與評價的類型和功能第23頁/共529頁格朗蘭德等著.教學(xué)測量與評價第24頁/共529頁分類第25頁/共529頁類型目的或作用時機形成性測量與評價獲得有關(guān)“教與學(xué)”的連續(xù)性反饋教學(xué)過程中診斷性測量與評價對個人的問題行為及其原因進行診斷教學(xué)過程中（在形成性評價之后）終結(jié)性測量與評價檢查學(xué)業(yè)達標程度，評定學(xué)業(yè)成就教學(xué)結(jié)束后一、按運用的時機分類第26頁/共529頁二、按參照點分類常模參照測量與評價：將被試水平與測驗常模相比較，以評價被試在團體中的相對地位的一種測量與評價類型；標準參照測量與評價：將被試的表現(xiàn)與既定的教育目標或行為標準相比較，以評價被試在多大程度上達到該標準；潛力參照測量與評價：將被試實際水平與自身潛在的水平（潛力）相比較，以評價被試有無充分發(fā)揮自身潛力為目的。第27頁/共529頁我們當前的期末考試屬于什么類型的測量與評價？這樣的評價在素質(zhì)教育背景下，有存在的必要嗎？為什么？第28頁/共529頁三、按被試行為表現(xiàn)的性質(zhì)分類最佳行為測量與評價：以成就或能力高低作為評價基礎(chǔ)；典型行為測量與評價：以某種（或某些）典型行為為評價基礎(chǔ)。第29頁/共529頁四、按內(nèi)容分類智力測量與評價能力傾向測量與評價一般能力特殊能力：音樂能力傾向，機械能力傾向……成就測量與評價學(xué)科成就測驗綜合成就測驗人格（個性）測量與評價氣質(zhì)、性格、興趣、態(tài)度、動機……第30頁/共529頁五、其它分類按測量對象個別測量與評價團體測量與評價按測量材料文字測驗非文字測驗按量具的標準化程度標準化測驗非標準化測驗第31頁/共529頁功能第32頁/共529頁一、實現(xiàn)教育判斷的功能測量評定事實判斷價值判斷問題診斷區(qū)分選拔第33頁/共529頁二、改進教師教學(xué)的功能了解學(xué)生的起點行為作為改進教學(xué)的參考作為補救教與學(xué)的依據(jù)確保教學(xué)目標的達到第34頁/共529頁學(xué)校教師自編課堂成就測驗發(fā)揮了哪些功能？哪些功能沒有發(fā)揮？如何更好地發(fā)揮這些功能？第35頁/共529頁三、促進學(xué)生學(xué)習(xí)的功能明確學(xué)習(xí)目標，增加學(xué)習(xí)動力了解自我，調(diào)整學(xué)習(xí)計劃思考：當下的考試有沒有令學(xué)生主動診斷不足，增強學(xué)習(xí)動力，調(diào)整學(xué)習(xí)計劃？第36頁/共529頁四、行使教育管理的功能對教育目標和質(zhì)量的管理對教育過程的管理對學(xué)校的管理對教師的管理對學(xué)生的管理第37頁/共529頁“評價的主要目的是改進學(xué)習(xí)和教學(xué)，所以評價結(jié)果的其它用途，都是第二位或補充性的”?！窭侍m德第38頁/共529頁第三章教育測量與評價的質(zhì)量特性第39頁/共529頁教育測量的質(zhì)量特性衡量教育測量的質(zhì)量，可采用四個指標：信度

主要對整個測驗而言。效度難度

主要對測驗項目而言。區(qū)分度第40頁/共529頁第一節(jié)教育測量與評價的信度第41頁/共529頁一、信度的意義信度（reliabity）測量結(jié)果的可信程度和穩(wěn)定性程度記為rxx第42頁/共529頁二、信度的統(tǒng)計定義X=T+E觀察分數(shù)真分數(shù)測量誤差第一，信度是觀察分數(shù)與真分數(shù)相差的程度；E=X-T第43頁/共529頁例：試比較以下兩次測量結(jié)果（只進行一次）的信度。

用尺子量100cm高的一個兒童，得到1cm的絕對誤差；量185cm高的一位運動員，也得得到1cm的絕對誤差。要比較兩種測量結(jié)果的信度，一定要看測量誤差（E）對于真分數(shù)（T）所占的百分數(shù)是多少。這個百分數(shù)表示該觀察分數(shù)（X）的相對誤差。

相對誤差＝E/T×100%第44頁/共529頁

把上述兩次測量（設(shè)為甲和乙）和絕對誤差分數(shù)和真分數(shù)代入上式，得：

相對誤差（甲）＝1/100×100%＝1%

相對誤差（乙）＝1/185×100%＝0.54%據(jù)此，度量乙的信度要比度量甲的信度高。最大絕對誤差＝E/X×100%

第45頁/共529頁怎樣估計對一組人或一個人測量多次的實測值與真值（真分數(shù)）的差異程度呢？判別兩組數(shù)據(jù)誰好誰差,關(guān)鍵是確定這兩組數(shù)據(jù)偏離各自的平均數(shù)的大小。為了消除數(shù)據(jù)容量的影響，可借鑒研究加權(quán)平均數(shù)的方法，選用各個偏差的平方的平均數(shù)，來描述一組數(shù)據(jù)偏離其平均數(shù)的大小，這就是方差。根據(jù)假設(shè)，觀察分數(shù)的方差應(yīng)等于真分數(shù)的方差加上測量誤差的方差。即：第46頁/共529頁第二，信度是一個被測團體的真分數(shù)方差與觀察分數(shù)方差之比：即測驗的信度一般在0和1之間取值，rxx越接近1，考試的信度越高。第47頁/共529頁第三，信度是一個被試團體的真分數(shù)與觀察分數(shù)的相關(guān)系數(shù)的平方，即：第四，信度是一個被試團體在測驗X（A卷）上的觀察分數(shù)與在測驗X的任意一個“平行測驗”（B卷）上的觀察分數(shù)的相關(guān)系數(shù)。即：

第48頁/共529頁三、信度的估計方法重測信度（test-retestreliability)又稱穩(wěn)定性系數(shù)，指用同一個量表（測驗或評價表）對同一組被試施測兩次所得結(jié)果的一致性程度，其大小等于同一組被試在兩次測驗上所得分數(shù)的相關(guān)系數(shù)；相關(guān)系數(shù)可以用不同方法計算，這取決于數(shù)據(jù)的性質(zhì)。最為普遍的是皮爾遜積差相關(guān)系數(shù)：第49頁/共529頁例1：在政治科目考試后一周，隨機抽取10名學(xué)生進行重測，其先后兩次考試成績?nèi)绫?-1中的Xi欄和Yi欄中的數(shù)據(jù)所示，試求該政治科目考試的一個重測信度。第50頁/共529頁第51頁/共529頁通過計算可知：

把上述數(shù)據(jù)代入下列公式，可得

第52頁/共529頁采用重測法計算穩(wěn)定系數(shù)，需注意：兩次測驗之間的時間間隔要適宜，盡可能在較短的時距內(nèi)進行；兩次測驗試卷要等值，即在內(nèi)容范圍、題型、題數(shù)、難度、區(qū)分度等方面要基本相同；確定兩測驗是否等值，還要考察兩次測繪結(jié)果的平均數(shù)與標準差；重測法適用于速度測驗（運動技能）而不適用于難度測驗；測試應(yīng)注意提高被試者的積極性。第53頁/共529頁復(fù)本信度（alternate-formsreliability)又稱為平行測驗（equivalentformstest,parallelformstest)。指在試題格式、難度、指導(dǎo)語說明、施測要求等方面都相當，并且都用來測量相同潛在特質(zhì)或?qū)傩?，但試題又是不相同的測驗。等值性系數(shù)（coefficientofequivalence)：在同一時間連續(xù)施測，反映測驗內(nèi)容造成的誤差是多少；等值穩(wěn)定性系數(shù)（coefficientofstabilityandequivalence)：不僅反映出測驗內(nèi)容的抽樣誤差，而且也反映了被試本身狀況的改變。第54頁/共529頁例：以A、B兩型英語復(fù)本測驗對初中三年級10個學(xué)生施測，為避免由測驗施測順序所造成的誤差，其中5個學(xué)生先做A型測驗，休息15分鐘后，再做B型測驗；而另5個學(xué)生先做B型測驗，休息15分鐘后，再做A型測驗。10個學(xué)生A型測驗結(jié)果記為X，B型測驗結(jié)果記為Y，其測驗的復(fù)本信度如何？學(xué)生序號12345678910X19191817161515141312Y20171818171513151212第55頁/共529頁復(fù)本信度的優(yōu)點：測驗的兩個復(fù)本，如果在不同的時間使用，其信度既可以反映在不同時間的穩(wěn)定性，又可以反映對于不同測題的一致性；兩個復(fù)本在同時使用時，可以避免再測信息的一些缺點，如首測時再測在記憶、練習(xí)、效果的影響，間隔期間獲得新知識的影響，兩次施測的環(huán)境不同和被試主觀狀態(tài)不同的影響，以及為了應(yīng)付測驗所作訓(xùn)練的影響等。第56頁/共529頁復(fù)本信度的缺點：編制兩個完全相等的測驗是很困難的，如果兩個復(fù)本過分相似，則變成再測形式，而過分不相似，又使等值的條件不存在；兩個復(fù)本測驗有可能在某種程度上測量了不同的性質(zhì)，這就會低估測驗的信度；被試同時接受性質(zhì)相似的兩個測驗，可能減少完成測驗的積極性；雖然兩個復(fù)本測驗的題目材料不同，但被試一旦掌握了解題的某一模式，就能觸類旁通，有可能失去復(fù)本的意義。第57頁/共529頁同質(zhì)性信度（homogeneityreliability)又稱為內(nèi)部一致性信度（internalconsistencyreliability)，指測驗內(nèi)部所有題目間的一致性程度。所有題目測的是同一種心理特質(zhì)；所有題目得分之間具有較高的正相關(guān)第58頁/共529頁1.分半信度（split-halfreliability)將一個測驗分成對等的兩半后，所有被試在這兩半上所得分數(shù)的一致性程度。通常是以題目的奇數(shù)為一組，偶數(shù)為一組，計算兩級的相關(guān)系數(shù)，最后用斯皮爾曼－布朗公式校正，求得整個測驗的信度系數(shù)。第59頁/共529頁例：一個測驗向15名被試施測，被試在奇偶分半測驗上的得分如下表，計算該測驗的分半信度系數(shù)。第60頁/共529頁思考：為什么不直接用奇數(shù)題總分與偶數(shù)題的部分計算出的相關(guān)系數(shù)作為整個測驗的信度系數(shù)而要加以校正？測驗的長度（指量表中所包含的題目數(shù)）對信度的大小有一定的影響，測驗越長，信度越高。用分半法，實際上等于把整個測驗長度減小了一半，所以按分成兩半的資料求出的信度必然低于整個測驗的信度。第61頁/共529頁斯皮爾曼-布朗公式的基本假設(shè)：兩個半測驗的變異數(shù)必須相等（方差齊性）

若不能滿足上述假設(shè)，選擇下述兩個等價的公式之一：（1）佛朗那根（Flanagan)公式

（2）盧侖（Rulon)公式第62頁/共529頁2.庫德—理查遜信度（Kuder&Richardsonreliability)適合于測驗題目全部為二分記分題（dichotomouslyscoring)的測驗和內(nèi)部一致性信度分析常用的有KR20和KR21第63頁/共529頁(1)KR20的用法這個公式以每題能正確回答的人數(shù)占總?cè)藬?shù)的百分數(shù)為基礎(chǔ)計算（每題只有通過或未通過兩種分數(shù)）測驗信度題目數(shù)測驗總分的方差答對人數(shù)答錯人數(shù)第64頁/共529頁例:10名被試在一個測驗上的得分情況如表3-3所示（答對1分，答錯0分），試估計被試反應(yīng)的一致性程度。第65頁/共529頁解：1）列出得分矩陣，計算有關(guān)統(tǒng)計量：

這個測驗的信度系數(shù)較低，說明內(nèi)容一致性差，量表中的題目并非都可以測量相同的特性，即題目的同質(zhì)性差或難度懸殊較大。第66頁/共529頁（2）KR21的用法以各應(yīng)試者總分的平均數(shù)和方差為基礎(chǔ)，無需各題的難度信息。采用表3-3的數(shù)據(jù)資料被試測驗總分平均數(shù)第67頁/共529頁（3）克龍巴赫α系數(shù)當測驗題型較多，并非都是二分記分題時，可用α系數(shù)第68頁/共529頁例：用一個包含6個論文式試題的測驗，對5個被試施測，其結(jié)果如表3-4所示，求該測驗的信度。第69頁/共529頁第70頁/共529頁四、標準參照測驗的信度分析百分比一致性指標（percentageagreement，簡稱PA)同一測驗或平行測驗先后兩次施測，其對被試的分類結(jié)果一致的比例。計算方法如表3-5第71頁/共529頁k一致性系數(shù)(kappacoefficientofagreement)實際被評定為一致的百分比與在理論上被評定為一致的最大可能次數(shù)百分比的比率。PA為百分比一致性指標；Pc為理論上可能被評定為一致的百分比期望值由3-5的數(shù)據(jù)可求得：第72頁/共529頁五、測量標準誤與測驗信度的關(guān)系測量標準誤是指測驗中所得測值偏離真分數(shù)的程度，記為SE。測量標準誤是反映測量結(jié)果精確性和可靠性的又一指標可合理地解釋被試所得分數(shù)的誤差范圍

第73頁/共529頁六、評分者信度評分者信度（scorerreliability)指多個評分者給同一批人的答卷進行評分的一致性程度。當評分者人數(shù)為兩人時，可用斯皮爾曼等級相關(guān)的公式計算；當評分者人數(shù)多于兩人時，可用肯德爾和諧系數(shù)（Kendallcoefficientofconcordance)第74頁/共529頁肯德爾和諧系數(shù)（W）S為每一個評價對象的K個等級之和的離均差平方和第75頁/共529頁例：10個評委對7名參賽選手所評等級如表3-6所示，請問這10位評委的評分是否具有一致性。第76頁/共529頁分析：從W=0.827來看，10人的評價較為一致。嚴格地講，W值是否達到顯著性水平，需要做統(tǒng)計假設(shè)檢驗。當K等于3∽20，N等于3∽7時，可根據(jù)K和N查“W顯著性檢驗時S的臨界值表”進行檢驗。（見書附表1）解第77頁/共529頁七、提高測驗信度的方法適當增加測驗題目的數(shù)量需注意：1.新增加測驗題與原有的測驗題應(yīng)有相同的統(tǒng)計性質(zhì)，即應(yīng)有相同的平均難度和相同的組間相關(guān)。2.加大測驗長度應(yīng)當不影響被試者回答問題的方法。測驗的難度要適中測量的內(nèi)容盡量同質(zhì)測驗的時間要充分測驗的程序應(yīng)統(tǒng)一評分要客觀化，減少評分誤差第78頁/共529頁教育測量與評價的質(zhì)量特性第二節(jié)效度第79頁/共529頁一、效度的意義效度（validity)，是指一個測驗或量表實際能測出其所要測量的特性的程度。效度是一個相對概念效度始終是針對一定測量目的而言的效度是針對測量結(jié)果而言的效度只有程度上的差異評價一個測量是否有效要多角度、多方面的收集證據(jù)第80頁/共529頁二、效度的統(tǒng)計定義X=T+EV+IV:目標真分數(shù)，反映被試某種心理特質(zhì)真正水平的數(shù)值；I:非目標真分數(shù)，被試在某種心理特質(zhì)測量表上表現(xiàn)的與測量目標無關(guān)的穩(wěn)定測值測量效度實質(zhì)上就是指一次測量出目標真分數(shù)的程度第81頁/共529頁效度是目標真分數(shù)方差與觀察分數(shù)方差之比第82頁/共529頁思考：從統(tǒng)計學(xué)定義看，效度和信度有什么關(guān)系？根據(jù)分析，可知：1.高信度是高效度的必要條件，而非充分條件；2.效度系數(shù)不會大于信度系數(shù)的平方根第83頁/共529頁三、效度的估計效度估計是多方尋找證據(jù)來證明一個測驗的有效性程度的過程。內(nèi)容效度結(jié)構(gòu)效度效標關(guān)聯(lián)效度結(jié)果效度第84頁/共529頁內(nèi)容效度（contentvalidity）含義：又稱合理效度或邏輯效度，是測驗題目樣本對于應(yīng)測內(nèi)容與行為領(lǐng)域的代表性程度。應(yīng)用范圍：教育測量（尤其是學(xué)業(yè)成就測驗）；某些用于選拔和分類的職業(yè)測驗注意：不適用于能力傾向和人格測驗第85頁/共529頁分析方法邏輯分析的方法。請有關(guān)專家對測驗題目與原定內(nèi)容范圍的吻合程度作出判斷。統(tǒng)計分析法。從同一個教學(xué)內(nèi)容總體中抽取兩套獨立的平行測驗，用這兩個測驗來測同一批被試，求其相關(guān)。若相關(guān)高，表明測驗內(nèi)容效度較高；若相關(guān)低，表示測驗的內(nèi)容效度較低。第86頁/共529頁結(jié)構(gòu)效度（constructvalidity)結(jié)構(gòu):心理學(xué)或社會學(xué)上的一種理論構(gòu)想或特質(zhì)。如智力、焦慮、機械能力傾向、成就、動機等。結(jié)構(gòu)效度是指一個測量能實際測量出理論上的構(gòu)想或心理特性的程度。它的目的在于從心理學(xué)或社會學(xué)的理論觀點就測驗的結(jié)果加以解釋和探討。結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。第87頁/共529頁驗證步驟第一，提出有關(guān)理論結(jié)構(gòu)的說明，并據(jù)此設(shè)計測量用的試題；第二，提出可以驗證該理論結(jié)構(gòu)存在的假設(shè)說明；第三，采用各種方法收集實際的資料，以驗證第二步提出的假設(shè)的正確性；第四，收集其他類型的輔助證據(jù)，淘汰與理論結(jié)構(gòu)相反的試題，或是修正理論，并重復(fù)第二和第三步，直到上述的假設(shè)得到驗證。第88頁/共529頁驗證方法測驗內(nèi)部尋找證據(jù)法內(nèi)容效度作答過程分析測驗的同質(zhì)性因素分析法考察測驗的實證效度法差異被試比較法先后測試分析法第89頁/共529頁效標關(guān)聯(lián)效度

（criterion-relatedvalidity)效標：足以顯示測驗所欲測量的特性的變量或足以顯示測驗所欲預(yù)測的特性的變量。它是用來檢驗測驗效度的外在的、客觀的標準和尺度。效標關(guān)聯(lián)：又稱為經(jīng)驗效度或統(tǒng)計效度，一個測驗對處于特定情境中的個體行為進行預(yù)測時的有效性。效標關(guān)聯(lián)可分為同時效度和預(yù)測效度第90頁/共529頁估計方法相關(guān)法積差相關(guān)等級相關(guān)點雙列相關(guān)二列相關(guān)四分相關(guān)……顯著差異法根據(jù)效標測量將被試分為兩個極端組（如好與壞，成功與失敗等），然后檢驗這兩組測驗分數(shù)是否具有統(tǒng)計學(xué)上的差異顯著性第91頁/共529頁用積差相關(guān)系數(shù)的方法估計效度

積差相關(guān)，是計算兩個變量線性相關(guān)的一種方法，由英國統(tǒng)計學(xué)家皮爾遜提出，因此也稱為皮爾遜(Pearson)相關(guān)。要使用積差相關(guān)必須同時具備如下幾個條件：①兩個變量都是由測量獲得的連續(xù)性數(shù)據(jù)，即等距或等比數(shù)據(jù)。②兩個變量的總體都呈正態(tài)分布，或接近正態(tài)分布，至少是單峰對稱分布，當然樣本并不一定要正態(tài)。③必須是成對的數(shù)據(jù)，而且每對數(shù)據(jù)之間是相互獨立的，即各自互不影響，本條件是難以檢驗的。④兩個變量之間呈線性關(guān)系。一般用描繪散點圖的方式來觀察，最好是先各自轉(zhuǎn)化為Z分數(shù)，單位會統(tǒng)一些。第92頁/共529頁例：某中學(xué)數(shù)學(xué)教研組的教師積多年的教學(xué)法經(jīng)驗，認為剛?cè)敫咧械膶W(xué)生學(xué)習(xí)立體幾何感到困難的主要原因是空間想像力弱。為了證明這個論點，他們讓剛?cè)敫咧械?03名學(xué)生作10道題，測量其空間想像力。為避免知道了某些學(xué)生的剛?cè)敫咧袝r的成績影響以后考試的評分，試卷暫不評閱。立體幾何學(xué)完后，進行考試，按得分多少把成績分為五等（A、B、C、D、E）分別得5、4、3、2、1分。這時才評閱入學(xué)時的試卷，統(tǒng)計出期末得5、4、3、2、1分者在入學(xué)測驗中分別答對1道題至10道題的人數(shù)（見表2-1）。就現(xiàn)有資料，用什么方法可以判斷教師們的意見是否正確？第93頁/共529頁表2-1：（答對的題數(shù)）12345678910所評的等級ABCDE543211310542168843124598311321111211第94頁/共529頁解：（1）設(shè)期末考試的等第為y，空間想像力測驗答對的題數(shù)為x，列出二重交叉次數(shù)分布表：X（答對的題數(shù)）12345678910Y所評的等級ABCDE543211310542168843124598311132111121125313296合計241014202017952103第95頁/共529頁（2）用積差相關(guān)系數(shù)公式計算效度系數(shù)：第96頁/共529頁第97頁/共529頁第98頁/共529頁結(jié)果效度關(guān)注測量工具與測驗結(jié)果的推論與應(yīng)用（“推論的適切、意義與有用的程度”）；避免過分依賴量化結(jié)果，應(yīng)適切考慮質(zhì)的分析；內(nèi)容效度或結(jié)構(gòu)效度很好，結(jié)果效度不一定好。第99頁/共529頁驗證時應(yīng)注意：測驗指導(dǎo)手冊中對測驗?zāi)繕撕蜏y驗效度的說明是否合理；基于測驗結(jié)果，在給被試寫出測驗報告或推薦書時，有關(guān)推論是否恰如其分；對測驗的優(yōu)點和缺點是否在應(yīng)用中過于夸大其實；能否把測驗用到所測特性的范圍之外；基于測驗結(jié)果的解釋和推論是否符合科學(xué)原理以及測驗道德；測驗結(jié)果能否給被試以及所有關(guān)注測驗結(jié)果的使用者提供有益的幫助第100頁/共529頁四、提高效度的方法控制系統(tǒng)誤差精心編制量表妥善組織測驗擴充樣本的容量和代表性合理處理信度和效度的關(guān)系適當增加測驗的長度第101頁/共529頁教育測量與評價的質(zhì)量特性第三節(jié)難度與區(qū)分度第102頁/共529頁一、難度與難度系數(shù)的計算概念難度：被試完成題目或項目任務(wù)時遇到的困難程度難度系數(shù)：定量刻畫被試作答一個題目所遇到的困難程度的量數(shù)，叫做題目的難度系數(shù)，也常稱為難度值，用符號P表示第103頁/共529頁計算方法二值記分題的難度值計算答對該題目的人數(shù)被試人數(shù)第104頁/共529頁多值記分題的難度值計算某題的平均得分該題的滿分第105頁/共529頁練習(xí)題1：在100個學(xué)生中，答對第一題的30人，答對第二題的60人，求第一、二道題的難度？比較這兩道題誰比誰難？題2：某道論述題滿分12分，所有考生在這道題上的平均得分為3.6分，求該題的難度？題3：語文測驗第五題最高得分為12分，這道題考生的平均得分是8.5分，求該題難度？題4：60人參加考試，某題滿分為12分，正確得分累積是480分，求該題難度？第106頁/共529頁難度值的其他計算方法（1）以全體被試失分率為難度系數(shù)（2）以兩端組被試得分率的均值為難度系數(shù)第107頁/共529頁練習(xí)題5：某區(qū)域1000人參加考試，試卷第一題高分組180人答對，低分組60人答對，求該題難度？如果該題滿分為10分，高分組得分總數(shù)為2100分，低分組得分總數(shù)為830分，求該題難度？第108頁/共529頁二、難度指標的等距變換運用標準分數(shù)（Z分數(shù)）作為題目難度的指標第109頁/共529頁例：某校學(xué)生在一次測驗中，第一題的答對率為15%，第二題的答對率為25%，第三題的答對率為35%，假定這三題所測量的能力近似正態(tài)分布，問第一、第二、第三題的難度差異怎么樣？第110頁/共529頁值越大，表示試題越難；值越小，表示試題難度越容易第111頁/共529頁三、測驗題目的恰當難度和恰當難度的分布測驗題目難度水平的確定測驗題目難度水平的適當與否，取決于測驗的目的、性質(zhì)和題目的形成。當P值接近于0或接近于1時，即被試在該題上全部答對或全部答錯，則該題無法提供個體的信息。而只當P值接近于0.50時，題目才能把被試做最大的程度的區(qū)分。但在實際工作中，若每一題的難度值均為0.50，那么此測驗很可能只能區(qū)分出好與差兩種極端被試的差異，卻不能對各種被試作更精確的區(qū)分。因此，一般各題的難度可在0.50+20之間。第112頁/共529頁測驗難度對分數(shù)分布的影響測驗難度影響分數(shù)的分布形態(tài)。難度值越接近0，測驗的難度就越大，測驗分數(shù)就越是集中在低分端，其分數(shù)分布越呈現(xiàn)正偏態(tài)；反之，難度值越接近1.00，其難度就越小，測驗分數(shù)越集中在高分端，分數(shù)分布呈負偏態(tài)。測驗難度影響測驗分數(shù)的離散程度。測驗難度過大過小，都會造成測驗分數(shù)偏離正態(tài)分布，從而使分數(shù)的全距縮小，使測驗分數(shù)的離散程度變小。測驗難度影響測驗的鑒別能力。在測驗中，考生之間相互配對比較的可能性越多，就越有利于準確地鑒別考生的不同能力。第113頁/共529頁難度的影響因素及其控制主要因素：考察知識點的多少；考察能力的復(fù)雜程度或?qū)哟蔚母叩?；考生對題目的熟悉態(tài)度；命題的技巧。難度控制：正確估計考生水平；弄清弄懂各知識點；掌握命題技巧。第114頁/共529頁第四節(jié)教育測量與評價中題目

（項目）的區(qū)分度

第115頁/共529頁一、區(qū)分度的意義題目區(qū)分度（Discrimination)就是題目區(qū)別被試水平能力的量度，常記為D。又叫鑒別力，它是評價試題質(zhì)量，篩選試題的主要指標與依據(jù)；區(qū)分度的取值范圍介于-1.00—+1.00之間，值越大，區(qū)分度效果越佳；區(qū)分度D>0為正區(qū)分，D<0為負區(qū)分，D=0為零區(qū)分。區(qū)分度的高低直接影響到測驗的信度和效度。第116頁/共529頁思考：區(qū)分度與信度、難度有什么關(guān)系？

假定試題的難度均為0.5區(qū)分度信度0.12250.160.200.300.400.500.000.420.630.840.9150.949要達到理想的測驗信度，提高區(qū)分度是一個好辦法第117頁/共529頁難度區(qū)分度的最大值1.00.90.70.50.30.10.00.00.20.601.00.60.2000難度適中，可使區(qū)分度達到最大值第118頁/共529頁二、區(qū)分度的計算相關(guān)法點雙列相關(guān)系數(shù)通過該項目的被試的平均總分未通過該項目的被試的平均總分全體被試總分的標準差未通過該項目的被試人數(shù)占總?cè)藬?shù)的百分比通過該項目的被試人數(shù)占總?cè)藬?shù)的百分比第119頁/共529頁例.某班15名學(xué)生參加一次測驗的總分及第一題的得分情況如表3-10所示，計算第一題的區(qū)分度第120頁/共529頁解需進行顯著性檢驗，才能確定其是否具有顯著性意義（1）對點雙列相關(guān)公式中的和進行差異顯著性檢驗，若差異顯著，表明顯著；（2）采用積差相關(guān)系數(shù)顯著性檢驗的方法進行檢驗；（3）如果樣本量較大（n>50)，也可用下面近似方法：，認為在0.05水平上顯著；

，認為在0.01水平上顯著。

第121頁/共529頁二列相關(guān)系數(shù)適用于兩個變量都是正態(tài)連續(xù)變量，但其中一個變量因為某種原因被人為地分為兩類。正態(tài)分布下百分比p與q分割點所在位置的曲線高度第122頁/共529頁解：p=0.5333,查正態(tài)分布表，得Y=0.3975,于是：二列相關(guān)系數(shù)的顯著性檢驗可用下列公式進行：被試總?cè)藬?shù)因為Z=1.79<Z0.05=1.96,未達到顯著性水平，所以該題的區(qū)分度值得懷疑第123頁/共529頁積差相關(guān)系數(shù)對于非二分法記分的題目，因得分具有連續(xù)性，在被試團體較大時，可用認為題目分數(shù)服從正態(tài)分布全體被試在某題目上得分的標準差全體被試總分的標準差被試總分減去某題目得分而獲得的一個新變量（D=X-Y)的方差第124頁/共529頁例：有一測驗向8名學(xué)生施測，其中兩個題目的題分和測驗總分如表3-11所示，請計算這兩題的區(qū)分度。第125頁/共529頁解積差相關(guān)系數(shù)的顯著性檢驗方法（1）當樣本容量n>50時，采用正態(tài)分布檢驗；（2）當樣本容量n<50時，采用t分布檢驗；（3）直接查“積差相關(guān)系數(shù)(r)顯著性臨界值表第126頁/共529頁高低分組法高分組、低分組人數(shù)比例各占總?cè)藬?shù)的27%D代表項目鑒別度指數(shù)；PH、PL分別表示高分組和低分組在該題目上的得分率該題目的滿分值第127頁/共529頁D值是鑒別題目測量有效性的指標，D值越高，題目越是有效；適用于各種題分情況；美國測驗專家艾貝爾根據(jù)長期經(jīng)驗提出了用鑒別指數(shù)評價題目性能的標準第128頁/共529頁第五節(jié)教育測量與評價方案的可用性第129頁/共529頁一、科學(xué)性、公平性和可行性科學(xué)性：測評的結(jié)果能準確地反映被測對象的真實情況，達到測量的目的，即測量要有較高的信度和效度公平性：測量與評價方案對于任何一位被測量或評價的對象而言，有相同的機會獲得好的成績?？尚行裕簻y量與評價方案的制訂符合實際，并能被人們所理解和接受。第130頁/共529頁二、針對性、區(qū)分性和簡潔性針對性（目標與目的）區(qū)分性避免“社會認可效應(yīng)”例：“你是否覺得自己很難與孩子交流思想和感情”“許多家長說，他們覺得自己很難與孩子交流思想和感情，你認為這種情況是否真的存在？”簡潔性

例：“您班幼兒中，年齡較小者往往缺乏自信，而且動作能力低下嗎？”“您是否反對在非學(xué)習(xí)日，包括周末和假日，不實行按時熄燈的規(guī)定？”第131頁/共529頁第四章編制教育測驗的一般原理與方法第132頁/共529頁第一節(jié)測驗題目類型與測量功能第133頁/共529頁一、客觀性試題的特點及其編寫技巧選擇題匹配題供答題第134頁/共529頁選擇題1.結(jié)構(gòu)：“題干”+“選項”2.優(yōu)點可以用來測量學(xué)生各種不同層次的學(xué)習(xí)結(jié)果，應(yīng)用廣泛；評分標準統(tǒng)一、客觀，不受評分人主觀因素和答卷人提出的意料之外的答案等影響，可利用電腦迅速評卷；可以加大試題容量，抽取廣泛有效的代表性樣本，使試題覆蓋的知識范圍廣有利于考查被試思維的敏捷性和準確的判斷力；采用大量的似真選擇項使結(jié)果易于診斷第135頁/共529頁3.缺點編制良好的選擇題較花費時間，且要有專門的命題技巧難以考核被試完全的推理能力、綜合運用所學(xué)知識的能力、有效的總結(jié)能力、嚴密的表述能力和寫作能力，對被試的發(fā)散思維能力則更是如此；無法測量被試的思維（解題）過程；被試能僅憑猜測而選中正確答案，對考試的信度有一定的影響第136頁/共529頁4.類型（1）辨識選擇（2）閱讀選擇（3）最佳選擇（4）圖解選擇（5）歸類選擇（6）承接選擇（7）排序選擇（8）填空選擇第137頁/共529頁5.編寫原則（1）題干意義完整并能表達一個確定的問題例：比較下面兩題，哪一題“題干”較為合適？1.

一個命題雙向細目表2.當擬訂一個成就測驗的編制計劃時，使用細目表的主要目標是指出一個測驗如何用來促進學(xué)習(xí)可提供一個更平衡的內(nèi)容取樣須依據(jù)教學(xué)目標重要的順序來排列確定一個所使用的計分方法減少所需的時間改進內(nèi)容的取樣使試題編制更容易增強測驗的客觀性第138頁/共529頁

（2）題干簡明

例：“當缺乏與中心觀念有關(guān)聯(lián)的似真但非正確的選項時，則在編制下述哪一類型的試題時會遇到困難？”

“編制哪類試題時，如果缺乏似真而非正確的選項時，會遇到最大的困難？A.簡答題B.是非題C.選擇題D.論述題第139頁/共529頁

(3)題干不要濫用否定結(jié)構(gòu)，要盡可能地采用正面陳述

例：在耳的下列結(jié)構(gòu)中，哪種與聽力無關(guān)？

在耳的下列結(jié)構(gòu)中，哪種有助于保持平衡？A.鼓膜B.卵形窗C.半規(guī)管D.耳蝸

(4)誘答項應(yīng)具有似真性

例：在下列元素中，那一種元素存在于蛋白質(zhì)中，而不存在于碳水化合物或脂肪中？A.二氧化碳B.氧C.水D.氮

第140頁/共529頁增加干擾選項似真性的具體方法有：使用學(xué)生共同的錯誤觀念或過失來作為誘答項。以學(xué)生慣用的模糊性用語敘述誘答項。在正確選項和誘答項中使用同樣的“精確的”、“重要的”等堂皇的用語來描述。誘答項長度和措辭的復(fù)雜性與正確性選項相似。在誘答項中使用額外的線索。如固定的用詞，具有科學(xué)味道的答案，以及和題干有語義上的聯(lián)系等。保持選項之間的同質(zhì)性。第141頁/共529頁（5）不能對正確答案有任何暗示

避免：語法結(jié)構(gòu)上的不一致、各選項在邏輯上不同、答案的長度有明顯差異、各題正確答案在選項中有一定的規(guī)律等（6）同一測驗中，每一個測驗試題之間應(yīng)相互獨立，避免牽連

（7）選項的文字表述力求簡短精練

（8）應(yīng)盡量避免“以上皆是”“以上皆非”的選項第142頁/共529頁是非題（二項選擇題）

這類題通常用于測量被試對基本概念、性質(zhì)、原理、原則的認識和判斷區(qū)別事實與觀點、認識事物因果關(guān)系，以及一些簡單的邏輯推理能力1.優(yōu)點編制容易，可適用于各種教材記分客觀，取樣廣泛2.缺點僅能測量知識層次中最基本的結(jié)果，而無法測量高層次的學(xué)習(xí)結(jié)果受猜測因素的影響很大第143頁/共529頁3.編寫原則（1）考核的內(nèi)容應(yīng)是重要的知識，應(yīng)有考核價值；（2）題目應(yīng)多時測量理解能力，而不應(yīng)測驗記憶性的知識；（3）一個題目中只能有一個中心問題，或一個重要概念；（4）試題應(yīng)做到是非界限分明，用詞準確，避免模棱兩可的語句；（5）題目陳述應(yīng)簡單明了，避免使用復(fù)雜的句子結(jié)構(gòu)；盡量采用正面敘述，避免用否定和雙重否定的語句；（6）正句和誤句的排列要隨機化，且數(shù)量應(yīng)大致相等。第144頁/共529頁填空題填空題可用來考查被試對知識的記憶和理解能力，在診斷性測驗中特別適用。1.優(yōu)點受被試猜測的影響小，評分比較客觀；2.缺點填空題偏重于測量被試的知識記憶程度，使用過多容易養(yǎng)成被試死記硬背的習(xí)慣。第145頁/共529頁3.編制原則（1）題意要明確，限定要嚴密，空白處應(yīng)填的答案是唯一的；

例：只有

，才能在考試中獲得好成績

（2）空白處所填寫的應(yīng)是關(guān)鍵詞語，并且要和上下文有密切的關(guān)系，使被試不至于填寫困難。

例：1996年我國科技界有

新發(fā)明。第146頁/共529頁（3）題目中空白地方不能太多，以免句子變得支離破碎，不利于被試理解題意。

例：連接

市與

的是

河（4）盡量將空白放在句子的后面或中間，而不要放在句子開頭。

例：

發(fā)明了蒸汽機第147頁/共529頁（5）所有空白處的線段長度應(yīng)當一致，不能隨正確答案文字的多少而長短不一，以免產(chǎn)生暗示作用。（6）若答案是數(shù)字，應(yīng)指明單位和數(shù)字的精確程度。第148頁/共529頁簡答題

較適合于測量被試被基本知識、概念和原理的掌握、記憶情況。1.優(yōu)點編制較為簡單、靈活；增加知識考核的準確度和深度；不受猜測因素的影響2.缺點無法用來考核綜合、分析、評價等高層次的教學(xué)目標；評分不夠客觀第149頁/共529頁3.類型（1）簡釋題（名詞解釋）（2）直接問答題（3）列舉題（4）扼要說明題第150頁/共529頁4.編制原則（1）問題的敘述要明確，要確實能使被試用簡單的語言來回答；（2）問題的答案應(yīng)該只有一個，并且答案要簡短具體；（3）避免出只考機械記憶的題，應(yīng)注重知識的應(yīng)用；（4）在考查某公式的應(yīng)用時，不要給太復(fù)雜的數(shù)字，以免給計算帶來麻煩（6）盡可能使用直接問句來提出問題第151頁/共529頁解釋性測驗題在典型選擇題的基礎(chǔ)上，經(jīng)教育測驗專家改良后，發(fā)展成解釋性測驗題（interpretive-exercisequestion)。解釋性測驗題一般是先提供一段文章、一幅圖畫、一種情境、一張表格等引導(dǎo)性材料，然后以此為基礎(chǔ)提出一系列客觀性問題。比較適合測量富有結(jié)構(gòu)的知識、理解能力以及比較復(fù)雜和高層次的認知能力。第152頁/共529頁1.優(yōu)點

強化學(xué)生解釋、分析、應(yīng)用資料的能力；

測量較復(fù)雜和高層次的認知能力；

診斷復(fù)雜學(xué)習(xí)結(jié)果的認知過程；

變主觀性為客觀性；

把問題設(shè)計得更加符合測量目標2.缺點

不能測量創(chuàng)造性思維能力和文字統(tǒng)整與表達能力第153頁/共529頁3.編制原則（1）選擇與教學(xué)目標或考試目標關(guān)系緊密的引導(dǎo)資料；（2）選擇適合學(xué)生學(xué)習(xí)經(jīng)驗與閱讀能力的引導(dǎo)資料；（3）選擇新的但又不是太另類的引導(dǎo)資料；（4）選擇簡短而又有信息量的引導(dǎo)材料；（5）問題設(shè)計要明確，容易作答；（6）問題的測量目標要符合測驗?zāi)康?；?）問題要測量有意義的學(xué)習(xí)目標，不考無關(guān)緊要的內(nèi)容；（8）問題數(shù)量要適當，而且每個問題不要互相提示第154頁/共529頁二、主觀性試題的類型及其編寫要領(lǐng)

論述題作文題表現(xiàn)性測驗題第155頁/共529頁論述題

較好地測量被試的組織、歸納和綜合所學(xué)知識的能力，運用掌握知識解決問題以及探討問題和創(chuàng)新的能力1.優(yōu)點用來進行高層次的、復(fù)雜的學(xué)習(xí)結(jié)果的測量，可以用在各種學(xué)科領(lǐng)域，特別適用于社會科學(xué)、人文科學(xué)等；可以增進學(xué)生的思考、應(yīng)用及解決問題的能力，對于被試的學(xué)習(xí)態(tài)度和學(xué)習(xí)方式可以產(chǎn)生積極的影響；可以增進學(xué)生的寫作能力；試題的編制比較容易，受猜測因素的影響很小

第156頁/共529頁2.缺點取樣范圍比較小且不均勻，所使用的試卷無法有效地代表學(xué)科的全部主要，所測結(jié)果無法真正代表被試的學(xué)習(xí)成就，從而影響測驗的效度；評分的主觀性強；因被試回答過于自由，回答方向又不盡相同，難于測得預(yù)期結(jié)果，重點容易失控；被試作答和評分閱卷都相當費時第157頁/共529頁3.編制原則（1）試題應(yīng)該用來測量較高層次的教學(xué)目標（2）要明確而系統(tǒng)地陳述問題，使被試能清楚地了解題目的要求（3）一般應(yīng)采用答案具有統(tǒng)一定論的試題（4）當有多個論述題時，可以設(shè)置一個必答的論述題，剩下的題目可允許被試選擇作答（5）最好在題目中能給出回答本題所需的參考時間第158頁/共529頁作文題

對人的邏輯思維、形象思維、書面表達等多種能力的一種綜合考查1.分類（1）根據(jù)提供題目或提供材料的角度，可分為命題作文和供料作文（或稱條件作文）；（2）根據(jù)文體可以分為記敘文、議論文、說明文、應(yīng)用文等；（3）根據(jù)所供材料的處理方式可以分為：縮寫型、改寫型、撮寫型、填空型、續(xù)寫型。第159頁/共529頁2.編制原則（1）根據(jù)考試目的、考試對象來確定作文文體和要求；（2）根據(jù)社會需要、現(xiàn)實生活和學(xué)生實際設(shè)計命題，作文命題要直接測量語文素養(yǎng)和書面表達能力；（3）作文命題不能過于抽象，要讓學(xué)生有話可說，有內(nèi)容可寫，有思路可走，有發(fā)揮的余地；（4）避免材料或話題出現(xiàn)測驗偏倚，在確定選材和寫作意圖時，要考慮對所有被試都是公平的，并且試題應(yīng)符合被試的心理特征。第160頁/共529頁表現(xiàn)性測驗題

所謂表現(xiàn)性測驗題（performancetest),是指以行動、作品、表演、展示、口頭回答、操作、寫作、科學(xué)研究、制作等更真實的行為表現(xiàn)，來測量與評價學(xué)生在真實情境或模擬真實情境下的所知與所能的一種測驗類型。第161頁/共529頁1.分類紙筆的表現(xiàn)性測驗辨認的表現(xiàn)性測驗結(jié)構(gòu)化的表現(xiàn)性測驗?zāi)M情境的表現(xiàn)性測驗工作樣本的表現(xiàn)性測驗第162頁/共529頁2.編制原則（1）測驗材料和要求應(yīng)與日常教學(xué)內(nèi)容和目標有關(guān)聯(lián)，關(guān)注重要的學(xué)習(xí)結(jié)果（2）將考查重點放在測量負責和高層次能力上（3）將干擾測驗?zāi)康牡臒o關(guān)困難降到最低（4）測驗盡可能選擇真實性的情境或問題（5）提供必要的操作指導(dǎo)語，讓學(xué)生了解作業(yè)任務(wù)和期望內(nèi)涵（6）指導(dǎo)語簡單清晰，向被試明確說明實際的情境、任務(wù)以及評價的標準（7）確定科學(xué)合理的計分方法第163頁/共529頁第二節(jié)測驗?zāi)繕伺c教育目標研究第164頁/共529頁一、教育目標與測驗?zāi)繕私逃繕说囊饬x教育目標是人類社會根據(jù)自身的需要確定的教育活動的標準、方向和要求，亦就是人們在教育活動之前，預(yù)先設(shè)想和確定的關(guān)于教育活動最終期望達成的結(jié)果。廣義的教育目標是在學(xué)校、家庭、社會三個方面的教育環(huán)境作用下取得的關(guān)于學(xué)生的行為變化；狹義的教育目標特指教學(xué)目標當教育目標用于教育測量和評價時，教育目標就轉(zhuǎn)換成測量目標和評價目標第165頁/共529頁教育目標的表述以學(xué)生為行為主體表述明確、具體反映學(xué)習(xí)結(jié)果的層次性表達教育工作者的意圖第166頁/共529頁中程教育目標終極教育目標具體教育目標二、教育目標分類研究第167頁/共529頁二、教育目標分類研究布盧姆的教育目標分類認知領(lǐng)域第168頁/共529頁第169頁/共529頁

情感領(lǐng)域第170頁/共529頁動作技能領(lǐng)域（辛普森的分類）第171頁/共529頁我國關(guān)于教育目標分類的研究李秉德“教育目標分類的三維結(jié)構(gòu)模型”第172頁/共529頁第三節(jié)測驗藍圖設(shè)計與測驗編制要領(lǐng)第173頁/共529頁一、設(shè)計測驗的基本考慮確定測驗的目的確定測驗的屬性明確測驗的性質(zhì)與用途明確測驗的對象分析測驗的目標第174頁/共529頁二、設(shè)計測驗藍圖確定測驗內(nèi)容要目（雙向細目表）確定該科目應(yīng)考查的目標層次確定各項測驗內(nèi)容要目下的權(quán)重形成命題雙向細目表第175頁/共529頁三、測驗的編制與組織1.選定測驗的材料

a途徑：（1）把測驗所涉及的內(nèi)容逐步分解到課程標準或教學(xué)大綱所規(guī)定的知識點，然后選擇適量的、重要的知識點作為測驗的材料；

（2）對測驗可能涉及的原始知識點進行聚類分析，根據(jù)知識點間的相關(guān)系數(shù)，依次進行合并，再利用適當?shù)拈y值將測驗?zāi)繕朔殖汕‘數(shù)念悾源_定測驗的材料第176頁/共529頁b注意點（1）測驗材料要適合測驗?zāi)康模?）測驗材料要能夠代表該教材的全部內(nèi)容（3）測驗材料要有普遍性，要以統(tǒng)一的課程標準或教學(xué)大綱或統(tǒng)編教材為選材依據(jù)（4）測驗材料要適合學(xué)生的程度并能鑒別學(xué)生的學(xué)習(xí)水平（5）測驗材料要富有進取性并切合社會需要第177頁/共529頁2.編寫測驗試題（命題）（1）試題的內(nèi)容取樣應(yīng)有代表性（2）試題的數(shù)量要恰當（3）試題的難度要合適（4）各個試題之間應(yīng)保持互相獨立（5）試題的表述必須清楚明白（6）題型應(yīng)多樣化（7）評分標準應(yīng)合理，命題應(yīng)有利于制定清晰可辨、公平合理的評分標準第178頁/共529頁3.試測與題目分析（1）試測：鑒別測驗性能的優(yōu)劣

注意點：試測對象應(yīng)取自將來正式測驗準備施用的群體試測應(yīng)力求按正規(guī)的要求進行，使其與將來正式測驗的情境一致試測的實施，應(yīng)使被試有足夠完成作業(yè)的時間，以便搜集充分的反應(yīng)資料使得統(tǒng)計分析結(jié)果可靠在試測的過程中，應(yīng)就被試的反應(yīng)情況隨時加以記錄（2）題目分析第179頁/共529頁4.合成測驗（組卷）（1）先易后難（2）同類組合（3）講究測驗題目編排的方式第180頁/共529頁5.編寫復(fù)本復(fù)本的關(guān)鍵是等值（1）各份測驗具有相同的測驗?zāi)繕伺c測驗內(nèi)容，但題目不應(yīng)有重復(fù)（2）各分測驗題型相同，題目數(shù)量相等，并且有大體相同的難度和區(qū)分度第181頁/共529頁6.編寫測驗手冊（1）本測驗的目的和功能（2）測驗編制的理論背景和試題選擇的依據(jù)（3）測驗的實施方法、時限與注意事項（4）測驗的標準答案和評分標準的規(guī)定（5）測驗分數(shù)解釋的依據(jù)（6）測驗的信度、效度資料，包括信度、效度系數(shù)以及這些數(shù)據(jù)是什么情況下得到的第182頁/共529頁雙向細目表第183頁/共529頁第五章制訂教育評價表

的一般方法和步驟第184頁/共529頁一、教育評價表的基本類型與制定原則教育評價表的基本的基本類型概括性問題教育評價表是根據(jù)評價目標概括提出一系列問題加以系統(tǒng)了解的評價表式；

當評價的目的不是為了評級，而是為了了解發(fā)展基本情況，描述發(fā)展基本狀態(tài)時，可使用自我編制概括性問題評價表指標結(jié)構(gòu)性教育評價表

根據(jù)評價目標逐層分解評價指標，形成具有評價指標體系、指標權(quán)重結(jié)構(gòu)以及定位定量具體評價標準的教育評價表；

第185頁/共529頁制訂教育評價表的基本原則教育規(guī)律性和導(dǎo)向性原則科學(xué)性和可操作性原則超前性和發(fā)展性原則第186頁/共529頁二、教育評價表的構(gòu)成及編制方法教育評價表的構(gòu)成要素評價指標指標權(quán)重評價標準第187頁/共529頁第188頁/共529頁制訂教育評價表的方法1.確定教育評價的對象和目標2.初擬評價指標3.篩選評價指標4.確定評價指標權(quán)重5.設(shè)計教育評價標準6.整合、修改與完善教育評價表第189頁/共529頁—完—第190頁/共529頁自我編制概括性問題評價表第191頁/共529頁2.初擬評價指標頭腦風(fēng)暴法因素分解法理論推演法第192頁/共529頁3.篩選評價指標（1）經(jīng)驗法：憑設(shè)計者的學(xué)識修養(yǎng)和工作經(jīng)驗篩選的一種簡便實用的方法理由是否充分或必要取主舍次從各指標之間的關(guān)系上進行比較去難存異，刪繁就簡（2）調(diào)查統(tǒng)計法：把初擬指標制成問卷，發(fā)給有關(guān)專家和有經(jīng)驗的教育工作者，請他們對初擬指標的每一項作出判斷。

第193頁/共529頁4.確定評價指標權(quán)重（1）關(guān)鍵特征調(diào)查法

第一步，先提出初擬評價指標；

第二步，請被調(diào)查者從初擬指標中找出一定數(shù)量的關(guān)鍵指標；

第三步，計算人數(shù)和百分比；

第四步，按一定的規(guī)則選取指標

第五步，按照“歸一化”的要求，計算各指標的權(quán)重系數(shù)

篩選后第i個指標的權(quán)重系數(shù)選擇該指標人數(shù)的百分比篩選后指標的個數(shù)第194頁/共529頁（2）兩兩比較法

對指標進行逐對比較，并加以評分，重要者記1分，次重要者記為0分；然后分別計算各指標得分之和，再除以所有指標得分之總和。第195頁/共529頁（3）專家評判平均法

對于已經(jīng)確定的指標，分別請專家評判其權(quán)重，然后請專家評判結(jié)果的平均數(shù)作為各指標權(quán)重。第i位專家賦予第j個指標的權(quán)重值專家人數(shù)第196頁/共529頁例：以先進性、科學(xué)性、系統(tǒng)性、啟發(fā)性四個指標來評價一本教材，請5位專家對各項指標權(quán)重進行評判，評判結(jié)果見表5-5.第197頁/共529頁（4）倍數(shù)比較法

對已確定的指標，以每一級指標中重要性程度最小的指標為基礎(chǔ)，記為1，然后將其他指標與它相比，作出重要性程度是它多少倍的判斷，再經(jīng)歸一化處理，即獲得該級各指標權(quán)重。第198頁/共529頁5.設(shè)計教育評價標準（1）分解教育評價表中指標所包含的主要內(nèi)容（2）確定標度（3）確定等級數(shù)量（3-5個）第199頁/共529頁第六章教育測驗的常模及其建立方法第200頁/共529頁第一節(jié)教育測驗常模的意義與類型第201頁/共529頁一、測驗常模的意義原始分數(shù)（rawscore):將被試的反應(yīng)與標準答案相比較而獲得的測驗分數(shù)。原始分數(shù)本身沒有多大的意義。原始分數(shù)的兩個缺陷原始分數(shù)的起點0沒有明確意義；分數(shù)并不能說明考生對知識掌握了多少第202頁/共529頁1.概念：（測驗的）常模，指一個有代表性的樣組在某種測驗上的表現(xiàn)情況，或一個與被試同類的團體在相同測驗上得分的分布狀況與結(jié)構(gòu)模式。（1）有代表性的樣組；（2）針對某種人群的身心特征；如智力常模、記憶常模等第203頁/共529頁2.常模的用途和導(dǎo)出分數(shù)（1）獲取一個有代表性的常模團體（2）常模資料的統(tǒng)計學(xué)描述（3）導(dǎo)出分數(shù)（derivedscore)：按照一定的規(guī)則，針對原始分數(shù)進行統(tǒng)計處理后獲得的分數(shù)。導(dǎo)出分數(shù)具有一定參照點和單位，可以相互比較。第204頁/共529頁二、測驗常模的主要類型發(fā)展常模（DevelopmentNorm)某一年齡或某一年級心理發(fā)展的平均水平導(dǎo)出分數(shù)：已經(jīng)達到的發(fā)展水平如：年齡常模、年級常模、順序量表、比率智商、教育商數(shù)組內(nèi)常模（Within-groupNorm)具有同一身份的人的平均水平導(dǎo)出分數(shù)：在某一特殊團體中的相對位置如：百分等級常模、標準分數(shù)常模、離差智商等第205頁/共529頁1.年齡常模（1）取平均值作為指標

基于不同年齡組測試所得的平均分，并與相應(yīng)的年齡當量聯(lián)系起來構(gòu)成年齡常模資料（2）用一組題目作為指標

用一批能使某年齡組大多被試都能通過的題目來代表該年齡組的發(fā)展水平第206頁/共529頁2.年級常模概念：不同年級學(xué)生在某種測驗上的正常的一般的表現(xiàn)方法建立方法：利用某年級學(xué)生在某一測驗上的平均分和相應(yīng)的年級當量之間的對應(yīng)關(guān)系來描述該測量的年級常模年級當量通常用兩位表示，第一位為“年”，第二位為“月”

第207頁/共529頁利用年級常模表將原始數(shù)據(jù)轉(zhuǎn)化為年級當量，如此可以通過測驗來了解和評價學(xué)生的發(fā)展例：假定某學(xué)生四年級中期的算術(shù)、語文、閱讀、外語四門學(xué)科成就測驗的年級當量如下：算術(shù)-5.5、語文-5.0、閱讀-6.0、外語-4.5在建立年級當量常?；蚰挲g當量常模時，由于受到條件限制，使得各年級樣組間的年月跨度較大，為了得到更加細化甚至連續(xù)性的常模表，可以采用插值計算和曲線擬合的方法。第208頁/共529頁第209頁/共529頁第210頁/共529頁第211頁/共529頁第二節(jié)百分等級常模及建立方法第212頁/共529頁一、百分等級常模的意義與應(yīng)用百分等級是一個地位量數(shù)，能夠反映某個測驗分數(shù)在一個次數(shù)據(jù)中的相對地位。它是把學(xué)生的原始分數(shù)放在學(xué)生所在群體的成績中進行比較，以確定該學(xué)生在群體中的相對地位之高低。百分等級常模就是基于某個常模團體，為某種測驗的原始分數(shù)與百分等級之間建立起對應(yīng)關(guān)系的組內(nèi)常模類型。在能力測驗和學(xué)業(yè)測驗中得到廣泛的應(yīng)用第213頁/共529頁第214頁/共529頁二、百分等級常模的建立方法1.基于未歸類數(shù)據(jù)建立百分等級常模的方法第一步：把觀測數(shù)據(jù)從大到小依次排列；第二步：按不同的數(shù)據(jù)逐個地統(tǒng)計次數(shù)；第三步：從低分開始向高分方向，計算各個得分點數(shù)據(jù)以下的累積總?cè)藬?shù)；第四步：計算各得分點數(shù)據(jù)的“以下累積相對次數(shù)”即比例數(shù)；第五步：確定各得分點數(shù)據(jù)的百分等級PR，計算方法是把各數(shù)據(jù)的“以下累積相對次數(shù)”乘上100；第六步：把原始分數(shù)與百分等級有關(guān)數(shù)據(jù)取出來列表，形成該測驗的百分等級常模表第215頁/共529頁第216頁/共529頁2.基于分組歸類數(shù)據(jù)建立百分等級常模的方法（1）根據(jù)測驗所欲使用的對象，科學(xué)地選擇常模團體，即有代表性的被試樣本；（2）把測驗施測于該常模團體，取得實測數(shù)據(jù)；（3）編制實測數(shù)據(jù)即常模團體實測分數(shù)的次數(shù)分布表第217頁/共529頁第218頁/共529頁第一步：查找數(shù)據(jù)中的最大值與最小值，其差數(shù)稱為全距；第二部：決定組數(shù)、組距和組限；第三部：把所有數(shù)據(jù)逐個進行歸類，然后統(tǒng)計次數(shù)并加以檢查，最后把有關(guān)結(jié)果用一個規(guī)范的表格加以整理，即為次數(shù)分布表。組距X所在組的次數(shù)X所在組別的組下線小于Lb的各組次數(shù)之和第219頁/共529頁百分等級常模的優(yōu)缺點易于理解，用途廣由于是等級量表，所以百分量表的分數(shù)不能進行加減乘除的運算，許多統(tǒng)計方法都無法使用。第220頁/共529頁第三節(jié)標準分數(shù)常模及建立方法第221頁/共529頁一、標準分數(shù)的基本定義標準分數(shù)是以標準差為單位表示測驗成績與平均分數(shù)之間的距離標準分數(shù)是以平均數(shù)為參照點，標準差為單位的一種量表分數(shù)，它將原始分與平均數(shù)的距離以標準差為單位來表示把原始分數(shù)轉(zhuǎn)換成標準分數(shù)是一種線性的轉(zhuǎn)換，所以轉(zhuǎn)換后的分數(shù)能保持原始分數(shù)準確的數(shù)量關(guān)系和分布形態(tài)第222頁/共529頁例：甲、乙、丙、丁四人在某次語文考試中分別獲得72分、60分、48分和90分，而全體學(xué)生的語文平均成績?yōu)?0分，標準差為12分，求這四個人相應(yīng)的標準分數(shù)。第223頁/共529頁Z分數(shù)的轉(zhuǎn)換（1）教育與心理測驗中的T分數(shù)：T=50+10Z（2）韋氏智力量表中各分測驗的量表分：T=10+3Z

韋氏智力量表智商（離查智商）：IQ=100+15Z（3）美國大學(xué)入學(xué)考試報告分數(shù)：CEEB=500+100Z（4）為出國人員舉行的英語水平考試：EPT=90+20Z（5）美國教育測驗中心舉辦的“托?！笨荚嚕篢OEFL=500+70Z

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

教育測量與評價全套

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔