教育測量與評價考試重點整理版_第1頁
教育測量與評價考試重點整理版_第2頁
教育測量與評價考試重點整理版_第3頁
教育測量與評價考試重點整理版_第4頁
教育測量與評價考試重點整理版_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、課程性質(zhì)和教學要求課程的性質(zhì):教育測量與評價是教育測量學與教育評價學內(nèi)容的整合并側(cè)重于教育測量的一門綜合性教育課程,它著力探討對教育教學效果進行測量、評價的原理和方法,是一門帶有綜合性、技術(shù)性、實踐性、應用性等特征的應用性學科,是實現(xiàn)教育科學研究與教育管理科學化所必須借助的一門科學,也是教育學專業(yè)和小學教育專業(yè)所開設的一門必修專業(yè)基礎課程。教學目標和要求:理解教育測量與評價的基本概念、原理和方法,能正確使用各類標準化的教育測驗、會作測驗質(zhì)量分析、能正確解釋分數(shù)的含義,并學會運用這些知識,對學校教育、教學和研究實踐中的實際問題,做出比較正確與合理的判斷和評價,以促進教育管理現(xiàn)代化、教育研究科學化

2、。第一章教育測量與評價的學科發(fā)展教育測量與評價的基本問題 教育測量與評價的發(fā)展歷史 教育測量與評價的學科地位和作用 1.測量的定義 史蒂文斯曾對測量作出以下定義:“就其廣義來說,測量是按照法則給事物指派數(shù)字。” 我國有些學者認為:“測量是對客觀事物進行某種數(shù)量化的測定”,“測量是按照一定的法則,用數(shù)字方式對事物的屬性進行描述的過程”。 本書的觀點:從廣義上講,測量就是根據(jù)某些法則與程序,用數(shù)字對事物在量上的規(guī)定性予以確定和描述的過程。 從以上對測量所下的各種定義可以看出,這種對事物進行區(qū)分的過程,必須是按照一定法則的,區(qū)分的結(jié)果必須能夠用數(shù)字的方式進行描述的。2.測量的要素(1)測量的量具 測

3、量的量具是指依據(jù)某些科學原理和法則,發(fā)展出合適的量具或制定出科學的測量方案。(2)測量的單位 不同的測量所采用的單位是不同的。 理想的測量單位必須符合兩個條件: 要有確定的意義; 要有相等的價值。教育測量的單位不夠完善,既無統(tǒng)一的單位,也不符合等距的要求。(3)測量的參照點量的參照點系測量的起點。要確定事物的量,必須有一個測量的起點,這個起點就叫做測量的參照點。參照點有兩種類型: 絕對參照點(絕對零點); 相對參照點(相對零點)。理想的參照點是絕對參照點,但教育測量中很難找到絕對零點,多采用人為指定的相對零點。3.教育測量的定義與特點教育測量的定義 教育測量,就是針對學校教育影響下學生各方面的

4、發(fā)展,側(cè)重從量的規(guī)定性上予以確定和描述的過程。教育測量的特點(1)本書的觀點: 間接性和推斷性; 測量對象的模糊性和測量誤差的不可避免性; 量表具有多樣性,結(jié)果具有相對抽象性。(2)其他的觀點: 有人概括為: 間接性; 相對性。(金瑜) 有人概括為: 間接性; 相對性; 客觀性。(鄭日昌) 有人概括為: 間接性; 不確定性; 明確的目的性。(朱德全、宋乃慶)4.量表及其種類量表的概念 量表(量尺)是指確定了測量單位和參照點并具有取值系統(tǒng)的測量工具。量表的類型 由于事物的屬性(特征)不同,以及所制定的規(guī)則不同,致使用數(shù)的屬性來描述事物屬性(特征)所達到的程度不同,這就產(chǎn)生了不同測量水平的問題。史

5、蒂文斯根據(jù)對測量結(jié)果數(shù)量化描述的不同水平,將測量分成四種不同水平:稱名測量、順序測量、等距測量、比率測量。這四種不同水平的測量產(chǎn)生了相應的四種類型的量表。5.稱名量表和順序量表稱名量表(命名量表或名稱量表或類別量表) 稱名量表是最低水平的測量量表,它只是用數(shù)字代表事物或用數(shù)字對事物進行分類。在這種情況下,數(shù)字只是事物的符號,而沒有任何數(shù)量的意義。適合于對稱名量表進行統(tǒng)計分析的統(tǒng)計方法有百分比、次數(shù)、眾數(shù)和2 檢驗。順序量表(等級量表) 順序量表是次低水平的測量量表,它不僅能夠指代事物類別,而且能夠表明不同類別的大小、等級或事物具有某種特征的程度。在順序量表中,數(shù)字只表示等級、大小和程度的順序,

6、它既沒有相等的單位,也沒有絕對的零點。適合于對順序量表進行統(tǒng)計分析的方法有中數(shù)、百分位數(shù)、等級相關(guān)系數(shù)和肯德爾和諧系數(shù)等。6.等距量表和比率量表等距量表 等距量表是較高水平的測量量表,它不僅能夠指代事物的類別、等級,而且具有相等的單位。適合于對等距量表進行統(tǒng)計分析的方法有平均數(shù)、標準差、積差相關(guān)系數(shù)以及t檢驗和F檢驗。比率量表(等比量表)比率量表是最高水平的測量量表,它除了具有類別、等級、等距的特征外,還具有絕對零點。適合于對比率量表進行統(tǒng)計分析的方法除了與等距量表相同外,還有幾何平均數(shù)、變異系數(shù)。7.教育測量屬于哪一種水平的測量,為什么?答: (1)教育測量屬于順序測量的水平。 (2) 從所

7、使用的參照點來說,教育測量領域的參照點均為相對參照點; 從所使用的單位來說,教育測量的單位遠沒有其他測量的單位成熟和完善, 既無統(tǒng)一的單位,也不符合等距的要求。8.教育評價的概念(如何理解“教育評價”的含義?)評價的含義 廣義的講,評價泛指衡量、判斷人物或事物的價值。教育評價的定義 對于什么是教育評價,專家、學者至今沒有一個統(tǒng)一的認識。但具有代表性的觀點有以下幾種: 格蘭朗德:評價是為了確定學生達到教學目標的程度,收集、分析和解釋信息的系統(tǒng)過程;評價包括對學生的定量描述和定性描述兩方面。 斯塔費爾比姆:評價是一種規(guī)定、獲取和提供敘述性和判斷性的過程。這些信息涉及研究對象的目標、設計、實施和影響

8、的價值及優(yōu)缺點,以便指導如何決策、滿足教學效能核定的需要,并增加對研究對象的了解。 美國教育評價標準委員會:評價是某些現(xiàn)象的價值如優(yōu)缺點的系統(tǒng)調(diào)查,為教育決策提供依據(jù)的過程。 泰勒:評價評價的過程在本質(zhì)上是確定課程和教學大綱在實際上實現(xiàn)教育目標的程度的過程。 德雷斯:所謂評價,就是決定某種活動、目的及程序的價值的過程。 橋本重治:評價是與教育的目標和價值有明確關(guān)系的概念,是按照教育目標和價值觀對學生的學習成果及教育計劃的效果等進行測量的過程。 布魯姆:評價乃是系統(tǒng)地收集證據(jù)用以確定學習者實際上是否發(fā)生某些變化,確定學生個體變化的數(shù)量或程度。 我國學者黃光揚:教育評價是指按照一定的價值標準和教育

9、目標,利用測量和非測量的種種方法系統(tǒng)地收集資料信息對學生的發(fā)展變化及其影響學生發(fā)展變化的各種要素進行價值分析和價值判斷,并為教育決策提供依據(jù)的過程。從上述對“評價”概念在教育教學活動情境下的各種描述中不難發(fā)現(xiàn),教育評價包含以下幾個共同的要點: 強調(diào)以教育目標為標準的價值判斷過程; 強調(diào)運用多種方法系統(tǒng)收集資料和信息; 教育評價的內(nèi)容既要以是教育計劃、也要以是學生的學習結(jié)果,也要以是某種教育現(xiàn)象、教學活動、教育目的或教育程序; 強調(diào)為學生發(fā)展和教育決策服務。9.教育測量與教育評價的關(guān)系 測量與評價既有聯(lián)系又有區(qū)別。教育評價最根本的特征是做出價值判斷。而教育測量過程的完結(jié),在給出數(shù)量事實的描述與判

10、斷之后,不一定都要做出價值判斷。從這個意義上說,教育測量可以為教育評價提供價值判斷的基本數(shù)量事實,教育測量是教育評價的基礎;而教育評價往往是教育測量過程的繼續(xù),是對測量結(jié)果的解釋與應用,并朝著價值判斷與釋放教育功能的方向拓展。10.思考題:教育測量與教育評價有何區(qū)別?答: (1)教育評價最根本的特征是做出價值判斷。而教育測量在給出數(shù)量事實的描述與判斷之后,不一定都要做出價值判斷。 (2)教育測量可以為教育評價提供價值判斷的基本數(shù)量事實,教育測量是教育評價的基礎;而教育評價往往是教育測量過程的待續(xù),是對測量結(jié)果的解釋與應用,并朝著價值判斷與釋放教育功能的方向拓展。11.教育評價與教育評估的關(guān)系

11、教育評價與教育評估這兩個概念既有聯(lián)系又有區(qū)別。第一,英語詞源不同(教育評價通常用“education evaluation”表示,教育評估通常用“educational assessment”表示),其意義則多少有所差別;第二,源出相同(教育測量運動、美國著名的“八年研究”),它們肯定有想通與交叉之處;第三,漢語詞義相近(“評估”一詞,含有“評判”、“評量”、“估測”、“估算”等意思;教育評估可能有價值判斷,也可能沒有價值判斷),它們在內(nèi)容上有交叉,也有區(qū)別;22.教育測量與評價的發(fā)展歷史(1)中國是考試制度的發(fā)源地(2)中國科舉制度的世界地位(3)教育測量學科的誕生(4)教育測量運動的蓬勃開

12、展(5)美國的“八年研究”是教育評價的催生劑(6)教育測量與評價理論的發(fā)展13.教育測量與評價的學科地位和作用 (1)教育測量與評價是現(xiàn)代教育科學研究的三大領域之一; (2)教育測量與評價在教育改革中具有重要的作用; (3)教育改革呼喚教育測量與評價更加科學化;(4)教育測量與評價是教師的專業(yè)素養(yǎng)和能力。第二章教育測量與評價的類型和功能教育測量與評價的主要類型 教育測量與評價的主要功能1.教育測量與評價的類型1.按測量與評價在教學中運用的時機分類,教育測量與評價可分為: (1)形成性測量與評價: 形成性測量與評價是在教學活動過程中經(jīng)常實施的,其目的:其一,教師藉此獲得教學過程中連續(xù)性的反饋,了

13、解學生的學習效果、學習歷程、學習特點、學習困難等信息,作為隨時修正自己教學的參考;其二,學生根據(jù)反饋的結(jié)果獲知自己學習后的表現(xiàn)情況,從而肯定或修正自己以后的學習方式。 (2)診斷性測量與評價: 診斷性測量與評價是對經(jīng)常表現(xiàn)出學習困難的學生所作的測量與評價,它的目的是對個人的問題行為及其原因進行診斷。診斷性測量與評價多半是在形成性測量與評價之后實施。(3)終結(jié)性測量與評價:終結(jié)性測量與評價是用于教學結(jié)束后,其目的:其一,在教學目標之下,檢查學生一學期的學業(yè)達到了什么樣程度,從而判斷教學效果的得失;其二,根據(jù)終結(jié)性測量與評價的結(jié)果,評定學生的學業(yè)成績,并將評定結(jié)果通知學生家長或記入檔案。2.按解釋

14、測量結(jié)果或評價結(jié)果時的參照點分類,教育測量與評價可分為: (1)常模參照測量與評價:常模參照測量與評價是將被試水平與測驗常模相比較,以評價被試在團體中的相對地位的一種測量與評價類型。(2)標準參照測量與評價(目標參照測量與評價):標準參照測量與評價是將被試的表現(xiàn)與既定的教育目標或行為標準相比較,以評價被試在多大程度上達到該標準。(3)潛力參照測量與評價:潛力參照測量與評價是將被試實際水平與其自身潛在水平(潛力)相比較,以評價被試有無充分發(fā)揮自身潛力為目的。在強調(diào)人性化、動態(tài)化和個別化的現(xiàn)代教育測評潮流下,潛力參照測量與評價理應發(fā)揮更大的作用3.按測量與評價被試行為表現(xiàn)的性質(zhì)分類,教育測量與評價

15、可分為:(1)最佳行為測量與評價:最佳行為測量與評價是以測量最佳行為表現(xiàn)為目的。凡是以成就或能力的高低為評價基礎的,都屬于最佳行為測量與評價。(2)典型行為測量與評價:典型行為測量與評價的目的不在測量與評價被試能力的高低,而是測量與評價其是否具備某種(或某些)典型行為。在這些測量過程,希望被試以其平常的典型狀況來回答,無所謂正確與錯誤之分。在重視學生個性發(fā)展和全人教育的現(xiàn)代教育理念下,典型測量與評價的方法具有特殊的意義。4.按測量與評價的內(nèi)容分類,教育測量與評價可分為: (1)智力測量與評價:智力測量與評價的目的在于測量被試的智力并對被試的智力發(fā)展水平和特點做出評價。 (2)能力傾向測量與評價

16、:能力傾向測量與評價的目的在于測量與評價個人的潛在才能,預測個人的能力發(fā)展傾向。能力傾向測量與評價一般可分為兩種:一種是關(guān)于一般能力傾向的測量與評價,旨在探測個人多方面的潛能;另一種是特殊能力傾向測量與評價,旨在探測個人某方面的特殊潛在能力。 (3)成就測量與評價:成就測量與評價的目的在于測量并評價個人在接受教育或訓練后的成就。成就測量與評價有兩種類型:一是學科成就測驗,旨在測量與評價被試在某一科目上的學習成就;二是綜合成就測驗,旨在測量與評價被試在多個學科或綜合學科上學習成就。 (4)人格測量與評價(個性測量與評價):人格測量與評價的目的在于測量與評價被試的人格心理特征,諸如氣質(zhì)、性格、興趣

17、、態(tài)度、動機、適應性等方面的心理特征。用于人格測量與評價的量具主要分為兩類:一類是自陳人格問卷;另一類是投射測驗。5.按測量與評價的對象分類,教育測量與評價可分為: (1)個別測量與評價:個別測量與評價是指同一主試在同一時間內(nèi)只能測量一個被試。這種形式的測量與評價,主試對被試行為反應有較多的觀察和控制機會,主試與被試有更多的交流,這可讓主試獲得更多的信息,也可以建立較融洽的主被試合作關(guān)系,有利于測量與評價的進行。但是個別測量與評價費時、費力,特別是主試必須經(jīng)過嚴格的訓練才能勝任。 (2)團體測量與評價:團體測量與評價是指在同一時間內(nèi)由一位主試測量許多位被試。這種形式的測量與評價突出的優(yōu)點是節(jié)省

18、時間,可以在短時期內(nèi)收集到大量的測量數(shù)據(jù)。但由于同一時間內(nèi)接受測量的被試多,不易有效地控制被試的行為,容易產(chǎn)生測量誤差,從而影響測量的信度和效度。6.按測量與評價的材料(測驗材料)分類,教育測量與評價可分為: (1)文字測量與評價(文字測驗、紙筆測驗):文字測量與評價的測驗內(nèi)容是以文字的形式表現(xiàn)的,被試也用文字作答的一種測量與評價的方式。對于不同教育背景的被試,這種測量與評價的有效性將受到一定程度的影響。 (2)非文字測量與評價(非文字測驗、操作測驗):非文字測量與評價的測驗內(nèi)容是通過圖形、儀器、工具、實物、模型等形式表現(xiàn)的,被試通過指認、手工操作向主試提供答案的一種測量與評價的方式。這種形式

19、的測量與評價不受或較少受文化背景的影響與限制。7.按測量與評價量具有的標準化程度分類,教育測量與評價可分為: (1)標準化測量與評價(標準化測驗):標準化測量與評價的測驗是指由測量專家嚴格按照測驗編制程序而精心編制的一種測驗。通常標準化測驗都具有一定的編制程序,包括試題的抽樣,難度、區(qū)分度指標分析,明確的施測指導語和施測程度,計分標準,解釋分數(shù)的常模,以及信度、效度等指標資料。 (2)非標準化測量與評價:非標準化測量與評價的測驗編制相對自由,沒有嚴格按照測驗編制程序進行。教師自編測驗常由教師依照自己的教學需要和教學目標而自行編制的測驗,是一種非標準化測驗。2.教育測量與評價的功能(1)實現(xiàn)教育

20、判斷的功能 教育測量與評價的最基本、最原始、最現(xiàn)實、最普遍的功能,就是實現(xiàn)教育判斷,具體來說就是實現(xiàn)測量評定、事實判斷、價值判斷、問題診斷和區(qū)分選拔等功能。(2)改進教師教學的功能通過教育測量與評價的結(jié)果,教師能夠了解學生的起點行為,作為改進教學、補救教與學的依據(jù),確保教學目標的達到,從而充分發(fā)揮其改進教師教學的功能。(3)促進學生學習的功能教育測量與評價具有激勵學生的學習動機、幫助學生的記憶和促進遷移、促進學生自我評價等促進學生學習的功能。(4)行使教育管理的功能教育測量與評價具有控制、指揮、導向、計劃、檢查、考核、評估和監(jiān)督等方面的作用,通過對教師、目標和過程等方面管理來行使其教育管理的功

21、能。第三章教育測量與評價的質(zhì)量特性教育測量與評價的信度教育測量與評價的效度教育測量與評價中項目的難度教育測量與評價中項目的區(qū)分度1.信度的意義 信度是指測量結(jié)果的穩(wěn)定性程度,記為rXX 。換一句話說,信度是指用同一測量工具反復測量同一種物質(zhì)對象所得多次測量結(jié)果間的一致性程度。 測驗信度是對測驗工具及其操作的整體質(zhì)量的一種量度,是測驗性能的重要質(zhì)量指標。如果測驗本身抗干擾能力強,測驗實施過程各方面誤差因素都控制得好,多次施測所得分數(shù)(測值)的一致性就高,那么測量信度高,人們在使用所得測值時就會感覺可靠。2.信度的統(tǒng)計定義 定義1:信度是一個被測團體真分數(shù)方差與觀察分數(shù)方差之比。即:XX=2T /

22、 2X 定義2:信度是一個被試團體的真分數(shù)與觀察分數(shù)的相關(guān)系數(shù)的平方。即:XX=2TX 定義3:信度是一個被試團體在測驗X(A卷)上的觀察分數(shù)與在測驗X的任意一個“平 行測驗” X(B卷)上觀察分數(shù)的相關(guān)系數(shù)。即: XX= XX3.重測信度(穩(wěn)定性系數(shù))(1)重測信度是指用一個量表(測驗或評價表)對同一組被施測兩次所得結(jié)果的一致性程度,其大小等于同一組被試在兩次測驗上所得分數(shù)的相關(guān)系數(shù)。(2)重測信度基本假設:某測驗所要測量的潛在特質(zhì),短期內(nèi)不會隨著時間推移而改變。(3)重測信度適用于異質(zhì)性測驗(一個測驗包括幾個不同的部分,這幾個部分分別測量幾個不同的心理特質(zhì),它們之間可能并不存在相關(guān)或相關(guān)較

23、低),也適用于速度測驗和運動技能測驗。4.復本信度(等值性系數(shù)或等值穩(wěn)定性系數(shù)) (1)復本信度是指兩個平行測驗(在試題格式、題數(shù)、難度、指導語說明、施測要求等方面都相當,并且都用來測量相同潛在特質(zhì)或?qū)傩?,但試題又是不相同的測驗)測量同一批被試所得結(jié)果的一致性程度,其大小等于同一批被試在兩個復本測驗上所得分數(shù)的相關(guān)系數(shù)。 (2)實施復本測驗的方式:一是在同一個時間連續(xù)施測(此時所得的復本信度叫等值性系數(shù)),二是間隔一段時間后施測(此時所得復本信度叫等值穩(wěn)定性系數(shù))。 (3)使用復本信度首先要構(gòu)造出兩份或兩份以上的真正的平行測驗。這是一個很難達到的條件。另外,重測信度的一些不足,在復本信度中仍然

24、存在,需要加以克服。 (4)復本信度不僅適用于難度測驗,也是估計速度測驗信度的好方法。5.同質(zhì)性信度的概念(1)同質(zhì)性信度(內(nèi)部一致性信度)是指測驗內(nèi)部所有題目間的一致性程度。這里題目間的一致性含有兩層意思:其一是指所有題目測的是同一種心理特質(zhì);其二是所有題目得分之間都具有較高的正相關(guān)。(2)同質(zhì)性信度的基本假設:當一個測驗具有較高的同特性信度時,說明測驗主要測的是某一單個心理特質(zhì),由于眾多的題目測試了同一心理特質(zhì),那么實測結(jié)果就是該特質(zhì)水平的反映。 (3)同質(zhì)性信度不適用于異質(zhì)測驗和速度測驗。6.同質(zhì)性信度的估計方法(1) 分半信度 分半信度指是的將一個測驗分成對等的兩半后,所有被試在這兩半

25、上所得分數(shù)的一致性程度。 分半信度的計算方法和等值復本信度的方法類似,只不過分半信度計算的是兩個“半測驗”上得分的相關(guān)系數(shù),只是半個測驗的信度,還必須用斯皮爾曼布朗公式加以校正 。(2) 庫德理查遜信度 該方法適合于測驗題目全部為二分記分題的測驗的內(nèi)部一致性信度分析。常用的庫德理查遜公式有: (3)克龍巴赫系數(shù) 當測驗題型較多,并非都是二分記分題時,估計測驗信度可采用克龍巴赫系數(shù)。其計算公式為:(4) 荷伊特信度 1941年荷伊特提出用方差分量比來估計測驗內(nèi)部一致性的方法,其估計值為:7.評分者信度評分者信度的含義 評分者信度是指多個評分者給同一批人的答卷進行評分的一致性程度。 評分者信度的計

26、算 (1)當評分者人數(shù)為兩人時,評分者信度等于兩個評分者給同一批被試的答卷所評分數(shù)的相關(guān)系數(shù)。依據(jù)數(shù)據(jù)形式,可采用不同的相關(guān)系數(shù)計算方法。 (2)當評分者人數(shù)多于兩人時,評分者信度可用肯德爾和諧系數(shù)進行估計。8.標準參照測驗的信度分析()百分比一致性指標(PA) 百分比一致性指標是指同一測驗或兩平行測驗先后兩次施測,其對被試的分類結(jié)果一致的比例。其計算公式為:()K一致性系數(shù) K一致性系數(shù)是指實際被評定為一致的百分比與在理論上被評定為一致的最大可能次數(shù)百分比的比率。其計算公式:()K2 指數(shù) 標準參照測驗關(guān)注決斷的可靠性,而這種決斷顯然與被試團體的平均水平密切相關(guān)。在考慮到這個因素的基礎上,心

27、理統(tǒng)計學家萊芬斯頓提出了K2指數(shù)作為考察標準參照測驗信度的指標。其計算公式為:9.測量標準誤測量標準誤的含義 測量標準誤是指測驗中所得測值偏離真分數(shù)的程度,記為SE。 測量標準誤與測驗信度的關(guān)系 測量標準誤的意義 測量標準誤是反映測量結(jié)果精確性和可靠性的又一指標,同時也是人們正確解釋測驗分數(shù)的科學依據(jù)。10.效度的概念 效度的意義 效度是指一個測驗或量表實際能測出其所要測量的特性的程度。對這一概念,我們可以從以下幾個方面來理解: 效度始終是針對一定測量目的而言的; 效度只有程度上的差異; 效度是針對測量結(jié)果而言的; 評價一個測量是否有效要多角度、多方面地收集證據(jù)。 效度的統(tǒng)計定義 效度可定義為

28、目標真分數(shù)方差與觀察分數(shù)方差之比:XY=2V / 2X 效度與信度的關(guān)系 ()信度高是效度高的必要而非充分條件 ()效度系數(shù)不會大于信度系數(shù)的平方根11.如何理解“效度”的意義?效度是指一個測驗或量表實際能測出其所要測量的特性的程度。對這一概念,我們可以從以下幾個方面來理解: (1)效度始終是針對一定測量目的而言的; (2)效度只有程度上的差異; (3)效度是針對測量結(jié)果而言的; (4)評價一個測量是否有效要多角度、多方面地收集證據(jù)。12.內(nèi)容效度內(nèi)容效度的含義及應用范圍 內(nèi)容效度是指測驗題目樣本對于應測內(nèi)容與行為領域的代表性程度。如果是教學情境下的成就測驗,那么其內(nèi)容效度就是看測驗題目樣本能

29、體現(xiàn)教學目標與教材要求的程度。 內(nèi)容效度主要適用于教育測量(尤其是學業(yè)成就測驗)的情境中,也適合于某些用于選拔和分類的職業(yè)測驗,但不適合某些心理測驗(如智力測驗、人格測驗)。 內(nèi)容效度的分析方法 邏輯分析的方法 內(nèi)容效度的邏輯分析法,即依靠有關(guān)專家對測驗題目與應測內(nèi)容范圍的吻合程度作出判斷。 內(nèi)容效度的量化分析方法 該方法要求專家在仔細審閱測驗目標的基礎上,獨立地對測驗的每個題目作出判斷:“該題目實際測到的內(nèi)容與其欲測量的目標內(nèi)容之間相關(guān)程度如何,并用四點量表(用完全無關(guān)、有點相關(guān)、相關(guān)較密切、完全相關(guān)來表示)來表示這種相關(guān)的程度大小”;當兩位專家完成此項工作后,統(tǒng)計弱相關(guān)(完全無關(guān)、有點相關(guān)

30、)、強相關(guān)(相關(guān)較密切、完全相關(guān))的題目數(shù),則此測驗的內(nèi)容效度系數(shù)為:內(nèi)容效度系數(shù) =D/(A+B+C+D)( D 表示兩位專家都判定為強相關(guān)的題目數(shù) )13.結(jié)構(gòu)效度結(jié)構(gòu)效度的含義 結(jié)構(gòu)效度是指一個測驗或量表實際測到所要測量的理論結(jié)構(gòu)(結(jié)構(gòu)是指心理學或社會學上的一種理論構(gòu)想或特質(zhì))的程度。結(jié)構(gòu)效度的驗證一般步驟 提出有關(guān)理論結(jié)構(gòu)的說明,并據(jù)此設計測量用的試題; 提出可以驗證該理論結(jié)構(gòu)是存在的假設說明; 采用各種方法收集實際的資料,以驗證第二步提出的假設的正確性; 收集其他類型的輔助證據(jù),淘汰與理論結(jié)構(gòu)相反的試題,或是修正理論,并重復第二和第三步,直到下述的假設得到驗證,即測驗的結(jié)構(gòu)效度獲得支

31、持為止。結(jié)構(gòu)效度的驗證方法 測驗內(nèi)部尋找證據(jù)法 這種方法是通過研究測驗內(nèi)部結(jié)構(gòu)來驗證測驗的結(jié)構(gòu)效度。它主要包括內(nèi)容效度、作答過程分析、測驗的同質(zhì)性和因素分析等四個方面。 測驗之間尋找證據(jù)法 這一方法的特點是同時考察兩個或多個測驗間的相互關(guān)系,從而來驗證測驗的結(jié)構(gòu)效度。它包括相容效度、聚合效度、區(qū)分效度和“多種特質(zhì)多種方法矩陣法”等具體方法。 考察測驗的實證效度法 如果一個測驗有實證效度,則可以拿該測驗所預測的效標的性質(zhì)與種類作為該測驗的結(jié)構(gòu)效度指標,至少可以從效標的性質(zhì)與種類來推論測量的結(jié)構(gòu)效度。主要方法有差異被試比較法和先后測試分析法。14.試比較內(nèi)容效度、結(jié)構(gòu)效度、效標關(guān)聯(lián)效度的異同?相同

32、點:三者都是作為檢驗測驗有效程度的指標,都可以作為評價一個測驗優(yōu)劣的標準。 不同點: 考察的角度不同。內(nèi)容效度是指測驗題目樣本對于應測內(nèi)容與行為領域的代表性程度。結(jié)構(gòu)效度是指一個測驗或量表實際測到所要測量的理論結(jié)構(gòu)(結(jié)構(gòu)是指心理學或社會學上的一種理論構(gòu)想或特質(zhì))的程度。效標關(guān)聯(lián)效度是指一個測驗對于處于特定情境中的個體行為進行預測時的有效性。 應用的范圍不同。內(nèi)容效度主要適用于教育測量(尤其是學業(yè)成就測驗)的情境中,也適合于某些用于選拔和分類的職業(yè)測驗,但對于某些特質(zhì)的心理測驗(如智力測驗、人格測驗),內(nèi)容效度并不適合。結(jié)構(gòu)效度主要用于智力測驗、人格測驗等一些心理測驗方面。效標關(guān)聯(lián)效度適用于能夠

33、找到有效效標的測驗,常用的效標主要有:學業(yè)成就、等級評定、臨床診斷、專門的訓練成績、實際的工作表現(xiàn)、對團體的區(qū)分能力以及其它現(xiàn)成的有效測驗。 確定的方法不同。內(nèi)容效度確定的主要方法是邏輯分析法、量化分析法。結(jié)構(gòu)效度確定的主要方法是測驗內(nèi)部尋找證據(jù)法、測驗之間尋找證據(jù)法和考察測驗的實證效度法;效標關(guān)聯(lián)效度確定的主要方法有相關(guān)法、顯著差異法、命中率。15.難度的概念題目或項目的難度,就是指被試完成題目或項目任務時所遇到的困難程度。定量刻畫被試作答一個題目的困難程度的量數(shù),就叫做題目的難度系數(shù),也常稱為難度值,用符號P表示。16.難度系數(shù)的計算方法()以全體被試得分率為難度系數(shù) 如果一個題目的難度大

34、,則被試得高分的可能性小;反之,如果題目的難度小,則被試得高分的可能性就大。因此,用得分率可以作為難度系數(shù)的指標。其計算公式為: 如果題目是選擇題的話,被試有可能猜對而得分,因此,對選擇題的難度系數(shù)有人建議需用下面的公式進行校正:CP =(P-1)(-1)()以全體被試失分率為難度系數(shù)直接建立在通過率基礎上的難度系數(shù),P 值越大試題越容易,P 值越小試題越難做。這與人們觀念可能不一致,因此有人提議用失分率q 來表示難度,計算公式為:q = 1-P()以兩端組被試得分率的均值為難度系數(shù) 該方法是分別計算高分組被試和低分組被試的得分率,然后求取二者的平均值作為難度系數(shù),公式為: P =(PH+PL

35、)2 以兩端組被試的得分率作為難度系數(shù)的具體計算步驟: 按被試的總分,將全體被試從高到低進行排序; 從高分往下找,找出高分組;由低分往上找,找出低分組。兩組人數(shù)分別占總?cè)藬?shù)的; 分別計算高分組、低分組的被試在該題目上的平均得分; 代入公式 ,分別計算分組和低分組被試在同一個題目上的難度系數(shù); 把 PH 和 PL 代入公式 P =(PH+PL)2 ,計算這個題目的難度系數(shù)。17.難度的等距變換用上述方法計算出來的難度系數(shù),都屬于順序變量,不具有相等的單位。因此,通過 P 值的比較并不能客觀指出難度之間差異大小,這對我們作進一步的難度分析帶來了困難。為了解決這個問題,人們常假設每個試題所要測量的潛

36、在特質(zhì)或能力是呈正態(tài)分布的,然后就可以根據(jù)正態(tài)分布曲線,將試題的難度值 P 作為正態(tài)曲線下的(概率)面積,轉(zhuǎn)換成具有相等單位的等距量表,即 Z 分數(shù)(標準分數(shù))。由于標準分數(shù)具有相等單位,屬于等距量表。所以,用標準分數(shù)作為題目難度的指標,為進一步作難度分析帶來了一些方便。18.測驗題目的恰當難度和恰當難度分布 測驗由多個題目所組成,顯然,所有這些題目的難度取值都應該力求恰當,而且這些題目分布狀態(tài)也應合理。究竟怎樣的題目難度與難度分布是合適的,這主要取決于測驗的目的與性質(zhì)。19.常模參照測驗、標準參照測驗所要求的項目恰當難度及難度分布是什么?為什么?(1) 常模參照測驗的項目恰當難度是P值盡量接

37、近0.50,因為只有在這種情況下題目的區(qū)分性能最好。 常模參照測驗所要求的項目恰當難度分布是,圍繞這個點,有一個適當寬的全距。這樣做的原因有以下兩個:一是測驗時,通常希望開始有幾個難度較低的題目來穩(wěn)定被試情緒,末尾用幾個難度稍大的題目以便只有少數(shù)高水平者才能通過,二是讓全部項目都取0.50的難度,通常難以實現(xiàn)。當然,在允許有適當寬的全距的前提下,仍然要力爭大多數(shù)項目難度取值接近0.50。(2) 標準參照測驗的目的是要考察被試的水平是否達到應有要求,因而測驗項目的難度,就不應由被試的實際通過率來決定,而應由項目的考核要求是否體現(xiàn)了應有標準或教學目標來決定。無論項目通過率是高還是低,只要體現(xiàn)了應用

38、的標準或教學目標,項目的難度就是合理的恰當?shù)摹?0.區(qū)分度的意義題目區(qū)分度是指題目區(qū)別被試水平能力的量度,記為 D 。 區(qū)分度的分析方法,大約可以歸納成兩類:一是外在效標法,即分析被試在測驗題目上的得分與外在客觀標準上的表現(xiàn)之間的關(guān)系。二是內(nèi)部一致性法。即分析被試在測題上的得分與在整個測驗總分之間的一致性程度。 區(qū)分度的值域范圍在 -1.00 至 +1.00 之間。通常 D 為正值,稱作積極區(qū)分;D 為負值,稱作消極區(qū)分;D 為 0 ,稱作無區(qū)分作用。具有積極區(qū)分作用的項目,其 D 值越大,區(qū)分的效果越好。21.區(qū)分度的計算(1)相關(guān)法 區(qū)分度的實質(zhì)是題分與總分的相關(guān),因此,各種計算相關(guān)系數(shù)的方法都可以用于計算區(qū)分度。但具體采用哪一個,應根據(jù)題分、總分的數(shù)據(jù)形式而定。 (2)高低分組法 被試在測驗分數(shù)序列中兩端高分、低分組被認為是兩個極端效標組。這兩個極端效標組間在特定題目上的反應差別程度可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論