基于IRT的數學試卷分析

上傳人：文*** IP屬地：海南上傳時間：2022-07-08 格式：DOCX 頁數：59 大?。?97.46KB 積分：12 舉報 版權申訴

已閱讀5頁，還剩54頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、碩士學位論文碩士學位論文基于IRT的數學試卷分析考試招生制度是國家基本教育制度?？荚囋趦热莘矫?，科學設計命題內容，增強基礎性、綜合性，著重考查學生獨立思考和運用所學巧識分析問題、解決問題的能力是非常必要的；在評價方面，單一的分數報告無法多層次反映學生的學習成果，因此要進一步加強考試作為評價手段的作用。本論文是對試卷進行深層次挖掘，進而對學生能力進行評價。其中以西藏大學工學院的高等數學成績及試卷為例進行分析，運用的方法是項目反應理論，得出學生的數學能力，分析試卷的信效度，對難度，區(qū)分度等參數進行估計，得出試卷的整體效果與學生的能力，最后發(fā)放問卷進行分析。項目反應理論是依據一定的數

2、學模型，用項目特征參數估計潛在特征的一種測量理論，我們運用這種理論，以藏大學工學院學生的高等數學成績?yōu)槔?，運用項目反應理論中的雙參數模型，對難度、區(qū)分度等參數進行估計。得出以下結論：（1）試卷信度為42. 6,標準為 25,說明試卷信度良好；（2）難度、區(qū)分度參數估計都在（-3,3）之間，符合項目反應理論的要求。區(qū)分度的值大體上都比較良好，但是由個別題的區(qū)分度較低，例如33、34、36題，區(qū)分度都較低，只有0.3左右；難度的值大體上呈上升趨勢，滿足試題由簡單到復雜的過程。填空題與判斷題都是在考察基礎知識，基本技能，其難度低于計算題與應用題，且計算題與應用題難度都是由低到高，越到

3、后面難度越大，學生作對的概率越低，但是其中有個別題目通過率不符合常理，難度較低，通過率也較低，例如25、34題。（3）利用項目反應理論模型估計出學生的數學能力值，學生能力值分布在區(qū)間（-2. 8334, 2. 3726）之間,項目反應理論中對能力值要求在范圍（-3,3）之間，符合要求，學生能力在（-1, 0）范圍的人數最多為46人, 占總人數的43%左右，在（0, 1）范圍的人數為29,占總人數的27% 左右，說明這個專業(yè)的學生能力在中等偏下。（4）對工學院高等數學考試的同學進行問卷發(fā)放，并且回收。整份問卷的Cronbachalpha 系數信度為0.856,較為良好，同時各個維度的信

4、度都在0.7以上，達到了基本要求；KM0系數為0. 744, P值為0. 000,小于0. 05,因此問卷的結構設計較為良好。（5）問卷分析得出，影響學生數學能力的因素主要有三方面：1.學校氣氛，2.數學學習策略和表現，3. 知識點學習情況。通過問卷發(fā)現：1.在平時師生相處中，認為老師不夠關心他們，在學生遇到困難的時候也沒有及時給予幫助，這些方面需要老師和學生的共同努力。2.學生對于數學的學習不是特別積極，也沒有運用一些有效的策略，在考試中也沒有和同學一起競爭的想法。3.學生對于概念掌握的不夠好，例題可以聽懂做對，但是沒有達到舉一反三的效果。最后，本研究針對學生出現的一些問題提

5、出相應的建議，以及對本研究的創(chuàng)新之處與不足之處的概括。關鍵詞：西藏大學，試卷，項目反應理論ABSTRACTExamination enrollment rule is the national basic education rule.In terms of content, it is necessary to scientifically design proposition content, strengthen the foundation and comprehensiveness, and fbcus on examining students1 ability to think

6、 independently and use their knowledge to analyze and solve problems. In terms of evaluation, a single score report can not reflect students1 learning results at multiple levels, so the role of examination as an evaluation means should be further strengthened.This paper is to dig the test paper in d

7、epth, and then evaluate the students1 ability.Taking the higher mathematics achievements and test papers of Tibet University Institute of Technology as an example, this paper uses the project response theory to get the students1 mathematical ability, analyze the reliability and validity of the test

8、papers, estimate the difficulty, discrimination and other parameters, get the overall effect of the test papers and students1 ability, and finally issue questionnaires for analysis.Item response theory is a measurement theory that estimates potential characteristics with item characteristic paramete

9、rs based on a certain mathematical model. We use this theory to estimate the difficulty, discrimination and other parameters using the two-parameter model of Item Response Theory, taking the higher mathematics achievement of students of Tibetan University of Technology as an example.The following co

10、nclusions are drawn: (1) the reliability of the test paper is 42.6 and the standard is 25, which indicates that the reliability of the test paper is good; (2) the estimation of difficulty and discrimination parameters are between (-3,3), which meets the requirements of the item response theory.The v

11、alue of discrimination degree is generally good, but the difference degree from individual questions is low, such as 33, 34, 36 questions, the difference degree is low, only about 0.3; the value of difficulty is generally on the rise, to meet the test from simple to complex process.Both the filling-

12、in and judgment questions are in the examination of basic knowledge and basic skills. Their difficulty is lower than that of calculation and application questions. Moreover, the difficulty of calculation and application questions is from low to high. The more difficult they are, the lower the probab

13、ility of students1 correct work. However, the passing rate of some individual questions is not in line with common sense, the difficulty is lower, and the passing rate is also lower, such as 25 and 34 questions.(3) Estimate the students1 mathematical ability value by using the project response theor

14、y model. The students1 ability value distributes in the area (-2.8334, 2.3726). The ability value in the project response theory is in the range (-3, 3). It meets the requirements. The number of students whose ability is in the range (-1,0) is 46, accounting fbr 43% of the total number, and the numb

15、er in the range of (0, 1) is 29, accounting for the total. About 27% of the students show that the ability of the students in this major is on the low side.(4) Questionnaires were sent out to the students in the higher mathematics examination of the Polytechnic College and recycled. The Cronbach a r

16、eliability of the whole questionnaire is 0.856, which is fairly good. At the same time, the reliability of each dimension is above 0.7, which meets the basic requirements. The KMO coefficient is 0.744, the P value is 0.000, which is less than 0.05, so the structure design of the questionnaire is rel

17、atively good.(5) Questionnaire analysis shows that there are three main factors affecting students1 mathematical ability: 1. School atmosphere, 2. Mathematics learning strategies and performance, 3. Knowledge point learning. Through questionnaires found that: 1. In peacetime, teachers do not care en

18、ough about them and do not give timely help when students encounter difficulties. These aspects need the joint efforts of teachers and students.2. Students are not particularly active in mathematics learning, nor do they use some effective strategies, nor do they have the idea of competing with thei

19、r classmates in the examination. 3. Students are not good enough at mastering concepts. Examples can be understood and done correctly, but they have not achieved the effect of drawing inferences from inferences.Finally, this study puts forward some correspondingsuggestions fbr students1 problems, an

20、d summarizes the innovation and shortcomings of this study.Key words: University of Tibet, test paper, Item Response Theory目錄摘要 TOC o 1-5 h z HYPERLINK l bookmark4 o Current Document h ABSTRACTIll HYPERLINK l bookmark18 o Current Document h 第一章緒論1 HYPERLINK l bookmark21 o Current Document h 1 - 1問題白

21、勺提出1 HYPERLINK l bookmark24 o Current Document h 1.2文獻綜述21.2.1國外文獻綜述21.2.2國內研究現狀3 HYPERLINK l bookmark27 o Current Document h 1.3研究的意義51理論意義51.3.2實踐意義5 HYPERLINK l bookmark30 o Current Document h 1.4研究的框架和方法51研究的框架51.4.2研究的方法6 HYPERLINK l bookmark33 o Current Document h 1.5研究的對象6 HYPERLINK l bookmar

22、k42 o Current Document h 第二章理論知識與相關概念界定7 HYPERLINK l bookmark45 o Current Document h 2. 1經典測驗理論72.1.1經典測驗理論的基本假設72. 1.2經典測驗理論的優(yōu)勢與不足7 HYPERLINK l bookmark49 o Current Document h 2. 2項目反應理論82.2. 1項目反應理論的基本假設82.2.2項目反應理論基本模型92.2.3項目反應理論的參數112.2.4項目反應理論的優(yōu)點13 HYPERLINK l bookmark69 o Current Document h

23、3相關概念界定14 HYPERLINK l bookmark77 o Current Document h 第三章項目反應模型的參數估計15 HYPERLINK l bookmark80 o Current Document h 1參數估計的基本概念15 HYPERLINK l bookmark84 o Current Document h 3. 2極大似然估計15 HYPERLINK l bookmark92 o Current Document h 3.3牛頓一拉夫遜迭代16 HYPERLINK l bookmark102 o Current Document h 4聯合極大似然估計17

24、 HYPERLINK l bookmark109 o Current Document h 第四章數據分析21 HYPERLINK l bookmark112 o Current Document h 4.1試卷分析的過程簡介21 HYPERLINK l bookmark116 o Current Document h 2 試卷分析224. 2. 1參數估計與項目特征曲線圖224.2.2測驗信息函數254.2.3 效度264. 2.4學生成績與能力分析274.2.5試卷分析29 HYPERLINK l bookmark125 o Current Document h 4.3分析結果31 HYP

25、ERLINK l bookmark129 o Current Document h 4.4問卷分析31 HYPERLINK l bookmark141 o Current Document h 第五章試卷分析的信息反饋38 HYPERLINK l bookmark144 o Current Document h 5.1試卷信息反饋38 HYPERLINK l bookmark151 o Current Document h 5.2學生能力信息反饋39 HYPERLINK l bookmark157 o Current Document h 3教學信息反饋39 HYPERLINK l book

26、mark164 o Current Document h 第六章結論與展望41 HYPERLINK l bookmark167 o Current Document h 1研究結論41 HYPERLINK l bookmark174 o Current Document h 6.2研究不足與創(chuàng)新之處416. 2. 1不足之處416.2.2創(chuàng)新之處42 HYPERLINK l bookmark181 o Current Document h 6.3研究展望42 HYPERLINK l bookmark185 o Current Document h 參考文獻：43附錄一45 HYPERLINK

27、l bookmark239 o Current Document h 附錄二47附錄三50 HYPERLINK l bookmark256 o Current Document h 致謝51第一章緒論1 - 1問題的提出考試招生制度是國家的基礎教育制度。2014年國務院發(fā)布的關于深化考試招生制度改革的實施意見提出，建設具有中國特色的現代教育考試體系。拉長學習天橋，連接各級各類教育，識別各種學習成果。這一意見主要是完善考試評價制度和招生制度。本研究主要圍繞考試評價體系進行研究。在考試中，加強命題內容的科學設計，強調學生獨立思考的能力；在內容上，使用單一分數報告不能反映學生能力。因此應進

28、一步加強考試作為評價手段的作用，想要提供詳細的診斷信息。所以，在考試的基礎上對學生的能力進行診斷是十分必要的。教育測量與評價是教育研究的重要手段。在教育診斷、評價等方面發(fā)揮著非常重要的作用。在教育過程中，教師和學生都希望對學生的知識、概念、技能和策略有更多的了解，從而促進基于這些信息的教學。如果我們能在成績的基礎上對學生的知識和能力做出進一步的診斷，就可以為學生、教師和學校提供更多的反饋信息，提高學生的學習和教師的教學質量。這種現象在大型考試中尤為突出 tnO在西藏，由于地理位置和特殊環(huán)境的限制，考試評價體系沒有得到足夠的重視。眾所周知，西藏的數學教育相對落后，主要表現在三個方面：

29、一是學生自身缺乏積極性對于學習數學，基礎相對較差。因為基礎差，不能跟上老師的節(jié)奏，那么學習數學的興趣自然就不高了；小學沒有基礎知識，初中就不能跟上學習的進度，它會越來越差。二是教學方法落后，藏族教育仍處于死記硬背的狀態(tài)。這種傳統(tǒng)的教學模式顯然不適應現代教育的發(fā)展。在西藏，這種傳統(tǒng)的教學模式仍然很普遍。教師沒有意識到學生的主要地位。在教學過程中，學生不應盲目參與教學。我們應該把教學和學習結合起來。第三，由于西藏特殊的環(huán)境，大部分地區(qū)是農牧區(qū)。在這里，人們講藏語，使孩子在出生時接觸藏語，而不是漢語，這對他們的學習非常不利。因此針對西藏數學教育的缺點，認為對西藏的考試進行評價更為重要

30、。本研究對西藏大學工學院高等數學試卷進行質量分析和考生的作答表現分析，過去人們常常用經典測驗理論。經典測驗理論在指導實踐的過程中暴露了許多缺點，如理論操作很難實際界定和操作、參數依賴樣本、項目特性與被試特性之間沒有建立內在的聯系等等。而項目反應理論則很好的解決了這些問題，因此在指導研究實踐中具有更強的生命力。1.2文獻綜述1.2.1國外文獻綜述早期歐關許多國家的學校教育考試，大多使用口頭測試，直到1720年英國劍橋大學才開始使用筆試。后來，法國比內智力測驗研究等對教育測量學科的誕生有很大的作用。20世紀40年代的智力測驗運動及其爭議導致了經典測驗理論的發(fā)展。許多常見的結構，如真

31、實分數、可靠性和有效性，都源于斯皮爾曼為智力理論提供數學基礎的工作。由于主導統(tǒng)計理論是皮爾遜統(tǒng)計學，經典測驗理論在很大程度上依賴于相關概念。后來，洛德和諾維克用現代數理統(tǒng)計重新提出了理論的基本結構。該理論的基本要素是考試成績，項目及其特征在理論結構中起著次要作用。多年來，心理測量理論家和實踐者一直對項目角色和測試分數之間的不連續(xù)性感到不滿。直觀地說，測試理論應該從組成測試的項目的特征開始，而不是從獲得的分數開始。這種基于項目的測試理論的起源可以從Binet和Simon的作品中看出，他們使用表格來表達正確答案與時間和年齡的比例之間的功能關系，并將項日放入他們的智力測試中。Telm

32、an使用相同的信息繪制了兩個變量的曲線。多年來，項目特征曲線法一直被簡單地視為一種可替代的項目分析技術。勞里的工作標志著基于測試項目的測試理論的開始。在一篇值得注意的論文中，勞里演示了如何獲得項目特征曲線參數的最大似然估計，根據測試項目定義了真實分數，并表明經典的可靠性系數也可以表示為這些項目參數的函數。所以過去直觀的理解已經不復存在了。羅德(1952)是勞里工作的主要延伸。他指出，許多附加的經典測驗理論結構可以表示為試驗項目特性曲線參數的函數。在他們的工作中，他們建立了項目反應理論(IRT)心理測量理論的基本概念。在20世紀70年代，項目反應理論成為計量專家研究的主導話題。事實

33、上，術語“項目特性曲線是項目反應理論的主要概念之一，可以歸因于1946年的 Ledyard Tucker 71 o當真分數理論迅速發(fā)展并引起主要心理測量學家的注意時, 其公式中固有的問題和弱點開始引起關注。諸如項目參數在整個考生群體中缺乏不變性，以及經典測試程序不足以檢測項目偏倚或為“量身定做的測試”中的測量提供良好的基礎，這些問題引起了項目反應理論的重新興起。我們現在知道，項目反應理論的發(fā)展是由弗雷德里克洛德通過他的開創(chuàng)性著作項目反應理論應用提供的。由于題目的數學復雜性和不存在計算機程序，五十年代的進展非常緩慢。教育測量雜志和應用心理測量專門刊登了項目反應理論及應用，至此項目反

34、應理論有了很大的成就。近幾年，有很多國外的研究者在這方面有很多建樹。例如：Kean和Reilly 的Item Response Theory主要講述了 IRT在臨床醫(yī)學中的應用Pemstein的Evaluating and Improving Item Response Theory Models for Cross-NationalExpert Surveys就說到了 IRT跨國家的觀察與評價Andersson和Wiberg的Item response theory observed-score kernel equating 中論述了項日反應理論的觀測分數和等值法具有較小的標準誤

35、差與等值偏差川?？梢钥闯鰢獾脑S多文章不僅對IRT的應用進行研究，而且深入到它本身，研究數學含義，公式等等，而國內對于IRT本身的研究就比較少，都是運用IRT進行編制試題庫，缺少對其含義的研究。1.2.2國內研究現狀考試是人類社會步入強制性腦體分工階段的產物。約公元前2000年，中土治國者以考、察、比、試等實踐方式選拔人才。漢文帝用對策選賢良方正，成為考試之濫觴（開始或起源之意）。隨之，董仲舒首創(chuàng)了考試的概念。人類歷史上第一個考試制度以隋大業(yè)元年（公元605年）由進士科取代察舉科為標志。十六世紀，中國考試制度傳至西方，十九世紀，英國建立了文官考試制度。二十世紀以來，考試隨著社會

36、的發(fā)展得到廣泛的應用。20世紀初，隨著智力測驗的蓬勃發(fā)展，用于指導測驗編制的理論一經典測量理論（Classical Test Theory, CTT）開始得到發(fā)展，在這個階段，大家關注的是被試在測驗上的總分，至于被試在每個具體項目上的表現并沒有得到足夠的重視1220世紀80年代末，許多學校和輔導機構都進行了基于項目反應理論的試題編制和題庫的建設?，F代應用項目反應的例子，如現在的計算機等級、大學英語四六級考試。基于項目反應理論的試題編制和題庫建設，需要專業(yè)的IRT分析軟件，在國內走在前沿的是江西師范大學，他們自己研發(fā)了國內第一個項目反應理圖1-1從1988到2017的文獻發(fā)表量從圖中我

37、們可以看出20世紀以前，對于項目反應理論在考試中的發(fā)展非常緩慢，到2004年開始急速發(fā)展，到2008年達到頂峰，發(fā)表的文獻量達到了 100 篇,至此之后開始處于發(fā)展的平緩階段，從2007年到2017年的十年之間，基本上都在100篇左右。在國內，項目反應理論在考試方面的應用一般是以下兩方面：一是計算機自適應測驗方面的應用。例如：李映紅的小學學業(yè)成就評價方法探新一項目反應理論(IRT)指導下的計算機自適應測驗(CAT)，就是根據小學學業(yè)評價的現狀, 對經典和項目反應理論進行比較，提出IRT指導下的自算計自適應測驗在小學中是可行的屯；曾塵，翟玉慶的基于項目反應理論的自適應考試系統(tǒng)、張墨的

38、項目反應理論與計算機化自適應考試研究、劉鋒，郭維威的基于項目反應理論的計算機自適應測試算法的研究與實現等等，都是用項目反應理論對自適應考試的分析研究13H14H15：o二是在一些大型考試中的應用，例如：何立新的基于項目反應理論的大學英語分級測試題庫建設，其中就主要講述了大學英語分級測試題庫的建設們；龔利的項目反應理論在考試系統(tǒng)試題庫中的應用、盧榮偉的項目反應理論在大規(guī)?？荚囋囶}分析中的應用、徐爽的基于項目反應理論的CET4閱讀理解試題質量評價等等，都是對大規(guī)模試題的研究，有大學生英語考試等17H18H19O1.3研究的意義1- 3. 1理論意義本研究通過運用具有很多優(yōu)勢的項目反應

39、理論，為教師和學生提供更加詳細和準確的試卷質量和能力水平的分析。本研究利用項目反應理論的科學性，豐富我國關于項目反應理論在西藏的研究，推動項目反應理論在考試中的發(fā)展。 1.3.2實踐意義我國考試測評體系發(fā)展至今仍有瓶頸始終沒有突破。課程設置、教學理念和培養(yǎng)方式都圍繞“升學”這一話題，過多關注學生成績。本次研究就是希望讓學校和家長兩方，不再過多關注學生的成績，而是重視學生本身的發(fā)展。希望能夠對西藏大學學生進行“因材施教”，充分照顧到每一位學生。通過此次研究可以給西藏大學和數學教師一些啟發(fā)和建議，促進相關教學工作的開展。1.4研究的框架和方法1.4. 1研究的框架1.4.2研究的方法本

40、研究運用了文獻法和問卷法兩種研究方法。通過文獻法，對國內外的研究進行綜述，對西藏大學工學院高等數學試卷進行分析。運用項目反應理論，分析出試卷的質量和學生的數學能力水平，然后通過問卷法，對影響學生數學能力高低的因素進行分析。最后了解學校的實際情況，結合學生的調查問卷，總結出影響學生能力的因素。1.5研究的對象本次以西藏大學工學院為例展開研究，主要對高等數學考試的兩方面進行研究，一是對西藏大學工學院高等數學試卷進行分析，分析試卷的質量，主要的參數有：信度、效度、難度、區(qū)分度；二是對西藏大學工學院學生的數學能力進行分析，給出西藏大學工學院學生的數學能力分布，然后分析影響學生數學能力的

41、因素有哪些。第二章理論知識與相關概念界定1經典測驗理論經典測驗理論（Classical Test Theory, CTT）又稱“真分數理論，是最早實現數學形式化的測量理論。二十世紀三十年代，它形成了一個相對完整的體系，并逐漸成熟。格里克森在20世紀50年代的作品給了它一套完整的數學理論。1968 年，洛德和諾維克的心理測驗成績統(tǒng)計理論發(fā)展到了頂峰，實現了對現代測量理論的轉變。在經典測驗理論中，所謂的真實分數是指被試所測量的特質（如能力、知識、人格等）的真實價值，即真實分數。我們使用一些工具（如測試尺和測量儀器）獲得的值，即觀察值。由于測量誤差的存在，觀測值不等于被測性狀的真實值。換

42、句話說，觀察值包含真實分數和誤差分數。經典測驗理論是把一個測試的分數看作是真實分數和測量誤差的線性組合。它的數學表達式為：X = T + 其中X 是觀測值，了是真分數，e表示測量誤差網。2.1.1經典測驗理論的基本假設根據該公式，我們可以推導出三個關聯的公理：首先，誤差是完全隨機的，它代表一個具有零測量誤差均值的正態(tài)隨機變量。在許多測量中，有正誤差和負誤差。如果測量誤差為正，則觀測分數將高于其實際分數（真分數）；如果測量誤差為負，則觀測分數將低于其實際分數，即觀測分數將上下波動。然而，只要重復測量次數足夠，正負偏差將被抵消，平均測量誤差為零。其次，真實分數和測量誤差是相互獨立的。第三

43、，每個平行測試的誤差相關性為零。經典測量理論是在真分數理論假設的基礎上建立起來的，包括可靠性、有效性、項目分析等基本概念逐。2. 1.2經典測驗理論的優(yōu)勢與不足隨著經典測驗理論的發(fā)展，仍有一些學者使用它，這表明它具有優(yōu)勢。其主要優(yōu)點如下：1 .容易理解和操作是基于一個相對簡單的數學模型，它更直觀，更容易理解和接受，更容易計算和推廣。2.其完整的系統(tǒng)易于實現，數學表達式相對簡單：理論假設薄弱，實現條件不嚴格，易于實現，在實踐中具有廣泛的適用性。3.實用性強。在大多數情況下，由于誤差可以有效地控制在一定范圍內，經典的測試理論可以被認為是準確的，可以安全地使用。研究表明，對于大多數的測量

44、數據，經典測驗理論仍然可以用于分析。隨著教育測量學的不斷發(fā)展，經典考試理論也有其不足之處，1.真實分數和觀察分數之間的線性關系不真實。在數學表達式中，真分數、觀測分數和誤差簡單地用一個簡單的線性加法表示。然而，大量的實驗表明它們之間的關系更符合非線性關系。2.受試者的能力取決于試題的難度。在試卷中，難度的分布基本上是簡單的, 難度較小，大部分是中等的。但這對中學生有好處。對于能力高低的學生，不可能做出準確的估計。只有當測驗的難度與每個受試者的能力相匹配時，才能使測驗的有效性最大化。這就是“因人而異”的問題。經典測驗理論并不能解決這個問題，所以我們不能比較兩個不同難度的測試。3.試

45、驗參數對樣品有很大的依賴性。在經典測試理論中，最重要的四個參數是可靠性、有效性、難度和判別性。這些參數對樣品有很大的依賴性。例如：難度，如果樣本總體水平較高，則估計難度較大的值，反之亦然次。2項目反應理論基于經典測驗理論的缺陷，項目反應理論（Item Response Theory, IRT）是在反對和克服經典測驗理論缺陷的過程中發(fā)展起來的一種現代測量理論。它是基于數學模型，用項目特性參數估計潛在特性的測量理論。2.2.1項目反應理論的基本假設第一，單維假設。這意味著測試只測量受試者的一種能力（如計算能力），而忽略了其他能力（如閱讀能力）對測試結果的影響。也就是說，被調查者對測試

46、結果的反應只受一個能力水平的控制，而不受其他能力水平的控制。也正是由于這個假設，項目反應理論受到了反對者的攻擊，因為很明顯，在測試實踐中很難完全滿足一維假設。第二，局部獨立。實際上，這和一維假設是一樣的。這意味著受試者對測試中不同問題的回答在統(tǒng)計學上是獨立的。也就是說，受試者在試驗中的正確反應概率并不取決于其他受試者的正確反應概率。第三，項目特征曲線形成的假設。這主要是指受試者對物品的反應概率遵循一定的函數關系,可以用物品特征曲線的形式表不O2.2.2項目反應理論基本模型用平滑的項目特征曲線來擬合被試的原始正確答案比例是很容易的。然而，如果能用一個合適的數學函數來擬合項目特征曲線，

47、將極大地促進項目與主題之間關系的深入分析和計算。幾乎所有的項目特征曲線都可以用一個相似的累積分布函數來擬合。累積正態(tài)分布函數和累積邏輯斯蒂分布函數是擬合特性曲線最常用的函數形式。根據評分方法的不同，將項目反應模型分為二值（0, 1）評分模型和多值評分模型。在試卷分析中，選擇題采用二值（0, 1）評分模型。目前，logistic模型被普遍采用。許多非選擇問題，如解答題，說明題等，都采用多值評分模型，常見的問題是等級反應模型。本文主要介紹了二值評分模型中的雙參數logistic模型和多值評分模型中的等級反應模型。（1）二值評分模型：logistic模型正態(tài)肩形模型從理論上建立了項目反

48、應理論初始模型的基本形式，但由于模型中采用了積分函數，因此估計和使用實際參數非常不方便。1958年，Birnbaum 將其改成了 logistic模型的形式：單參數模型（1PM）： = + *）（2-1）雙參數模型（2PM）： J 廠）（2-2）三參數模型（3PM）： 4（。）*+（1 （2-3）項日特征函數也稱項日特征曲線（Item Characteristic Curve,簡稱ICC）,是一種根據測試所獲得的考生能力參數和項目特征參數來表示考生可能答對率（成功率）的數學表示方法，如下圖，典型的項目特征曲線圖：上漸近線Pi但)圖2-1項目特征曲線圖這是一個三參數logistic模型的曲

49、線圖，它的數學模型表達式為:(24)其中，4（。）是能力水平為。的考生在項目，上的答對概率，弓是項目z的猜測系數（偽機遇參數），理論上可以取0,1,但是，在實際中，常常低于0.5；九項目z的難度，理論上可以?。?8,+8）,典型值在-3,3之間；是項目z的區(qū)分度，理論上可以?。?8,+8）,典型值在-2. 8, 2. 8之間；。一般為常數, 大量證明表示取1.7時，它的概率密度與正態(tài)肩形曲線的差異小于0. Olo從上圖中可以看出：（1）在一條ICC中，等于曲線在拐點處的。值。當猜測參數cz=0 （曲線的下漸近線為。時），次等于月泌）=0.5時的。值，因為對一條完整的ICC,拐點恰好

50、是曲線的中點和對稱點；當烏0時，4（e）= （l + c）/2。（2）在一條ICC中，/的大小決定在拐點處的陡度。/很大時，在附近能力。的增加會導致正確反應概率4很快增長；/很小時，在附近能力。的等量增加不會導致正確反應概率（6）有明顯的增長。（3）特征曲線的截距，表示題目的猜測參數，它的值越大，說明無論被試能力高低，都容易猜對本道題目。（2）等級反應模型1969年，關國學者Samejima提出了多值評分模型中使用最廣泛的IRT模型，該模型假定每個項目只有一個判別度、多個難度級別，并且每個級別的難度值嚴格按照單調遞增的方式。若項目z的滿分值為s,（s,21），且項目，有1個評分點，即0

51、,12.s,該項目有弟個難度等級且單調遞增，即們bl2bl3. 如,，記能力為。的被試在項目z上的得分恰好為的概率4,（。），F（。）為具有能力。的被試在項目，上的得分在，或之上的概率，則有：p%e）=pe）-pe）（2-5）在項目z中，令所有得分在或，以上的被試為”通過”，記為1分；得分小于的被試為不通過”，記為。分。與（6）表示了題目的等級反應運算特征函數，同樣，我們也可以繪制相應的曲線圖，稱為等級反應運算特征曲線。借用二值2PM函數模型，我們可以把等級反應運算特征函數寫為：4（）=i + e-L（f）（2-6）式子中表示被試得分等級，名表示題目z的區(qū)分度，表示題目z的第等級的

52、難度拓。2.2.3項目反應理論的參數只要是測量，就會有誤差，項目反應理論也不例外。測量誤差是檢測質量的關鍵指標。測量誤差分為系統(tǒng)和隨機誤差兩大類。測量的系統(tǒng)誤差是指測量結果與測量對象的系統(tǒng)偏差；測量的隨機誤差是指測量結果的隨機性與真實值的偏差，而隨機性的偏差是指我們不能預先知道各種因素對測量結果的影響，測量結果不穩(wěn)定，不一致。（1）信度可靠性指標一般是測量結果受隨機因素影響程度的指標。影響測量可靠性的因素主要有三個方面：一是測量的情境因素，如時間、地點、評分者等可能影響受試者反應的環(huán)境因素；二是受試者自身的因素，如心理狀態(tài)和身體狀態(tài)；三是量具本身的質量，如量具名稱的質量指標、模棱

53、兩可的問題、模棱兩可的答案和評分規(guī)則等。然后它就模糊了，量具是隨意制造的?？煽啃灾饕P系到測量結果的穩(wěn)定性和一致性。高可靠性是測量的必要條件，是測量質量的必要保證。效度一般用效度作為測量結果系統(tǒng)性的偏離目標的程度指標，影響測量效度的因素主要是測量工具本身的內容及編制過程。難度難度參數一般對應著正確作答該項目的概率為0. 5的能力點，也就是項目特征曲線的中間點落在能力量尺上的位置，認知測量中，許多作者也稱為位置參數。區(qū)分度區(qū)分度參數表示該項目在拐點附近清楚的區(qū)分不同能力水平被試的能力。猜測系數猜測系數反映了能力水平趨于負無窮時的漸近正確作答概率。測量標準誤信度與測量中的各種隨機誤差因素相

54、關聯，信度越高，意味著測驗結果受到時間間隔等隨機誤差影響程度較小。因此，在項目反應理論中，關于信度與測量的隨機誤差之間有以下關系式：酩(6) = 丁_(2-7)統(tǒng)計量SE叫做測量標準誤，4為項日信息函數。信息量與信息函數統(tǒng)計學中的信息量概念指的是信息的確定性程度，或者是認識事物時被消除的不確定性的大小。項目反應理論借用信息量概念來表示：項目或測驗在評價被試特質水平狀態(tài) 時所提供的信息確定性水平。項目反應理論把信度和信息量的概念定義到了單個題目和單個被試的水平上，因此，對于評價不同題目對測量被試水平的信息貢獻量，以及評價各個被試的測量結果是否可信，項目反應理論具有更大的優(yōu)勢。項目與測驗

55、信息函數的定義項目反應理論在評價被試特質水平時貢獻的信息量大小關系定義為:項=嘉施=忠（律伊）(28)這個就是項目反應理論中的項目信息函數。日泌）為項目z的被試反應函數, p （6）為項目反應函數對0的一階導函數。該函數也就是著名的Fisher信息函數。根據信度與信息量之間的關系，我們也就可以這樣理解，上式就是在項目反應理論框架下，單個項目在單個被試水平上所定義的信度概念。也可以看出，在同一個項目上，不同能力水平值所求出的項目信息量是不一樣的。當然，我們同樣可以在整個測驗的水平上定義針對評價單個被試的信度概念，這就是測驗信息函數，其實，測驗信息函數就是測驗所含項目的信息函數的累加，即：

56、/（e）= EU（e）（2-9）所以，項目信息函數是可以累加的，測驗總信息量可以通過增加單個項目信息量來增大，或者通過增加項目數量來增大盜。2.2.4項目反應理論的優(yōu)點項目反應理論的優(yōu)點也并不是只有理論部分，在實踐過程中，有許多學者做了兩個理論的比較，得出下面的結果，例如：閆成海，杜文久,宋乃慶，張健寫的高考數學中考試評價的研究一基于CTT與IRT的實證比較中就主要對兩種理論進行比較，得出三個結論：（1）對項目參數來說，IRT得出的估計值更加精確；（2） IRT框架下，它的信度更加精確（3） IRT對編制測驗有指導作用。陳謹，何靜，佟仁城，許健寫的英語標準化考試評價中IRT與CTT

57、的比較研究中得到三個結論：（1） IRT參數不變性的特點；（2） IRT模型可以識別對不同能力的考生哪些題目更適用，更具有區(qū)分度，因此可基于該模型的分析結果可以構建分水平的題庫；（3）將調控及分析的結果及時反饋于教學管理，建立測試結果評價報告體制，測試的結果服務于教學管理，并將結果及反饋于教學，為教學提供合理的改進意見的措施，使教與學更具針對性，使教學管理工作更具效率 .生26 27基于上述一些研究者實踐得出的優(yōu)點，結合理論部分，項目反應理論較之于經典測驗理論，有以下一些特征:（1）被試能力參數與項目參數具有不變性的特征參數的不變性是指同一群體（包括題目和受試者）中相同受試者或使用

58、不同樣本估計的相同項目的參數是不變的。（2）被試能力參數與項目參數具有統(tǒng)一的量表在項目反應理論中，受試者的能力參數和難度參數可以放在同一個尺度上進行比較。因為在項目特征曲線中，難度參數通常對應于概率為0.5的能力點，以正確回答項目，因此難度參數可以與能力參數進行比較。例如，在項目反應理論中，進行以下比較是合理的。能力水平為0.8的受試者回答難度值的概率較高，為0. 5,而回答難度值的概率較小。這一層次的受試者最好用0. 8級的難度回答項目，如果太難或太容易的話，這樣就浪費了受試者的時間。（3）可以針對不同的被試精度估計每個項目及測驗的測量誤差在項目反應理論中，可靠性與測量標準誤差成

59、反比關系o在經典測驗理論中，測試只提供一個統(tǒng)一的可靠性指標，這是項目反應理論的一個優(yōu)點。在項目反應理論中，每個參與者和每個項目都提供了獨立的可靠性指標，這樣我們就可以主動控制每個參與者的特質水平的估計誤差，這更有利于指導測試的準備工作。3相關概念界定（1）項目反應理論：它屬于心理學中認知診斷常用的一種理論，即被測試者針對某個問題的答案來對被測者的認知狀況進行估計。其中“項目”指的是試卷中的試題，“反應”指的是被測試者的答案。（2）教育考試：根據教育目標，選擇有代表性的內容，對被試者的知識、技能等進行測量與評價的過程。（3）數學試卷：數學考試運行的實在載體。目前數學試卷分為四種類型：

60、1.診斷性試卷，例如模擬測試卷等；2.評價性試卷，例如期中、期末考試試卷；選拔性試卷，例如高考試卷；4.競賽試卷，例如數學建模競賽試卷。第三章項目反應模型的參數估計1參數估計的基本概念項目反應理論相對于經典測量理論的優(yōu)良特性，是通過其構建的模型表現出來和得到保證的。項目反應理論模型體現的是被試特性與項目特性的組合模式如何影響具體作答反應結果。所以，通過項目反應理論模型，我們可以理解不同被試在不同項目上為什么或有不同的得分，同時，還可以預測不同被試在不同項目上可能的作答結果。不過，要對被試的得分模式作出分析和預測，就必須掌握每個被試的特質水平參數值和項目特性參數值，然后，通過項目反應

人人文庫> 全部分類> 專業(yè)文獻 > 學術論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于IRT的數學試卷分析

文檔簡介

溫馨提示

最新文檔

評論

基于IRT的數學試卷分析

文檔簡介

溫馨提示

最新文檔

評論

相關文檔