心理測量中的數(shù)據(jù)挖掘_第1頁
心理測量中的數(shù)據(jù)挖掘_第2頁
心理測量中的數(shù)據(jù)挖掘_第3頁
心理測量中的數(shù)據(jù)挖掘_第4頁
心理測量中的數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩104頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

心理測量中的數(shù)據(jù)挖掘第一頁,共一百零九頁,編輯于2023年,星期六目錄2013.5數(shù)據(jù)挖掘技術(shù)概述關(guān)聯(lián)規(guī)則2決策樹3來華留學(xué)生跨文化適應(yīng)性測量的數(shù)據(jù)挖掘41第二頁,共一百零九頁,編輯于2023年,星期六

我最喜歡的人之一:戴海琦老師中國心理測量的領(lǐng)軍人物之一。我最害怕的人之一:戴海琦老師我總是跟不上他豪邁的步伐!第三頁,共一百零九頁,編輯于2023年,星期六1、

數(shù)據(jù)挖掘技術(shù)概述

1.1數(shù)據(jù)挖掘概念現(xiàn)代社會(huì),充滿了數(shù)據(jù)但并非所有數(shù)據(jù)都是完全的許多數(shù)據(jù)還受到隨機(jī)因素的影響例如奧巴馬、金正恩、禽流感人們希望從數(shù)據(jù)中找到有規(guī)律的知識(shí)這就是數(shù)據(jù)挖掘。第四頁,共一百零九頁,編輯于2023年,星期六

1989年,從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)(KDD)從大量的、不完全的、有噪聲的數(shù)據(jù)中發(fā)現(xiàn)隱含在數(shù)據(jù)中的關(guān)系,提取具有價(jià)值、能被理解的知識(shí)的過程。第五頁,共一百零九頁,編輯于2023年,星期六

前提條件:數(shù)據(jù)必須是真實(shí)的、大量的、含噪聲的發(fā)現(xiàn)的是研究者感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用。它是針對特定問題的,并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí)。第六頁,共一百零九頁,編輯于2023年,星期六

數(shù)據(jù)挖掘(DataMining)是知識(shí)發(fā)現(xiàn)中最核心的部分,有時(shí)會(huì)不加區(qū)別的使用“數(shù)據(jù)挖掘”和“知識(shí)發(fā)現(xiàn)”這兩個(gè)詞。第七頁,共一百零九頁,編輯于2023年,星期六

數(shù)據(jù)挖掘技術(shù)涉及到人工智能、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、模式識(shí)別、信息檢索等多學(xué)科,是一門交叉性的學(xué)科。第八頁,共一百零九頁,編輯于2023年,星期六

數(shù)據(jù)挖掘的任務(wù):數(shù)據(jù)總結(jié):對數(shù)據(jù)進(jìn)行壓縮;分類和預(yù)測:建立一個(gè)分類函數(shù)或分類模型;發(fā)現(xiàn)關(guān)聯(lián)規(guī)則:從數(shù)據(jù)庫中發(fā)現(xiàn)那些置信度(Confidence)和支持度(Support)都大于給定值的穩(wěn)健(Robust)規(guī)則;第九頁,共一百零九頁,編輯于2023年,星期六

聚類分析:使得屬于同一個(gè)類別的個(gè)體之間的距離盡可能小,而使不同類別個(gè)體之間的距離盡可能大,把一組個(gè)體按照相似性進(jìn)行歸類;以及孤立點(diǎn)分析、演變分析等任務(wù)。第十頁,共一百零九頁,編輯于2023年,星期六

1.2數(shù)據(jù)挖掘的方法(1)分類方法:決策樹前饋神經(jīng)網(wǎng)絡(luò)(BP網(wǎng)絡(luò)、RBF網(wǎng)絡(luò))基于規(guī)則的方法(AQ算法、C4.5rule)支持向量機(jī)貝葉斯分類粗糙集第十一頁,共一百零九頁,編輯于2023年,星期六

(2)聚類方法劃分聚類(k-means算法)層次聚類基于密度的聚類Kohonen聚類(自組織特征映射)第十二頁,共一百零九頁,編輯于2023年,星期六

(3)關(guān)聯(lián)分析頻繁項(xiàng)集挖掘算法(Apriori算法)關(guān)聯(lián)規(guī)則生成算法第十三頁,共一百零九頁,編輯于2023年,星期六

1.3數(shù)據(jù)挖掘過程(1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理及數(shù)據(jù)類型轉(zhuǎn)換其中的數(shù)據(jù)預(yù)處理工作至關(guān)重要,也稱為數(shù)據(jù)清洗,目的是消除或減少噪聲。第十四頁,共一百零九頁,編輯于2023年,星期六

包括數(shù)據(jù)清理、合并、離散化等。數(shù)據(jù)清理主要是刪除重復(fù)記錄的數(shù)據(jù),查找錯(cuò)誤的屬性值,利用均值等方式填補(bǔ)缺失值,識(shí)別和刪除孤立點(diǎn),平滑噪聲數(shù)據(jù)(臟數(shù)據(jù))。第十五頁,共一百零九頁,編輯于2023年,星期六

數(shù)據(jù)離散化主要是將連續(xù)性質(zhì)的屬性值采用區(qū)間的標(biāo)記來替代實(shí)際的數(shù)據(jù)值,即用區(qū)間標(biāo)記替換連續(xù)屬性的數(shù)值。第十六頁,共一百零九頁,編輯于2023年,星期六

(2)選擇算法根據(jù)數(shù)據(jù)挖掘的目的,如數(shù)據(jù)分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等,選擇相應(yīng)的挖掘算法。第十七頁,共一百零九頁,編輯于2023年,星期六

(3)對模式進(jìn)行評(píng)估對于冗余或無關(guān)的模式進(jìn)行剔除;對于不滿足實(shí)際要求的模式,返回到前面的階段,重新選擇數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至變換挖掘算法等。第十八頁,共一百零九頁,編輯于2023年,星期六2、關(guān)聯(lián)規(guī)則為了考察兩個(gè)變量線性相關(guān)的密切程度,通常采用相關(guān)系數(shù)對變量間關(guān)系進(jìn)行度量。關(guān)聯(lián)規(guī)則比相關(guān)系數(shù)能夠得到更多信息,可以量化相互關(guān)系中兩者的出現(xiàn)概率,以及前者出現(xiàn)對后者出現(xiàn)的影響率。第十九頁,共一百零九頁,編輯于2023年,星期六

即一個(gè)事件的出現(xiàn)時(shí),另一事件出現(xiàn)的概率有多大,如果概率較大,則前后兩者的關(guān)系接近因果關(guān)系,因此比相關(guān)分析的結(jié)果更有意義。第二十頁,共一百零九頁,編輯于2023年,星期六

相關(guān)系數(shù)的缺點(diǎn):作為線性關(guān)聯(lián)的度量,不便于描述非線性關(guān)系,且非線性關(guān)系與變量分布有關(guān),計(jì)算方法也不同。第二十一頁,共一百零九頁,編輯于2023年,星期六

對于不同類型的數(shù)據(jù),需要采用不同的相關(guān)系數(shù)。等距變量:Pearson相關(guān)系數(shù);兩個(gè)等級(jí)變量:Spearman相關(guān)系數(shù)多個(gè)等級(jí)變量:Kendall和諧系數(shù)。采用不同方法得到的相關(guān)系數(shù)無法比較,關(guān)聯(lián)規(guī)則可以在一定程度上解決該問題。第二十二頁,共一百零九頁,編輯于2023年,星期六

2.1關(guān)聯(lián)規(guī)則方法的基本概念關(guān)聯(lián)規(guī)則是由Agrawal(1993)提出,最初提出的動(dòng)機(jī)是針對購物籃分析問題,目的是從交易數(shù)據(jù)庫中發(fā)現(xiàn)顧客購物的行為規(guī)則。第二十三頁,共一百零九頁,編輯于2023年,星期六

關(guān)聯(lián)是指兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,關(guān)聯(lián)規(guī)則是描述兩個(gè)或多個(gè)變量之間某種潛在關(guān)系的規(guī)則。第二十四頁,共一百零九頁,編輯于2023年,星期六

實(shí)例:超市每周的交易記錄稱為事務(wù),每一條事務(wù)都記錄了一次交易中所銷售的商品(稱為項(xiàng)目)。因此管理者可了解本周各項(xiàng)目的銷售量,還可發(fā)現(xiàn)哪些項(xiàng)目經(jīng)常被顧客同時(shí)購買。第二十五頁,共一百零九頁,編輯于2023年,星期六表1樣本數(shù)據(jù)D第二十六頁,共一百零九頁,編輯于2023年,星期六

定義:項(xiàng)目全集I={i1,i2,…im

},是本周銷售的所有項(xiàng)目的集合,在本例中,I={啤酒,果凍,面包,奶油,花生醬}。

第二十七頁,共一百零九頁,編輯于2023年,星期六

定義:事務(wù)t是某個(gè)客戶在一次交易中所購項(xiàng)目的集合,并且t

I,在本例中,t1={面包,果凍,花生醬}。對應(yīng)每一個(gè)事務(wù)有唯一的標(biāo)識(shí),記作tid。第二十八頁,共一百零九頁,編輯于2023年,星期六

定義:事務(wù)集(事務(wù)數(shù)據(jù)庫)D={t1,t2,…,tn}是一系列的事務(wù)組成。定義:項(xiàng)目集是包含若干個(gè)項(xiàng)目的集合。定義:項(xiàng)目集維數(shù)是一個(gè)項(xiàng)目集中包含的項(xiàng)目的個(gè)數(shù),也稱為項(xiàng)目集長度。對于長度為k的項(xiàng)目集,稱為k-項(xiàng)目集。第二十九頁,共一百零九頁,編輯于2023年,星期六

支持度(support):設(shè)X是I中的一個(gè)項(xiàng)目集(即X

I),D是一個(gè)事務(wù)集,那么稱D中包含項(xiàng)目集X的事務(wù)個(gè)數(shù)與D中總的事務(wù)個(gè)數(shù)之比稱為X在D中的支持度,記做support(X),support(X)=第三十頁,共一百零九頁,編輯于2023年,星期六

支持度用于發(fā)現(xiàn)頻率出現(xiàn)較大的項(xiàng)目集,即“某個(gè)項(xiàng)目集相對總事務(wù)所占的比重”。在本例中,假設(shè)項(xiàng)目集X={面包,花生醬},則在D中包含X的事務(wù)有t1,t2和t3,因?yàn)镈中總的事務(wù)個(gè)數(shù)為5,故X在D中的支持度為60%。第三十一頁,共一百零九頁,編輯于2023年,星期六

定義:最小支持度(minsup):由用戶定義的可以接受的支持度的閾值。定義:對于項(xiàng)目集X,如果它的支持度不小于最小支持度,則稱X為頻繁項(xiàng)目集。第三十二頁,共一百零九頁,編輯于2023年,星期六

只有從頻繁項(xiàng)目集得到的關(guān)聯(lián)規(guī)則才是有價(jià)值的。在本例中,假設(shè)minsup=40%,項(xiàng)目集X={面包,花生醬}在D中的支持度為60%,因此X是頻繁項(xiàng)目集。第三十三頁,共一百零九頁,編輯于2023年,星期六

置信度(confidence):對于關(guān)聯(lián)規(guī)則X→Y,其中X和Y都是項(xiàng)目集,定義該規(guī)則的置信度為事務(wù)集合D中既包含X也包含Y的事務(wù)個(gè)數(shù)與D中包含X的事務(wù)個(gè)數(shù)之比,即項(xiàng)目集XY的支持度與X的支持度之比。第三十四頁,共一百零九頁,編輯于2023年,星期六

置信度應(yīng)用于在頻繁項(xiàng)目集中發(fā)現(xiàn)頻率較大的規(guī)則。第三十五頁,共一百零九頁,編輯于2023年,星期六

在本例中,項(xiàng)目集X={面包,花生醬}是頻繁項(xiàng)目集,因此可以在其中尋找關(guān)聯(lián)規(guī)則“面包→花生醬”和“花生醬→面包”。第三十六頁,共一百零九頁,編輯于2023年,星期六

對于規(guī)則“面包→花生醬”,Support(XY)=3/5=60%,Support(X)=4/5=80%,于是Confidence(X→Y)=60%/80%=6/8=3/4=0.75%,它表示這條規(guī)則的可信度,即“買面包的顧客中有75%同時(shí)也買了花生醬”。第三十七頁,共一百零九頁,編輯于2023年,星期六

對于規(guī)則“花生醬→面包”,Support(XY)=3/5=60%,Support(X)=3/5=60%,Confidence(X→Y)=60%/60%=100%,它表示這條規(guī)則的可信度,即“買花生醬的顧客中100%同時(shí)也買了面包”。第三十八頁,共一百零九頁,編輯于2023年,星期六

最小置信度:用戶定義的一個(gè)置信度閾值,表示對于規(guī)則可以接受的最低可靠性。第三十九頁,共一百零九頁,編輯于2023年,星期六

給定一個(gè)事務(wù)集D,挖掘關(guān)聯(lián)規(guī)則就是產(chǎn)生支持度和置信度分別大于用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。支持度用于衡量關(guān)聯(lián)規(guī)則在整個(gè)數(shù)據(jù)集中的統(tǒng)計(jì)重要性,置信度用于衡量關(guān)聯(lián)規(guī)則的可信度。第四十頁,共一百零九頁,編輯于2023年,星期六

2.2關(guān)聯(lián)規(guī)則挖掘過程(1)挖掘頻繁項(xiàng)目集依據(jù)用戶給定的最小支持度,尋找所有的頻繁項(xiàng)目集。第四十一頁,共一百零九頁,編輯于2023年,星期六

(2)生成關(guān)聯(lián)規(guī)則使用頻繁項(xiàng)目集生成置信度大于等于最小置信度的關(guān)聯(lián)規(guī)則。上述步驟(2)比較簡單,而步驟(1)是一個(gè)NP問題,當(dāng)項(xiàng)目數(shù)量較大時(shí),要窮盡地搜索每一個(gè)頻繁子集,是非常困難的問題,因此提出了許多算法。第四十二頁,共一百零九頁,編輯于2023年,星期六

2.3頻繁項(xiàng)集挖掘算法

Apriori算法:Agrawal(1994)提出,它使用寬度優(yōu)先的迭代搜索方法。第四十三頁,共一百零九頁,編輯于2023年,星期六

首先是統(tǒng)計(jì)所有含一個(gè)元素的項(xiàng)集出現(xiàn)的頻率,找出頻繁1-項(xiàng)集集合F1,再用F1找頻繁2-項(xiàng)集集合F2,再用F2找F3,依次循環(huán),直到不能找到頻繁k-項(xiàng)集為止。第四十四頁,共一百零九頁,編輯于2023年,星期六

算法的核心部分是apriori_gen(Fk-1)函數(shù),該函數(shù)的輸入?yún)?shù)為(k-1)-項(xiàng)集集合Fk-1,輸出結(jié)果為候選k-項(xiàng)集集合Ck。掃描數(shù)據(jù)庫并計(jì)算Ck中候選k-項(xiàng)集的支持度。第四十五頁,共一百零九頁,編輯于2023年,星期六3、

決策樹3.1數(shù)據(jù)分類數(shù)據(jù)分類是從過去已分類的數(shù)據(jù)經(jīng)驗(yàn)中學(xué)習(xí)各個(gè)類別的區(qū)別,建立模型,或者對未知類別的數(shù)據(jù)進(jìn)行分類。決策樹是一種重要的分類方法。第四十六頁,共一百零九頁,編輯于2023年,星期六

3.2.1決策樹的概念決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,采用自頂而下的遞歸方式,從根結(jié)點(diǎn)的每一條路徑就是一條合取規(guī)則,整個(gè)決策樹就是一組析取表達(dá)式規(guī)則。第四十七頁,共一百零九頁,編輯于2023年,星期六

決策樹由決策結(jié)點(diǎn)、分支和葉子組成,以樹型結(jié)構(gòu)(二叉樹或多分支樹)表示最終分類結(jié)果,生成If-Then形式的規(guī)則。其中葉結(jié)點(diǎn)是類名,中間結(jié)點(diǎn)是帶有分支的屬性,該分支對應(yīng)該屬性的某一可能值。第四十八頁,共一百零九頁,編輯于2023年,星期六

多分支樹

二叉樹第四十九頁,共一百零九頁,編輯于2023年,星期六表2顧客購買計(jì)算機(jī)的數(shù)據(jù)庫第五十頁,共一百零九頁,編輯于2023年,星期六

決策樹的核心思想是根據(jù)對象的屬性值將其進(jìn)行劃分,那么選擇哪一個(gè)屬性進(jìn)行劃分?接著再選擇哪一個(gè)屬性進(jìn)行劃分?因?yàn)槿魏我粋€(gè)屬性都可以用來對數(shù)據(jù)集進(jìn)行劃分,但最后形成的決策樹差異很大,有的非常簡潔,有的卻很臃腫。因此要尋找最優(yōu)的屬性選擇方法。第五十一頁,共一百零九頁,編輯于2023年,星期六

3.2.2分類回歸樹(CART)的構(gòu)造CART(ClassificationandRegressionTree)是一種有監(jiān)督的學(xué)習(xí)算法,在使用CART進(jìn)行預(yù)測之前,必須先提供一個(gè)學(xué)習(xí)樣本集對CART進(jìn)行建構(gòu)和評(píng)估,然后才能使用。第五十二頁,共一百零九頁,編輯于2023年,星期六

樣本集結(jié)構(gòu)如下:L:={X1,X2,…,Xm,Y}X1:=(x11,x

12,…,x1t),…,(xm1,xm2,…,xmt)Y:=(y1,y2,…,yk)其中,X1~Xm

稱為屬性向量,Y

稱為標(biāo)簽向量,屬性可以是連續(xù)的也可以是離散的。

X1~Xm代表心理測量中的自變量,

Y代表因變量。第五十三頁,共一百零九頁,編輯于2023年,星期六

根據(jù)給定的樣本集L構(gòu)建分類決策樹Tmax,使得Tmax中每一個(gè)葉節(jié)點(diǎn)要么很?。灰词羌児?jié)點(diǎn)(節(jié)點(diǎn)內(nèi)部樣本的Y

屬于同一個(gè)類);要么只有唯一屬性向量作為分支選擇。第五十四頁,共一百零九頁,編輯于2023年,星期六

該算法的核心是確定決策樹的分支準(zhǔn)則:如何從眾多的輸入變量中選擇一個(gè)最佳的分組變量;如何從分組變量的眾多取值中找到一個(gè)最佳的分割閾值。第五十五頁,共一百零九頁,編輯于2023年,星期六

該算法引入了差異系數(shù)的概念,即采用Gini系數(shù)計(jì)算從相同的總體中隨機(jī)選擇的兩個(gè)樣本來自于不同類別的概率,它反映了信息的純度。第五十六頁,共一百零九頁,編輯于2023年,星期六

式中:c是數(shù)據(jù)集/子集Dj中決策類的個(gè)數(shù),pi

是第i個(gè)決策類在D中的比例。第五十七頁,共一百零九頁,編輯于2023年,星期六

在本例中,對于數(shù)據(jù)集D,它的Gini系數(shù)為:第五十八頁,共一百零九頁,編輯于2023年,星期六

對于任意一個(gè)屬性,如果將數(shù)據(jù)集劃分成多個(gè)數(shù)據(jù)子集,把未進(jìn)行劃分時(shí)的數(shù)據(jù)集的Gini系數(shù)與劃分后數(shù)據(jù)子集的Gini系數(shù)加權(quán)和的差稱為信息增益G(A):第五十九頁,共一百零九頁,編輯于2023年,星期六

其中,A是候選屬性,k是該屬性的分支數(shù);D是未使用A進(jìn)行劃分時(shí)的數(shù)據(jù)集,Gini(D)是數(shù)據(jù)集D的Gini系數(shù),Dj是由A劃分而成的子數(shù)據(jù)集。在所有屬性中信息增益G(A)為最大的屬性就選為當(dāng)前進(jìn)行劃分的結(jié)點(diǎn)。第六十頁,共一百零九頁,編輯于2023年,星期六

在本例中,如果根據(jù)年齡來劃分,可以分為3個(gè)子集,它們的Gini系數(shù)分別為第六十一頁,共一百零九頁,編輯于2023年,星期六

第六十二頁,共一百零九頁,編輯于2023年,星期六

于是可計(jì)算屬性“年齡”的信息增益為:第六十三頁,共一百零九頁,編輯于2023年,星期六

采用類似的方法,可以計(jì)算屬性“學(xué)生”的信息增益為:第六十四頁,共一百零九頁,編輯于2023年,星期六

采用類似的方法,還可以計(jì)算屬性“收入”、“信用等級(jí)”的信息增益,然后從所有屬性中找到信息增益最大的屬性,將它作為劃分的對象。第六十五頁,共一百零九頁,編輯于2023年,星期六

3.2.4決策樹的剪枝如果建立的決策樹的構(gòu)造過于復(fù)雜,則對應(yīng)的知識(shí)規(guī)則將是難以理解和應(yīng)用的,因此對于決策樹的建立,不僅需要考慮分類的正確性,還要考慮決策樹的復(fù)雜程度,即在保證一定的分類正確率條件下,決策樹越簡單越好。第六十六頁,共一百零九頁,編輯于2023年,星期六

最常用的決策樹簡化方法就是剪枝,包括預(yù)剪枝與后剪枝。預(yù)剪枝是預(yù)先設(shè)定某一相關(guān)閾值,決策樹達(dá)到該閾值后就停止樹的生長。該方法比較簡單,但預(yù)先指定閾值相當(dāng)困難。第六十七頁,共一百零九頁,編輯于2023年,星期六

后剪枝是對已經(jīng)建立的決策樹以一定的標(biāo)準(zhǔn)進(jìn)行剪枝,使決策樹得以簡化,但仍具有一定的分類正確率。CART算法采用后剪枝法。第六十八頁,共一百零九頁,編輯于2023年,星期六

具體方法為:針對未經(jīng)剪枝的決策樹T,運(yùn)用算法將其某一個(gè)或幾個(gè)子樹刪除,得到新的決策樹

j,然后對于多種不同剪枝的結(jié)果

j進(jìn)行比較,找出最好的剪枝形式。第六十九頁,共一百零九頁,編輯于2023年,星期六

剪枝過程中刪除的子樹將用葉結(jié)點(diǎn)代替,這個(gè)葉結(jié)點(diǎn)所屬的類用這棵子樹中大多數(shù)訓(xùn)練實(shí)例所屬的類來代替。第七十頁,共一百零九頁,編輯于2023年,星期六

第七十一頁,共一百零九頁,編輯于2023年,星期六4、來華留學(xué)生跨文化適應(yīng)性測量的數(shù)據(jù)挖掘

我們通過問卷調(diào)查得到學(xué)校環(huán)境影響因素、社會(huì)文化影響因素、個(gè)性心理特征與適應(yīng)性水平的數(shù)據(jù)。第七十二頁,共一百零九頁,編輯于2023年,星期六

適應(yīng)性和影響因素的關(guān)系:關(guān)聯(lián)規(guī)則方法;根據(jù)適應(yīng)性對留學(xué)生分類:決策樹方法。第七十三頁,共一百零九頁,編輯于2023年,星期六

4.1關(guān)聯(lián)規(guī)則提取

4.1.1數(shù)據(jù)準(zhǔn)備與參數(shù)設(shè)定對于來華留學(xué)生跨文化適應(yīng)性的影響因素包括四方面21項(xiàng):第七十四頁,共一百零九頁,編輯于2023年,星期六

人口統(tǒng)計(jì)學(xué)因素:(1)按文化圈分類的留學(xué)生國籍(2)按GDP分類的留學(xué)生國籍(3)所在地(4)性別(5)年齡(6)漢語水平(7)學(xué)生類別(8)所學(xué)專業(yè)(9)已來華時(shí)間(10)來華前已學(xué)漢語的時(shí)間(11)留學(xué)生來華前對華了解(12)來華經(jīng)費(fèi);第七十五頁,共一百零九頁,編輯于2023年,星期六

學(xué)校環(huán)境影響因素:(1)教師形象(2)教學(xué)管理(3)食堂環(huán)境(4)學(xué)習(xí)條件;社會(huì)文化影響因素:(1)服務(wù)模式(2)公德意識(shí);個(gè)性心理特征:(1)外向性(2)靈活性(3)獨(dú)立性。第七十六頁,共一百零九頁,編輯于2023年,星期六

適應(yīng)性水平則包括三個(gè)維度:社會(huì)文化適應(yīng)、心理適應(yīng)、校園適應(yīng)。參與數(shù)據(jù)挖掘的有效被試數(shù)目是651人。第七十七頁,共一百零九頁,編輯于2023年,星期六

首先進(jìn)行數(shù)據(jù)預(yù)處理,將被試在各道題目上的分?jǐn)?shù)離散化。在問卷中,學(xué)校環(huán)境影響因素、社會(huì)文化影響因素、個(gè)性心理特征以及適應(yīng)性水平各維度都是由多道題目進(jìn)行測量,而后各自獲得總分。第七十八頁,共一百零九頁,編輯于2023年,星期六

計(jì)算每個(gè)影響因素的均分,將被試分?jǐn)?shù)大于等于均分的項(xiàng)目設(shè)置為1,表示留學(xué)生認(rèn)同題目所描述的情形;小于均分的項(xiàng)目設(shè)置為2,表示留學(xué)生不認(rèn)同題目所描述的情形。在適應(yīng)性水平上也做同樣設(shè)置,1和2分別表示適應(yīng)和不適應(yīng)。第七十九頁,共一百零九頁,編輯于2023年,星期六

運(yùn)用軟件WEKA實(shí)現(xiàn)頻繁多項(xiàng)集的挖掘,設(shè)置最小支持度“minsup”不低于0.1,最小置信度“minconf”不低于0.6。第八十頁,共一百零九頁,編輯于2023年,星期六

4.1.2頻繁2-項(xiàng)集規(guī)則提取與解釋研究的維度:學(xué)校環(huán)境影響因素、社會(huì)文化影響、個(gè)性心理特征、適應(yīng)性水平,人口統(tǒng)計(jì)學(xué)因素,共計(jì)有21個(gè)變量。第八十一頁,共一百零九頁,編輯于2023年,星期六

由于各個(gè)變量又分為不同水平,總計(jì)有96個(gè)水平,如果兩兩組合,96*95=9120個(gè)關(guān)系,可以得到9120條關(guān)聯(lián)規(guī)則。第八十二頁,共一百零九頁,編輯于2023年,星期六

我們設(shè)置了不同的支持度和置信度,進(jìn)行了13次實(shí)驗(yàn),共獲得524個(gè)頻繁2-項(xiàng)集規(guī)則,還不到9120條規(guī)則的6%。第八十三頁,共一百零九頁,編輯于2023年,星期六表3頻繁2-項(xiàng)集挖掘的Apriori算法實(shí)現(xiàn)第八十四頁,共一百零九頁,編輯于2023年,星期六

第八十五頁,共一百零九頁,編輯于2023年,星期六

決策變量:總適應(yīng)性社會(huì)文化適應(yīng)、心理適應(yīng)、校園適應(yīng)。按照CART的二叉樹構(gòu)建原理,根節(jié)點(diǎn)包含所有樣本,然后分割為兩個(gè)子節(jié)點(diǎn),這個(gè)過程在子節(jié)點(diǎn)上重復(fù)進(jìn)行。第八十六頁,共一百零九頁,編輯于2023年,星期六

在實(shí)現(xiàn)分類回歸樹算法時(shí),將Gini系數(shù)的最小變化值設(shè)置為0.0001。采用“最小代價(jià)—復(fù)雜度”方法剪枝。將復(fù)雜度參數(shù)設(shè)置為1,并采用10層交叉驗(yàn)證模型識(shí)別正確分類數(shù)與正確率。第八十七頁,共一百零九頁,編輯于2023年,星期六

4.2.2CART模型建立對留學(xué)生總體適應(yīng)性、社會(huì)文化適應(yīng)、心理適應(yīng)和校園適應(yīng)分別建立CART模型,經(jīng)決策樹的建立和剪枝得到四個(gè)分類樹。第八十八頁,共一百零九頁,編輯于2023年,星期六

圖2總適應(yīng)水平?jīng)Q策樹第八十九頁,共一百零九頁,編輯于2023年,星期六

圖3社會(huì)文化適應(yīng)水平?jīng)Q策樹第九十頁,共一百零九頁,編輯于2023年,星期六

圖4心理適應(yīng)水平?jīng)Q策樹第九十一頁,共一百零九頁,編輯于2023年,星期六

圖5校園適應(yīng)水平?jīng)Q策樹第九十二頁,共一百零九頁,編輯于2023年,星期六

4.2.3分類規(guī)則提取與解釋決策樹得出的分類規(guī)則用If-Then的形式表述,從根結(jié)點(diǎn)到每個(gè)葉子結(jié)點(diǎn)的一條路徑就是一條分類規(guī)則。第九十三頁,共一百零九頁,編輯于2023年,星期六

從決策樹的根結(jié)點(diǎn)開始沿著一條路徑所形成的屬性與屬性值的合取項(xiàng)就構(gòu)成了If部分,葉子結(jié)點(diǎn)所標(biāo)記的類別就構(gòu)成了規(guī)則的Then部分,即規(guī)則的結(jié)論。第九十四頁,共一百零九頁,編輯于2023年,星期六

本研究產(chǎn)生了29個(gè)葉子結(jié)點(diǎn),即29條分類規(guī)則。以適應(yīng)性總分為例,列舉其產(chǎn)生的八條規(guī)則。第九十五頁,共一百零九頁,編輯于2023年,星期六

規(guī)則1:IF留學(xué)生對服務(wù)模式的態(tài)度=“認(rèn)同”

AND留學(xué)生性格外向=“是”AND對教學(xué)管理的態(tài)度=“不認(rèn)同”THEN總適應(yīng)(60.0%)=“適應(yīng)”。第九十六頁,共一百零九頁,編輯于2023年,星期六

規(guī)則2:IF留學(xué)生對服務(wù)模式的態(tài)度=“認(rèn)同”AND留學(xué)生性格外向=“是”AND對教學(xué)管理的態(tài)度=“認(rèn)同”AND對公德意識(shí)的態(tài)度=“認(rèn)同”THEN總適應(yīng)(86.3%)=“適應(yīng)”。第九十七頁,共一百零九頁,編輯于2023年,星期六

規(guī)則3:IF留學(xué)生對服務(wù)模式的態(tài)度=“認(rèn)同”AND留學(xué)生性格外向=“是”AND對教學(xué)管理的態(tài)度=“認(rèn)同”AND對公德意識(shí)的態(tài)度=“不認(rèn)同”THEN總適應(yīng)(66.2%)=“適應(yīng)”。第九十八頁,共一百零九頁,編輯于2023年,星期六

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論