社會調查數(shù)據(jù)分析方法_第1頁
社會調查數(shù)據(jù)分析方法_第2頁
社會調查數(shù)據(jù)分析方法_第3頁
社會調查數(shù)據(jù)分析方法_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

社會調查數(shù)據(jù)分析方法社會調查數(shù)據(jù)分析方法一、社會調查數(shù)據(jù)的特點通常情況下,社會調查數(shù)據(jù)特點如下。(1)相關性對于一個樣本個體而言,它具有本身的多個特征,這些特征之間就具有一定的相關性。對于多個樣本而言,個體與個體的特征之間具有相關性。如果樣本隨時間而變化,那么該樣本在不同時刻的特征之間又具有相關性。因此,由于上述多個原因使得社會調查數(shù)據(jù)具有了復雜的相關性,傳統(tǒng)的統(tǒng)計學調查難以解決這樣的問題。(2)離散性因為社會調查數(shù)據(jù)是通過自填式問卷、網(wǎng)絡調查數(shù)據(jù)庫等方法得到,所以社會調查數(shù)據(jù)一般以離散變量為主,且這些數(shù)據(jù)之間只有標示作用,并沒有嚴格的邏輯關系。(3)模糊性社會調查數(shù)據(jù)當中不可避免的會接觸到各種表達方式和概念,因此,它具有模糊性。因為由自填式問卷或結構式訪問的方法得到的社會調查數(shù)據(jù)具有以上特點,所以在實際應用中基于統(tǒng)計學的處理方法只能籠統(tǒng)的顯示數(shù)據(jù)的部分特性,如頻數(shù)、離散程度等。對于數(shù)據(jù)之間的關系只能分析出維數(shù)極少的大致的關系。而且利用軟件進行數(shù)據(jù)挖掘時,因為現(xiàn)有的軟件中的數(shù)據(jù)挖掘算法對于數(shù)據(jù)類型和格式要求較高,所以能應用到的數(shù)據(jù)挖掘算法很少。就算是數(shù)據(jù)要求較低的關聯(lián)分析,其結果也存在大量的冗余。因此,我們需要建立一個合適的社會調查數(shù)據(jù)的數(shù)學模型來完善原先的方法并使跟多的數(shù)據(jù)挖掘方法可以運用到其中,使得結果更準確。二、社會調查數(shù)據(jù)的建模研究中我們發(fā)現(xiàn),三維矩陣可適用于社會調查數(shù)據(jù)的建模。1三維矩陣的定義三維矩陣的定義:由n個pXq階的矩陣組成的nXpXq階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。2三維矩陣模型的建立調查問卷的題目一般有三種類型:單選題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個向量,排序題可以表示成多個向量組成的矩陣。對于單選題和多選題,可以按選項的順序可以表示成一個向量,其中選中的用“1”表示,未選中的項用“0”表示。對于排序題,可以表示成一個nXn的方陣,,其中n表示該排序題的選項數(shù),。這樣,每一題就可以定義為空間中的一個維度,從而所有的題目就可以構成一個N維空間。每份調查問卷的信息用一個MXN矩陣表示(M為題目的最大選項數(shù)),其在每一維上的選擇稱之為一個元素,這樣每份問卷的信息就包括了N個元素。以第1,2,3題數(shù)據(jù)為例,其中第1題為單選題選擇“B”,用向量(0,1,0..0)T表示為一個元素,第2題為多選題選擇“ACE”,用向量(1,0,1,0,1,0..0)T表示為一個元素,第3題為排序題順序為CBADEFIHG,用矩陣表示,每一個列向量是一個元素,如圖1所示。那么,假設有一問卷信息用一個大小為MXN的'矩陣表示。K份的問卷信息就可以用K個大小為MXN的矩陣表示。將這K個矩陣疊加,形成一個三維矩陣。這個三維矩陣就是我們建立的三維矩陣數(shù)學模型,如圖2所示。在圖2中我們看到,該三維矩陣數(shù)學模型有三個坐標軸,它們分別是題目、人數(shù)、選項。題目軸以每一道題為一個單位;人數(shù)軸以每一份問卷為一個單位;選項軸的刻度A,B,C,D,E,F等題目選項,其個數(shù)為該調查問卷中選項最多的題目的選項個數(shù)。在此基礎之上,這樣的三維矩陣具有以下性質。在題目軸中選取對應的題目,將三維矩陣面向豎切得到截面1,截面2表示每一道題所有人選擇的信息。在人數(shù)軸中選取對應的人,將三維矩陣橫切得到橫截面1,橫截面1表示對應的人選擇所有題目的信息。在得到三維矩陣后,可對它進行像素化處理,置1的元素用黑點代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數(shù)維度上向下投影,這樣就可以得到一個具有濃黑不一的點的平面。通過這些點的濃度,可以知道每一選項選擇的人數(shù)。接下來我們可用灰度級表示點的濃度,篩選出濃度大于一定程度的點,在此基礎上進行后續(xù)算法處理。上述三維矩陣數(shù)學模型具有數(shù)學三維矩陣的所有性質,可依據(jù)調查問卷的需求進行轉置,加權、相乘、篩選等數(shù)學處理,另外在數(shù)學處理的基礎上,采用超圖理論可以大大豐富了調查問卷的處理方法。三、基于超圖算法的調查問卷分析技術超圖是離散數(shù)學中重要的內容,是對圖論的推廣。超圖是有限集合的子系統(tǒng),它是一個由頂點的集合V和超邊集合E組成的二元對,超圖的一條邊可以有多個頂點的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對就是有向超圖。超圖在許多領域有廣泛的應用。大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個選項設成一個節(jié)點,然后將三維矩陣從上向下投影,如果某一題的若干個選項同時被一個人選擇,就用一條超邊包圍這些節(jié)點,那么選這些選項的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進行聚類處理。利用有向超圖,可以將關聯(lián)規(guī)則表示成有向超圖的形式,在得到了關聯(lián)規(guī)則后,設實際中得到的關聯(lián)規(guī)則的形式為:前項和后項都是由多個項組成的集合。該文定義一條關聯(lián)規(guī)則由一條有向超邊表示,有向超邊的頭節(jié)點表示關聯(lián)規(guī)則的前項,有向超邊的尾節(jié)點表示關聯(lián)規(guī)則的后項。每條有向超邊的頭節(jié)點和尾節(jié)點均可以為多個,如此便成功表示了復合規(guī)則,從而可以使用相關算法進行冗余規(guī)則檢測。通過基于有向超圖的冗余規(guī)則檢測就可以將關聯(lián)規(guī)則之間存在著的大量冗余檢測出,減少挖掘資源的浪費,從而增加了挖掘結果的有效性。傳統(tǒng)的聚類方法都對原始數(shù)據(jù)計算它們之間的距離來得到相似度,然后通過相似度進行聚類,這樣的方法對于低維數(shù)據(jù)有良好的效果,但是對于高維數(shù)據(jù)卻不能產生很好的聚類效果,因為高維數(shù)據(jù)的分布有其特殊性。通過超圖模型的分割實現(xiàn)對高維數(shù)據(jù)的聚類卻能產生較好的效果。它先將原始數(shù)據(jù)之間關系轉化成超圖,數(shù)據(jù)點表示成超圖的節(jié)點,數(shù)據(jù)點間的關系用超邊的權重來表示。然后對超圖進行分割,除去相應的超邊使得權重大的超邊中的點聚于一個類中,同時使被除去的超邊權重之和最小。這樣就通過對超圖的分割實現(xiàn)了對數(shù)據(jù)的聚類。具體的算法流程如下。首先,將數(shù)據(jù)點之間的關系轉化為超圖,數(shù)據(jù)點表示為超圖節(jié)點。如果某幾個數(shù)據(jù)點的支持度大于一定閾值,則它們能構成一個頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權重。然后,在基礎此上,通過超圖分割實現(xiàn)數(shù)據(jù)的聚類。若設將數(shù)據(jù)分成k類,則就是對超圖的k類分割,不斷除去相應的超邊,直到將數(shù)據(jù)分為k類,且每個分割中數(shù)據(jù)都密切相關為止,同時保持每次被除去的超邊權重和最小,最終得到的分割就是聚類的結果。首先,將數(shù)據(jù)點之間的關系轉化為超圖,數(shù)據(jù)點表示為超圖節(jié)點。如果某幾個數(shù)據(jù)點的支持度大于一定閾值,則它們能構成一個頻繁集,就將它們用一條超邊連接,超邊的權重就是這一頻繁集的置信度,重復同樣的方法就可以得超邊和權重。然后,在基礎此上,通過超圖分割實現(xiàn)數(shù)據(jù)的聚類。若設將數(shù)據(jù)分成k類,則就是對超圖的k類分割,不斷除去相應的超邊,直到將數(shù)據(jù)分為k類,且每個分割中數(shù)據(jù)都密切相關為止,同時保持每次被除去的超邊權重和最小,最終得到的分割就是聚類的結果。如圖3所示是基于超圖算法的選題型調查問卷的分析技術的流程圖,主要包括4個主要部分,一是用向量表示調查問卷結果,二是將向量表示的調查問卷轉化為三維矩陣數(shù)學模型表示調查問卷結果,三是使用超圖算法進行優(yōu)化,四是根據(jù)要求顯示調查問卷結果。四、結語該文針對社會調查數(shù)據(jù)處理與分析中存在的問題,建立了基于三維矩陣的數(shù)學模型,將單選題和多選題表示成向量,將排序題表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論