網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究_第1頁(yè)
網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究_第2頁(yè)
網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究_第3頁(yè)
網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究_第4頁(yè)
網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究_第5頁(yè)
已閱讀5頁(yè),還剩74頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

XXXX大學(xué)研究生學(xué)位論文自評(píng)表學(xué)號(hào)作者層次□博士t碩士□工程碩士□同等學(xué)力碩士學(xué)科專(zhuān)業(yè)地圖學(xué)與地理信息系統(tǒng)論文題目網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究作者對(duì)論文創(chuàng)新點(diǎn)的綜述(不超過(guò)5項(xiàng),并標(biāo)注對(duì)應(yīng)的論文章節(jié))、取得的主要成果及有待改進(jìn)之處的評(píng)述:論文創(chuàng)新點(diǎn)本文在分析現(xiàn)有的用戶(hù)行為數(shù)據(jù)獲取和分析方法基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)地理信息應(yīng)用特點(diǎn)。通過(guò)擴(kuò)展和改進(jìn)頁(yè)面標(biāo)簽技術(shù),實(shí)現(xiàn)了網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)獲取,并利用統(tǒng)計(jì)分析、模糊聚類(lèi)分析等方法對(duì)用戶(hù)的活躍度和相似性進(jìn)行分析;利用API與網(wǎng)絡(luò)爬蟲(chóng)融合技術(shù)獲取了位置信息服務(wù)中用戶(hù)行為數(shù)據(jù),提高了數(shù)據(jù)獲取效率,并利用探索性數(shù)據(jù)分析方法,探索了新的地理要素重要性評(píng)價(jià)方法,基于用戶(hù)背景數(shù)據(jù)對(duì)景點(diǎn)進(jìn)行信息挖掘。本文創(chuàng)新點(diǎn)如下:(1)建立了網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為數(shù)據(jù)分類(lèi)體系,并以此為基礎(chǔ)構(gòu)建了網(wǎng)絡(luò)地理信息應(yīng)用的用戶(hù)行為數(shù)據(jù)獲取和分析研究框架;(第二章)(2)通過(guò)對(duì)傳統(tǒng)頁(yè)面標(biāo)簽技術(shù)進(jìn)行改進(jìn)和功能擴(kuò)展,實(shí)現(xiàn)了從地理信息服務(wù)平臺(tái)中獲取用戶(hù)訪(fǎng)問(wèn)空間資源類(lèi)型、用戶(hù)訪(fǎng)問(wèn)空間位置等特有的用戶(hù)行為數(shù)據(jù)的方法;(第三章)(3)結(jié)合位置服務(wù)所提供的API和通用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),設(shè)計(jì)了一種空間爬取策略,實(shí)現(xiàn)了從位置服務(wù)平臺(tái)(新浪位置微博)中高效獲取用戶(hù)簽到信息,并能從中提取用戶(hù)行為數(shù)據(jù)的方法;(第四章)(4)利用探索性數(shù)據(jù)分析方法對(duì)位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)進(jìn)行分析,以旅游景點(diǎn)用戶(hù)簽到數(shù)據(jù)為例,探討了用戶(hù)視角的旅游景點(diǎn)分類(lèi)分級(jí)方法,并研究了“性別”、“地域”和“時(shí)間”對(duì)景點(diǎn)選擇的影響。(第四章)2.取得的主要成果1.導(dǎo)航電子地圖自適應(yīng)用戶(hù)模型構(gòu)建與匹配研究[J],《測(cè)繪與地理空間信息》,2015年第2期,第一作者.2.基于模糊綜合評(píng)測(cè)法的移動(dòng)電子地圖分析研究[J],《測(cè)繪通報(bào)》,2014年第6期,第二作者.3.TheDesignofGeo-spatialMetadataArchitectureforDigitalBoundary[C]“周邊地緣建模與解析”國(guó)際研討會(huì),2013年,第二作者.4.一種個(gè)人地理標(biāo)記數(shù)據(jù)的可視化方法[J],《測(cè)繪學(xué)報(bào)》,2015年第2期,第四作者.5.一種基于標(biāo)簽云的與位置關(guān)聯(lián)的文本信息方法可視化[J],《武漢大學(xué)學(xué)報(bào)·信息科學(xué)版》,已錄用,第四作者.6.LBS移動(dòng)導(dǎo)航電子地圖的空間認(rèn)知研究[J],《地礦測(cè)繪》,2013年3月,第四作者.7.一種基于位置簽到數(shù)據(jù)的旅游景點(diǎn)評(píng)價(jià)方法[J],《測(cè)繪科學(xué)與技術(shù)》,已錄用,第二作者.3.需要進(jìn)一步研究?jī)?nèi)容網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為研究涉及到多個(gè)學(xué)科知識(shí),如心理學(xué)、社會(huì)學(xué)、行為科學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)等,以及需要借助新的可視化手段,如熱力圖、標(biāo)簽云。本文雖然對(duì)網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為數(shù)據(jù)獲取和分析的理論、技術(shù)和方法進(jìn)行研究,并取得一定成果,但要真正實(shí)現(xiàn)對(duì)用戶(hù)的認(rèn)知仍然需要對(duì)相關(guān)理論和技術(shù)進(jìn)行深入研究,概括起來(lái)主要表現(xiàn)在以下幾個(gè)方面:(1)進(jìn)一步完善數(shù)據(jù)獲取和處理方法:對(duì)用戶(hù)認(rèn)知是建立在海量數(shù)據(jù)分析之上的,用戶(hù)數(shù)據(jù)來(lái)源眾多,如何實(shí)現(xiàn)多源數(shù)據(jù)的融合,提高數(shù)據(jù)質(zhì)量成為用戶(hù)行為研究的重要一環(huán)。在“大數(shù)據(jù)”背景下,應(yīng)當(dāng)借鑒大數(shù)據(jù)獲取與處理的理論方法和技術(shù)。(2)建立和完善相應(yīng)的理論體系:目前該方面的研究比較分散,尚未形成規(guī)模,不成體系,缺乏系統(tǒng)科學(xué)的理論進(jìn)行指導(dǎo)。(3)進(jìn)一步深入研究用戶(hù)行為的分析方法:目前研究多是基于數(shù)學(xué)方法分析用戶(hù)行為,但是用戶(hù)行為往往是在復(fù)雜的環(huán)境中受到多重因素影響條件下發(fā)生的。(4)建立相關(guān)的安全機(jī)制,制定相關(guān)的法律規(guī)范:在用戶(hù)數(shù)據(jù)獲取過(guò)程中可能涉及用戶(hù)的隱私,盡量避免數(shù)據(jù)獲取時(shí)產(chǎn)生倫理道德問(wèn)題。學(xué)號(hào):論文密級(jí):公開(kāi)中圖分類(lèi)號(hào):P208學(xué)科分類(lèi)號(hào):170.4599學(xué)校代碼:碩士學(xué)位論文網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究Acquisition

and

Analysis

of

User’s

Data

in

NetworkGeographicInformationApplication論文作者:指導(dǎo)教師:申請(qǐng)學(xué)位:理學(xué)碩士學(xué)科名稱(chēng):地圖學(xué)與地理信息系統(tǒng)研究方向:互聯(lián)網(wǎng)空間數(shù)據(jù)挖掘論文提交日期:2015年4月20日論文答辯日期:2015年月日XXXXXX大學(xué)XXXXXX學(xué)院二○一五年四月

ADissertationSubmittedtoXXXXXXUniversityfortheDegreeofMasterofScience

第頁(yè)第二章網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為研究框架網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為的研究有助于我們認(rèn)知用戶(hù)需求和行為規(guī)律,雖然許多學(xué)者認(rèn)識(shí)到對(duì)用戶(hù)行為研究重要,并取得了一定研究成果,但是這些研究多是通過(guò)傳統(tǒng)的問(wèn)卷調(diào)查、實(shí)驗(yàn)觀(guān)察等方法獲取用戶(hù)行為數(shù)據(jù)。目前針對(duì)用戶(hù)真實(shí)的在線(xiàn)行為數(shù)據(jù)研究比較零散,尚不成體系,因此需要建立系統(tǒng)的研究框架。本章在已有的用戶(hù)行為研究基礎(chǔ)上,借鑒相關(guān)領(lǐng)域研究,結(jié)合網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)的特點(diǎn),建立網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為研究框架,為接下來(lái)的研究提供指導(dǎo),奠定研究的理論基礎(chǔ)。2.1網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)及特點(diǎn)傳統(tǒng)意義上,用戶(hù)就是信息的接受者,即用戶(hù)是信息傳播的最終環(huán)節(jié),但是在Web2.0時(shí)代,社會(huì)成員或者組織在獲取并利用信息的同時(shí),也伴隨著新的信息產(chǎn)生和傳播,表現(xiàn)為用戶(hù)與信息、用戶(hù)與用戶(hù)之間的交互作用機(jī)制,因此當(dāng)社會(huì)成員或者組織通過(guò)一定途徑獲取信息或者進(jìn)行交互時(shí),均稱(chēng)為用戶(hù)。根據(jù)上面對(duì)用戶(hù)的定義面向網(wǎng)絡(luò)地理信息應(yīng)用的用戶(hù)可以分為兩類(lèi):一類(lèi)是網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)的使用者,這類(lèi)用戶(hù)在網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)上瀏覽、查詢(xún)、搜索信息時(shí),會(huì)產(chǎn)生一系列的操作行為,這些數(shù)據(jù)記錄了用戶(hù)“從哪里來(lái)”、“到哪里去”、“做了什么”、“如何做的”等,這是我們認(rèn)知用戶(hù)興趣偏好和行為模式的重要資源,是衡量地理信息服務(wù)網(wǎng)站使用狀況,提高網(wǎng)站可用性,實(shí)現(xiàn)個(gè)性化服務(wù)的重要依據(jù);而另一類(lèi)是使用位置服務(wù)的用戶(hù),這類(lèi)用戶(hù)雖然操作行為比較簡(jiǎn)單,但是其生成的數(shù)據(jù)中包含了大量用戶(hù)行為信息,例如微博中的簽到數(shù)據(jù)如圖2.1,包含了用戶(hù)的ID、地域、時(shí)間以及該地點(diǎn)的圖片、評(píng)價(jià)等信息,如果將一個(gè)用戶(hù)的多個(gè)簽到數(shù)據(jù)進(jìn)行連接,我們則可以發(fā)現(xiàn)用戶(hù)的運(yùn)動(dòng)軌跡。這些數(shù)據(jù)一方面可以幫助我們了解用戶(hù)現(xiàn)實(shí)生活,另一方面可以衡量POI的重要程度,豐富POI的屬性信息。圖2.1微博中用戶(hù)簽到數(shù)據(jù)(少林寺)無(wú)論是用戶(hù)在使用網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)時(shí)產(chǎn)生的各種操作還是使用位置信息服務(wù)時(shí)生成的數(shù)據(jù)都呈現(xiàn)出以下特點(diǎn):(1)知識(shí)豐富,升級(jí)速度快:經(jīng)過(guò)長(zhǎng)時(shí)間的積累,網(wǎng)絡(luò)地理信息應(yīng)用已經(jīng)擁有大量的用戶(hù),培養(yǎng)了用戶(hù)習(xí)慣,這些用戶(hù)使用相關(guān)應(yīng)用獲取信息同時(shí),產(chǎn)生了大量數(shù)據(jù),這些數(shù)據(jù)揭示了用戶(hù)行為,反映了現(xiàn)實(shí)世界變化。(2)主動(dòng)性強(qiáng),特點(diǎn)鮮明:用戶(hù)使用網(wǎng)絡(luò)地理信息應(yīng)用時(shí)帶有一定的目的性,具有明顯的行為偏好,使用習(xí)慣不受地域和時(shí)域的限制。(3)隨機(jī)性與規(guī)律性并存:個(gè)體用戶(hù)行為特征具有很大的隨機(jī)性,但從整體上看又具有很強(qiáng)的規(guī)律性。(4)隱蔽性強(qiáng):很多用戶(hù)行為都是在匿名狀態(tài)下進(jìn)行的,由于在虛擬網(wǎng)絡(luò)空間環(huán)境中對(duì)用戶(hù)行為難以形成有效的監(jiān)管,傳播的信息的真實(shí)性難以判斷,并且信息在物質(zhì)媒介中傳播也具有隱蔽性。(5)標(biāo)準(zhǔn)不一:一方面由于缺少統(tǒng)一規(guī)范,用戶(hù)產(chǎn)生的數(shù)據(jù)多為非結(jié)構(gòu)化的;另一方面由于文化程度、專(zhuān)業(yè)素質(zhì)不同,用戶(hù)提供的數(shù)據(jù)的準(zhǔn)確度也存在很大差異。(6)多維特性:網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為數(shù)據(jù)既有一維屬性數(shù)據(jù),又有二維的空間數(shù)據(jù)以及具有屬性特征、空間特征和時(shí)間特征的多維數(shù)據(jù)。用戶(hù)行為受到來(lái)自自身的屬性、信息與信息環(huán)境、社會(huì)和自然環(huán)境等多重因素的影響,因此造成了用戶(hù)行為個(gè)性的差異和需求的多元化,但這又決定了用戶(hù)的個(gè)性具有一定的穩(wěn)定性,成為用戶(hù)行為研究的前提和基礎(chǔ)。2.2網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)分類(lèi)體系網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為數(shù)據(jù)根據(jù)不同分類(lèi)標(biāo)準(zhǔn)可以有多種分類(lèi)結(jié)果。如果按數(shù)據(jù)的維度進(jìn)行劃分,可以分為一維數(shù)據(jù)、二維數(shù)據(jù)、三維數(shù)據(jù)和多維數(shù)據(jù)。如果從用戶(hù)角度上來(lái)分,可分為用戶(hù)的屬性數(shù)據(jù)和用戶(hù)產(chǎn)生的數(shù)據(jù)。用戶(hù)的屬性數(shù)據(jù),主要包括年齡、性別、學(xué)歷、職業(yè)、收入等;用戶(hù)產(chǎn)生的數(shù)據(jù),主要包括用戶(hù)獲取信息或者進(jìn)行信息交互時(shí)進(jìn)行的一系列操作活動(dòng)以及由用戶(hù)生成的各種數(shù)據(jù)。前者相對(duì)比較固定、變化小,后者變化更新速度快、信息量大。如果從數(shù)據(jù)的獲取來(lái)源分,可以分為網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用中的用戶(hù)行為數(shù)據(jù)和位置信息服務(wù)中用戶(hù)生成的數(shù)據(jù),網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)是指用戶(hù)在網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)上瀏覽內(nèi)容、查詢(xún)信息等一系列操作行為數(shù)據(jù),訪(fǎng)問(wèn)地理信息服務(wù)網(wǎng)站的時(shí)間以及用戶(hù)使用的設(shè)備信息,這一類(lèi)數(shù)據(jù)一般是通過(guò)服務(wù)器端的記錄日志來(lái)獲取,或者是通過(guò)一定的軟件進(jìn)行實(shí)時(shí)捕捉;而位置服務(wù)中的用戶(hù)行為數(shù)據(jù)是指用戶(hù)在使用位置服務(wù)時(shí)產(chǎn)生的各種數(shù)據(jù),這一類(lèi)數(shù)據(jù)則需要通過(guò)普通下載、網(wǎng)絡(luò)API、“網(wǎng)絡(luò)爬蟲(chóng)”等多種方式來(lái)獲取。本文根據(jù)數(shù)據(jù)來(lái)源對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行初步劃分,在此基礎(chǔ)上綜合多種因素對(duì)數(shù)據(jù)進(jìn)行更為詳細(xì)分類(lèi),得到網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)的分類(lèi)體系。如圖2.2所示:圖2.2基于數(shù)據(jù)源的用戶(hù)行為數(shù)據(jù)分類(lèi)2.2.1網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中的用戶(hù)行為數(shù)據(jù)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)依托詳實(shí)的地理信息數(shù)據(jù),通過(guò)在線(xiàn)方式滿(mǎn)足政府部門(mén)、企事業(yè)單位、和社會(huì)公眾對(duì)地理信息和空間定位、分析的基本要求。在眾多的網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中網(wǎng)絡(luò)電子地圖是應(yīng)用最廣,最為典型的一種,如圖2.3用戶(hù)可以在網(wǎng)絡(luò)地圖上選擇不同類(lèi)型地圖瀏覽信息、搜索內(nèi)容、查詢(xún)路線(xiàn)、標(biāo)注、量具等操作,用戶(hù)在選擇相應(yīng)的功能時(shí)是帶有一定目的性的,通過(guò)對(duì)這些操作行為進(jìn)行分析可以挖掘用戶(hù)的興趣需求和用圖偏好。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中的用戶(hù)行為數(shù)據(jù)可進(jìn)一步細(xì)分為用戶(hù)背景數(shù)據(jù)、傳統(tǒng)用戶(hù)行為數(shù)據(jù)和與地理信息服務(wù)平臺(tái)應(yīng)用相關(guān)的用戶(hù)行為數(shù)據(jù),下面將對(duì)其具體包含的數(shù)據(jù)類(lèi)型做詳細(xì)介紹。圖2.3百度地圖網(wǎng)站1.用戶(hù)背景數(shù)據(jù)用戶(hù)的背景數(shù)據(jù)主要包括:昵稱(chēng)、ID、年齡、性別、職業(yè)等,這些信息主要有以下三種獲取途徑:(1)用戶(hù)的注冊(cè)信息:這是用戶(hù)屬性數(shù)據(jù)最主要的來(lái)源,但是由于對(duì)用戶(hù)隱私安全的保護(hù),一般網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)只會(huì)要求用戶(hù)填寫(xiě)必填信息,包括用戶(hù)登陸名、用戶(hù)密碼、用戶(hù)郵箱、用戶(hù)別名(可以為空)等。(2)通過(guò)頁(yè)面標(biāo)簽技術(shù)或者日志文件獲得,這部分用戶(hù)的背景信息主要包括用戶(hù)IP信息、語(yǔ)言設(shè)置信息,通過(guò)這些信息可以推斷用戶(hù)的地理位置。(3)第三方用戶(hù)樣本數(shù)據(jù)庫(kù):各種專(zhuān)業(yè)的網(wǎng)絡(luò)用戶(hù)研究機(jī)構(gòu),如Aleax等,往往會(huì)有海量的第三方用戶(hù)樣本數(shù)據(jù)庫(kù)。由于用戶(hù)郵箱已知,因此可以和該樣本數(shù)據(jù)庫(kù)進(jìn)行比對(duì),從而提取出用戶(hù)的年齡、學(xué)歷、婚姻狀況等更詳細(xì)的用戶(hù)信息。2.傳統(tǒng)用戶(hù)行為數(shù)據(jù)傳統(tǒng)用戶(hù)行為數(shù)據(jù)即網(wǎng)絡(luò)用戶(hù)行為研究中所說(shuō)的“點(diǎn)擊流”數(shù)據(jù),是網(wǎng)絡(luò)網(wǎng)站用戶(hù)行為分析中最常用的數(shù)據(jù),由于網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)具有自身的結(jié)構(gòu)特點(diǎn),所以相同的指標(biāo)代表含義存在差別,分析結(jié)果也不一樣。傳統(tǒng)用戶(hù)行為數(shù)據(jù)至少包括以下幾種類(lèi)型:(1)訪(fǎng)問(wèn)數(shù):由用戶(hù)第一次會(huì)話(huà)請(qǐng)求到最后一次請(qǐng)求稱(chēng)之為一次訪(fǎng)問(wèn),但是如果用戶(hù)打開(kāi)網(wǎng)站然后離開(kāi)計(jì)算機(jī),并在接下來(lái)的30分鐘內(nèi)沒(méi)有進(jìn)行任何操作則會(huì)話(huà)自動(dòng)結(jié)束。一個(gè)獨(dú)立的會(huì)話(huà)ID可以將訪(fǎng)問(wèn)的所有操作集中在一起,形成一次完整的訪(fǎng)問(wèn)。它度量的是網(wǎng)站在一段時(shí)間內(nèi)被訪(fǎng)問(wèn)的次數(shù),訪(fǎng)問(wèn)數(shù)的變化反映了網(wǎng)站的流行趨勢(shì);用戶(hù)訪(fǎng)問(wèn)軌跡信息則蘊(yùn)含著用戶(hù)的行為規(guī)律。(2)點(diǎn)擊數(shù):表示用戶(hù)對(duì)服務(wù)器的一次請(qǐng)求,即用戶(hù)在網(wǎng)站上的一次活動(dòng)。(3)獨(dú)立訪(fǎng)客:當(dāng)訪(fǎng)客觸發(fā)網(wǎng)站第一個(gè)頁(yè)面或請(qǐng)求時(shí),就會(huì)在用戶(hù)瀏覽器中生成一個(gè)獨(dú)立cookie,會(huì)話(huà)結(jié)束后cookie仍然會(huì)保留,再次使用該瀏覽器訪(fǎng)問(wèn)網(wǎng)站,系統(tǒng)會(huì)自動(dòng)識(shí)別這個(gè)cookie的ID,獨(dú)立訪(fǎng)客指標(biāo)就是某段時(shí)間內(nèi)這些cookie的個(gè)數(shù)。獨(dú)立訪(fǎng)客比較接近網(wǎng)站的用戶(hù)的真實(shí)數(shù)量,但不完全相等,因?yàn)榇嬖赾ookie禁用現(xiàn)象。(4)停留時(shí)間:在Web分析中主要包括頁(yè)面停留時(shí)間和網(wǎng)站停留時(shí)間,主要用來(lái)衡量一個(gè)訪(fǎng)客在網(wǎng)站中某一網(wǎng)頁(yè)或一次會(huì)話(huà)所停留的時(shí)間。(5)頁(yè)面查看次數(shù):表示一個(gè)頁(yè)面被瀏覽的次數(shù),在網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中地圖可以是二維線(xiàn)劃圖、衛(wèi)星影像圖、3D立體圖等,此處的頁(yè)面查看指的是不同類(lèi)型地圖被訪(fǎng)問(wèn)的次數(shù)。在網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中這些數(shù)據(jù)的調(diào)用使用了Ajax技術(shù),不會(huì)發(fā)生頁(yè)面跳轉(zhuǎn),傳統(tǒng)方法對(duì)其無(wú)法進(jìn)行追蹤。(6)跳出率:指來(lái)到頁(yè)面什么都沒(méi)有做就離開(kāi)的訪(fǎng)客占所有訪(fǎng)客的比例,跳出率高的網(wǎng)頁(yè)往往存在問(wèn)題。由于地圖用戶(hù)中很大一部分只是瀏覽地圖,根據(jù)普通方法計(jì)算跳出率結(jié)果會(huì)很高,在此主要根據(jù)會(huì)話(huà)時(shí)間小于設(shè)定的值所占的比例。(7)退出頁(yè)面:記錄有多少訪(fǎng)客從該頁(yè)面離開(kāi)了網(wǎng)站,是指無(wú)論用戶(hù)從哪個(gè)網(wǎng)頁(yè)進(jìn)入網(wǎng)站,而在這個(gè)網(wǎng)頁(yè)退出所占的比率。這個(gè)頁(yè)面往往是與地理空間信息服務(wù)網(wǎng)站相關(guān)聯(lián)的各種社交網(wǎng)站,可以衡量地圖作為一個(gè)服務(wù)入口與各社交網(wǎng)站密切程度。(8)轉(zhuǎn)化率:表示在訪(fǎng)問(wèn)中能夠完成既定任務(wù)的用戶(hù)所占的比例,在此主要指網(wǎng)站注冊(cè)用戶(hù)占獨(dú)立訪(fǎng)客的百分比。除此之外,還可以獲取用戶(hù)使用的操作系統(tǒng)、瀏覽器版本等信息。這類(lèi)數(shù)據(jù)主要從服務(wù)器日志中提取或者通過(guò)頁(yè)面標(biāo)簽技術(shù)獲取。3.網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用相關(guān)的用戶(hù)行為數(shù)據(jù)這類(lèi)用戶(hù)行為數(shù)據(jù)是網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用所特有,目前并沒(méi)有很成熟的獲取技術(shù)方法,需要針對(duì)特定網(wǎng)站編寫(xiě)監(jiān)控代碼才能獲得這類(lèi)數(shù)據(jù)。根據(jù)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)特點(diǎn)可以將該類(lèi)數(shù)據(jù)概括為以下五類(lèi):(1)空間區(qū)域訪(fǎng)問(wèn)范圍:空間區(qū)域訪(fǎng)問(wèn)范圍獲取方式主要有兩種,一種是用戶(hù)所瀏覽的空間區(qū)域訪(fǎng)問(wèn)范圍,由于一般網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中的地圖都是按照地圖瓦片的方式進(jìn)行組織的,因此空間區(qū)域訪(fǎng)問(wèn)范圍主要通過(guò)記錄層號(hào)和圖片編碼完成。另外一種則是記錄用戶(hù)點(diǎn)擊的鼠標(biāo)位置,通過(guò)計(jì)算將該屏幕坐標(biāo)轉(zhuǎn)換變成地理經(jīng)緯度存儲(chǔ)起來(lái),并借助一定的可視化手段在地圖上顯示出來(lái),如熱力圖。(2)地理搜索關(guān)鍵字:是指用戶(hù)在使用地理搜索引擎時(shí)通過(guò)哪些關(guān)鍵字獲取信息的。這些關(guān)鍵字通過(guò)分詞技術(shù)處理后,獲取對(duì)應(yīng)地圖位置的地理坐標(biāo)進(jìn)行存儲(chǔ)。利用這些數(shù)據(jù)可以生成標(biāo)簽云地圖,反映一個(gè)區(qū)域的搜索熱度,挖掘該區(qū)域的地理名片等。(3)地理服務(wù)訪(fǎng)問(wèn)數(shù):是指用戶(hù)在網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)上具體使用了哪些服務(wù),如地圖瀏覽服務(wù)、量算服務(wù)、查詢(xún)服務(wù)、路徑規(guī)劃與導(dǎo)航服務(wù)、標(biāo)注服務(wù)以及用戶(hù)反饋服務(wù)等。(4)用戶(hù)地理位置信息:通常用戶(hù)使用桌面計(jì)算機(jī)或者筆記本訪(fǎng)問(wèn)網(wǎng)絡(luò)地圖應(yīng)用站點(diǎn)是難以獲得用戶(hù)地理位置信息的。一般是通過(guò)用戶(hù)的語(yǔ)言設(shè)置和IP信息,推斷用戶(hù)的地理位置信息。基本思路是通過(guò)語(yǔ)言設(shè)置初步判斷用戶(hù)所在的國(guó)家,但是用戶(hù)的IP往往是不固定的,一臺(tái)家用計(jì)算機(jī)在一個(gè)月內(nèi)通常會(huì)有10.5個(gè)IP地址,但該IP地址出現(xiàn)在不同城市的可能性非常之小,因此可以將IP地址和網(wǎng)絡(luò)上免費(fèi)的IP地址庫(kù)(如GeoIP等)匹配,從而判斷出用戶(hù)所在的城市。(5)用戶(hù)訪(fǎng)問(wèn)內(nèi)容:指用戶(hù)具體訪(fǎng)問(wèn)了哪些信息,用戶(hù)訪(fǎng)問(wèn)內(nèi)容在一定程度上反映了用戶(hù)的需求,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘可以發(fā)現(xiàn)用戶(hù)的偏好,這是進(jìn)行內(nèi)容推薦的基礎(chǔ)。2.2.2位置信息服務(wù)中的用戶(hù)行為數(shù)據(jù)位置信息服務(wù)中的用戶(hù)行為數(shù)據(jù)主要是指用戶(hù)使用位置服務(wù),主動(dòng)生成的數(shù)據(jù)。這些數(shù)據(jù)來(lái)源復(fù)雜、分布廣泛,就猶如一個(gè)個(gè)“貧富不均、深淺不一”的礦藏?zé)o序的分布在網(wǎng)絡(luò)空間中,結(jié)構(gòu)化與非結(jié)構(gòu)化、空間與非空間數(shù)據(jù)并存,信息與數(shù)據(jù)垃圾混雜,質(zhì)量良莠不齊。因此位置信息服務(wù)中的用戶(hù)主動(dòng)生成的數(shù)據(jù)難以直接使用,而需要經(jīng)過(guò)數(shù)據(jù)清洗、處理、融合等一系列操作之后,才可以使用。位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)從類(lèi)型上主要分為如下兩大類(lèi):(1)軌跡數(shù)據(jù):通過(guò)全球?qū)Ш叫l(wèi)星系統(tǒng)或者基站定位等測(cè)量手段方法獲得的用戶(hù)活動(dòng)數(shù)據(jù)(包括個(gè)人軌跡數(shù)據(jù)、車(chē)輛軌跡數(shù)據(jù)、飛行器軌跡數(shù)據(jù)等)。單用戶(hù)的軌跡數(shù)據(jù)可以顯示用戶(hù)的位置,反映用戶(hù)的偏好,認(rèn)知用戶(hù)的生活模式;多用戶(hù)軌跡數(shù)據(jù)可以用來(lái)計(jì)算用戶(hù)的相似度,根據(jù)相似度進(jìn)行信息推薦。軌跡數(shù)據(jù)主要來(lái)源有各類(lèi)導(dǎo)航數(shù)據(jù)、智能手機(jī)數(shù)據(jù)、可穿戴設(shè)備、物流數(shù)據(jù)、民航系統(tǒng)數(shù)據(jù)等。如圖2.4為用戶(hù)軌跡信息生成的北京經(jīng)典徒步路線(xiàn)。圖2.4北京經(jīng)典徒步路線(xiàn)(2)地理標(biāo)簽數(shù)據(jù):地理標(biāo)簽數(shù)據(jù)可能是文本、HTML網(wǎng)頁(yè)、照片、微博、視頻、動(dòng)畫(huà)等各種媒介形式。盡管形式不一,但是他們有一個(gè)共同的特征是這些數(shù)據(jù)中都顯式或隱式的植入了地理空間信息,這種地理空間信息最常見(jiàn)的表現(xiàn)形式是地理經(jīng)緯度坐標(biāo),但也可能包含高程、范圍、形狀等其它信息。最為常見(jiàn)的地理標(biāo)簽數(shù)據(jù)有以下幾種:=1\*GB3①地理標(biāo)簽文檔:如維基百科的地理標(biāo)簽文檔(圖2.5),截至2014年維基百科上的地理標(biāo)簽文檔保守估計(jì)超過(guò)400萬(wàn)份,覆蓋200種以上語(yǔ)言,其中與用戶(hù)行為相關(guān)的位置數(shù)據(jù)包括用戶(hù)所在位置,用戶(hù)所編輯的地理文檔位置等。=2\*GB3②地理標(biāo)簽照片:如Flickr的地理標(biāo)簽照片(圖2.6),與用戶(hù)行為相關(guān)的位置數(shù)據(jù)包括照片本身,照片上除地理標(biāo)簽外的其它標(biāo)簽和拍攝照片的設(shè)備信息。=3\*GB3③位置微博:如Twitter的位置微博(圖2.7),其中與用戶(hù)相關(guān)的位置數(shù)據(jù)包括微博本身,微博的標(biāo)簽信息和微博用戶(hù)自身屬性。圖2.5關(guān)于“美國(guó)白宮”的標(biāo)簽文檔,來(lái)自于維基百科圖2.6美國(guó)白宮的照片(作者Koedian,來(lái)自于Flick網(wǎng)站)圖2.7“美國(guó)白宮”位置微博2.3網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為研究框架在前文對(duì)網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為數(shù)據(jù)類(lèi)型、特點(diǎn)及其存在形式的分析基礎(chǔ)上,通過(guò)設(shè)計(jì)網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取和分析研究框架,可以進(jìn)一步明確具體的研究?jī)?nèi)容和相應(yīng)的研究方法,有利于我們系統(tǒng)的開(kāi)展接下來(lái)的研究。網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為研究框架如圖2.8所示。圖2.8網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析框架通過(guò)網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為數(shù)據(jù)獲取與分析研究框架可以看出,網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)獲取與分析研究是一個(gè)非常龐大而且復(fù)雜的體系,涉及到多方面問(wèn)題??紤]到現(xiàn)有條件以及實(shí)現(xiàn)的難度和工作量,本文選取了有代表性的數(shù)據(jù)源,重點(diǎn)突破關(guān)鍵性的方法,圖2.8中實(shí)線(xiàn)和實(shí)線(xiàn)要素代表的是本文重點(diǎn)研究和實(shí)現(xiàn)的技術(shù)流程,而虛線(xiàn)和虛線(xiàn)要素則是本文簡(jiǎn)單了解或者未涉及的內(nèi)容。本文研究?jī)?nèi)容涉及數(shù)據(jù)源的確定、數(shù)據(jù)獲取、數(shù)據(jù)建模、數(shù)據(jù)分析和可視化等一整套完整的技術(shù)方法體系。本文重點(diǎn)對(duì)數(shù)據(jù)獲取階段和數(shù)據(jù)分析及可視化階段進(jìn)行研究。2.3.1用戶(hù)行為數(shù)據(jù)的數(shù)據(jù)源確定階段由圖2.8可以看出,網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為數(shù)據(jù)呈現(xiàn)出多源異質(zhì)特點(diǎn)。不同來(lái)源的數(shù)據(jù)包含的內(nèi)容不同,在數(shù)據(jù)結(jié)構(gòu)和存儲(chǔ)方式方面往往也存在較大差異,因而導(dǎo)致數(shù)據(jù)獲取手段和研究方法不同,而所有研究都是建立在數(shù)據(jù)源確定的基礎(chǔ)之上。本文研究主要針對(duì)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中的用戶(hù)行為數(shù)據(jù)和位置信息服務(wù)中用戶(hù)生成的數(shù)據(jù)。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)來(lái)源比較明確,數(shù)據(jù)源確定主要是指網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)的選擇,用戶(hù)行為數(shù)據(jù)可能因?yàn)槠脚_(tái)不同,具有細(xì)微差異。總的來(lái)講用戶(hù)自身屬性數(shù)據(jù)一般由用戶(hù)注冊(cè)時(shí)提供;用戶(hù)的行為數(shù)據(jù)主要是用戶(hù)使用網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)時(shí)的各種操作行為,主要包括“點(diǎn)擊流”數(shù)據(jù)和與網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用相關(guān)的用戶(hù)行為數(shù)據(jù)。位置信息服務(wù)中的用戶(hù)行為數(shù)據(jù)來(lái)源比較廣泛,并且不同來(lái)源的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容存在很大差異,獲取的手段和方法也存在較大差異,并且出于保護(hù)用戶(hù)隱私、商業(yè)機(jī)密等原因,并非所有的數(shù)據(jù)均能通過(guò)網(wǎng)絡(luò)技術(shù)手段獲得,比如出租車(chē)軌跡數(shù)據(jù)就難以在網(wǎng)絡(luò)上獲得。但是許多開(kāi)放的網(wǎng)站平臺(tái)在Web2.0模式下已經(jīng)積累了大量的極具價(jià)值的用戶(hù)行為信息,例如OpenStreetMap以及OpenFlight站點(diǎn)是獲取個(gè)人軌跡數(shù)據(jù)以及飛行器數(shù)據(jù)的極好數(shù)據(jù)源;而位置微博、地理標(biāo)簽照片和地理標(biāo)簽文檔中不僅包含了大量的位置數(shù)據(jù)還包含了大量的用戶(hù)屬性數(shù)據(jù)以及評(píng)價(jià)信息。2.3.2用戶(hù)行為數(shù)據(jù)獲取階段數(shù)據(jù)獲取是用戶(hù)行為研究中至關(guān)重要的一環(huán),它是進(jìn)行數(shù)據(jù)分析的基礎(chǔ),數(shù)據(jù)的類(lèi)型和質(zhì)量在很大程度上決定了分析結(jié)果的準(zhǔn)確性和精度。數(shù)據(jù)來(lái)源不同數(shù)據(jù)獲取手段存在不同,而且同一來(lái)源數(shù)據(jù)往往有多種獲取方式,該階段的研究主要目的就是確定需要獲取的數(shù)據(jù)指標(biāo),選擇合適的數(shù)據(jù)獲取手段。下面將根據(jù)數(shù)據(jù)來(lái)源對(duì)用戶(hù)行為數(shù)據(jù)獲取方法進(jìn)行介紹。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中的用戶(hù)行為數(shù)據(jù)獲取網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)主要包括用戶(hù)屬性數(shù)據(jù)和用戶(hù)操作行為數(shù)據(jù)。用戶(hù)屬性數(shù)據(jù)獲取方法主要有用戶(hù)注冊(cè)、第三方用戶(hù)樣本庫(kù),但是出于保護(hù)用戶(hù)隱私或者商業(yè)原因,通過(guò)網(wǎng)絡(luò)獲取第三方用戶(hù)樣本庫(kù)非常困難,因此用戶(hù)屬性數(shù)據(jù)主要靠用戶(hù)注冊(cè)獲?。挥脩?hù)操作行為數(shù)據(jù)則可以根據(jù)Web的基本結(jié)構(gòu)從客戶(hù)端、代理服務(wù)器端或Web服務(wù)器端展開(kāi),目前使用比較廣泛的是基于日志的數(shù)據(jù)獲取方法和基于頁(yè)面標(biāo)簽的數(shù)據(jù)獲取方法。前者來(lái)自于網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)的數(shù)據(jù)庫(kù),獲取相對(duì)簡(jiǎn)單,本文重點(diǎn)對(duì)用戶(hù)操作行為數(shù)據(jù)的獲取進(jìn)行研究。 (1)基于日志的數(shù)據(jù)獲取方法:基于日志的用戶(hù)行為數(shù)據(jù)獲取方法主要是從(代理)服務(wù)器所產(chǎn)生的日志文件中獲取有用的數(shù)據(jù)。服務(wù)器日志記錄了用戶(hù)與服務(wù)器進(jìn)行交互的詳細(xì)信息,一般都包括:用戶(hù)身份、用戶(hù)訪(fǎng)問(wèn)路徑、用戶(hù)在頁(yè)面上的停留時(shí)間、是否達(dá)到目的以及請(qǐng)求的文件名稱(chēng)、時(shí)間和結(jié)果等。但是日志文件是被設(shè)計(jì)用來(lái)衡量服務(wù)器性能的統(tǒng)計(jì)數(shù)據(jù),與用來(lái)進(jìn)行用戶(hù)分析所需的大量數(shù)據(jù)相比會(huì)存在不足[46]。由于獲取的數(shù)據(jù)缺乏針對(duì)性,加之?dāng)?shù)據(jù)源文件本身的復(fù)雜性、非精確性導(dǎo)致了分析結(jié)果存在一定局限,例如通過(guò)IP識(shí)別用戶(hù),無(wú)法獲取用戶(hù)真正身份,頁(yè)面停留時(shí)間計(jì)算不精確,不能追蹤事件等。(2)基于頁(yè)面便簽技術(shù)的數(shù)據(jù)獲?。夯陧?yè)面標(biāo)簽技術(shù)的方法只需將監(jiān)測(cè)軟件生成的一段JavaScript代碼植入到被監(jiān)控網(wǎng)站,便可以從客戶(hù)端實(shí)時(shí)獲取用戶(hù)各種操作行為數(shù)據(jù),這些數(shù)據(jù)一部分來(lái)自用戶(hù)訪(fǎng)問(wèn)網(wǎng)站時(shí)生成的Cookie,一部分來(lái)自對(duì)操作行為的監(jiān)控?;陧?yè)面標(biāo)簽技術(shù)的用戶(hù)行為數(shù)據(jù)獲取方法在保證了數(shù)據(jù)真實(shí)性的同時(shí),克服了基于服務(wù)器日志的用戶(hù)行為數(shù)據(jù)獲取方法的不足,可以正確反映用戶(hù)的瀏覽路徑,精確的計(jì)算頁(yè)面停留時(shí)間,并且不受動(dòng)態(tài)分配IP地址或代理服務(wù)器的影響,可以追蹤事件,但是由于直接從客戶(hù)端獲取數(shù)據(jù),會(huì)產(chǎn)生流量,影響網(wǎng)絡(luò)性能。無(wú)論是從獲取數(shù)據(jù)類(lèi)型,還是獲取數(shù)據(jù)精度上基于頁(yè)面標(biāo)簽技術(shù)的方法具有明顯優(yōu)勢(shì),我們將在已有的功能上進(jìn)行擴(kuò)展,使其適用于網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)操作行為數(shù)據(jù)獲取。位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)獲取位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)獲取除少部分可以直接下載如OpenStreetMap中的數(shù)據(jù),大部分用戶(hù)行為數(shù)據(jù)是通過(guò)基于開(kāi)放API的方法和基于網(wǎng)絡(luò)爬蟲(chóng)方法獲取的。(1)基于開(kāi)放API的數(shù)據(jù)獲取方法:開(kāi)放API就是在網(wǎng)絡(luò)上把各種網(wǎng)絡(luò)應(yīng)用產(chǎn)品進(jìn)行封裝成一系列可以被計(jì)算機(jī)識(shí)別的接口,供第三方開(kāi)發(fā)使用[47]。為了保證數(shù)據(jù)安全,使用該方法獲取數(shù)據(jù)必須經(jīng)過(guò)認(rèn)證授權(quán),成功登陸后才可以根據(jù)需要,調(diào)用相應(yīng)的接口,便可快速的獲取相應(yīng)數(shù)據(jù)。(2)基于網(wǎng)絡(luò)爬蟲(chóng)的獲取方法:網(wǎng)絡(luò)爬蟲(chóng)是一種按照特定的邏輯和算法自動(dòng)下載網(wǎng)絡(luò)網(wǎng)頁(yè)的程序或者腳本[48-50],其主要目的就是將網(wǎng)絡(luò)上的網(wǎng)頁(yè)下載到本地形成一個(gè)或者聯(lián)網(wǎng)的鏡像,主要包括頁(yè)面獲取和頁(yè)面解析兩個(gè)模塊。根據(jù)其工作的原理網(wǎng)絡(luò)爬蟲(chóng)可以分為兩類(lèi):通用網(wǎng)絡(luò)爬蟲(chóng)和主題網(wǎng)絡(luò)爬蟲(chóng)。前者將一個(gè)或者多個(gè)頁(yè)面作為起始頁(yè)面,在下載這些頁(yè)面的同時(shí),獲取這些頁(yè)面內(nèi)包含的URL,不斷將這些URL存入隊(duì)列,一直重復(fù)這個(gè)過(guò)程,直到滿(mǎn)足一定條件則終止程序運(yùn)行;后者主要通過(guò)分析已經(jīng)下載的頁(yè)面內(nèi)容和鏈接,計(jì)算頁(yè)面與主題的相關(guān)程度,預(yù)測(cè)需要爬取的下一個(gè)頁(yè)面的鏈接,盡可能多的獲取與主題相關(guān)頁(yè)面,較少獲取無(wú)關(guān)頁(yè)面?;陂_(kāi)放API的數(shù)據(jù)獲取方法獲取數(shù)據(jù)方便,并且效率較高,但是為了保證服務(wù)器的穩(wěn)定和用戶(hù)數(shù)據(jù)安全,對(duì)獲取數(shù)據(jù)的數(shù)量和類(lèi)型進(jìn)行限制,許多數(shù)據(jù)獲取必須獲得高級(jí)權(quán)限。網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)效率雖然比不上前者,但是由于獲取數(shù)據(jù)量不受限制,也無(wú)需進(jìn)行授權(quán),在數(shù)據(jù)獲取中應(yīng)用較廣。2.3.3用戶(hù)行為數(shù)據(jù)建模階段用戶(hù)行為數(shù)據(jù)建模階段主要目的是將獲取的所有用戶(hù)行為數(shù)據(jù),按照統(tǒng)一的模型放置在數(shù)據(jù)庫(kù)中。本文主要采用MySQL數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ),它具有體積小、速度快和擁有成本低等特點(diǎn)。為了保證數(shù)據(jù)獲取和分析過(guò)程既相對(duì)獨(dú)立,又彼此聯(lián)系,提高數(shù)據(jù)分析效率,本文設(shè)計(jì)了面向數(shù)據(jù)獲取的日志庫(kù)和面向數(shù)據(jù)分析的歸檔庫(kù),如圖所示2.9。圖2.9用戶(hù)行為數(shù)據(jù)模型(1)日志庫(kù)中數(shù)據(jù)的存儲(chǔ):日志庫(kù)主要是面向數(shù)據(jù)獲取的,在日志庫(kù)中存儲(chǔ)的是獲取的最原始數(shù)據(jù),也稱(chēng)之為“rawdata”,它是完全沒(méi)有經(jīng)過(guò)任何改變和加工的數(shù)據(jù)。依據(jù)上述分類(lèi),日志庫(kù)主要分為兩大子庫(kù),網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)子庫(kù)和位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)子庫(kù)。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)子庫(kù)包括用戶(hù)注冊(cè)信息表、訪(fǎng)客表以及訪(fǎng)客行為表等。位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)子庫(kù)則會(huì)根據(jù)不同的數(shù)據(jù)來(lái)源設(shè)計(jì)相應(yīng)的數(shù)據(jù)表。針對(duì)微博數(shù)據(jù)主要包括兩類(lèi)數(shù)據(jù)源:一類(lèi)是以用戶(hù)為種子,按照用戶(hù)相互之間的關(guān)注關(guān)系爬取,該表稱(chēng)之為依用戶(hù)爬取的微博原始信息表;另一類(lèi)是以地點(diǎn)為種子爬取獲得,該表稱(chēng)之為依地點(diǎn)爬取的微博原始信息表。(2)歸檔庫(kù)中數(shù)據(jù)的存儲(chǔ):歸檔庫(kù)中數(shù)據(jù)主要是面向數(shù)據(jù)分析的,在歸檔庫(kù)中存儲(chǔ)的是經(jīng)過(guò)數(shù)據(jù)清洗之后與研究相關(guān)的數(shù)據(jù)。面向數(shù)據(jù)分析的歸檔庫(kù)也分為兩大子庫(kù)即網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)子庫(kù)和位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)子庫(kù),但與日志庫(kù)不同,該庫(kù)的數(shù)據(jù)都是經(jīng)過(guò)深加工處理的,可以依據(jù)該數(shù)據(jù)生成報(bào)表,形成可視化圖形等。其中站內(nèi)信息子庫(kù)同樣包括用戶(hù)注冊(cè)信息表、訪(fǎng)客表以及訪(fǎng)客行為表,但其存儲(chǔ)的信息和日志庫(kù)中的表有所不同,如圖2.10所示,在日志庫(kù)中,訪(fǎng)客表記錄的是用戶(hù)訪(fǎng)問(wèn)的地理信息資源頁(yè)面和訪(fǎng)問(wèn)時(shí)間,但是歸檔庫(kù)中,如圖2.11所示,記錄的是地理信息資源頁(yè)面和頁(yè)面瀏覽數(shù)。歸檔庫(kù)中的位置信息服務(wù)中用戶(hù)行為子庫(kù)將日志庫(kù)中依用戶(hù)爬取的微博原始信息表和依地點(diǎn)爬取的微博原始信息表中所有與位置無(wú)關(guān)的數(shù)據(jù)清洗掉,僅留下與位置相關(guān)的數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)表中,由于兩個(gè)表中均含有用戶(hù)自身屬性數(shù)據(jù),為了減少數(shù)據(jù)冗余,提高數(shù)據(jù)調(diào)用效率,將這些數(shù)據(jù)提取出來(lái),生成用戶(hù)信息表。從日志庫(kù)到歸檔庫(kù)這一數(shù)據(jù)處理過(guò)程,本文也稱(chēng)之為數(shù)據(jù)歸檔過(guò)程。圖2.10日志庫(kù)中的訪(fǎng)客表信息圖2.11歸檔庫(kù)中訪(fǎng)客表信息2.3.4用戶(hù)行為數(shù)據(jù)分析與可視化階段分析是由數(shù)據(jù)到信息轉(zhuǎn)換的必經(jīng)階段,是挖掘數(shù)據(jù)價(jià)值,實(shí)現(xiàn)應(yīng)用的基礎(chǔ),而可視化是一種有效的數(shù)據(jù)分析手段,可以清晰、直觀(guān)的顯示數(shù)據(jù)的分布特點(diǎn)和規(guī)律。用戶(hù)行為數(shù)據(jù)分析與可視化階段主要是借助數(shù)學(xué)的方法和原理進(jìn)行數(shù)據(jù)處理和分析,建立數(shù)據(jù)之間的聯(lián)系,并運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù)將數(shù)據(jù)轉(zhuǎn)化為可以在屏幕上顯示的圖形或圖像。數(shù)據(jù)分析方法的選擇受到數(shù)據(jù)自身屬性影響,還與研究的目的有關(guān),由這兩者共同決定。適當(dāng)?shù)目梢暬侄斡兄谖覀兝斫鈹?shù)據(jù)中隱藏的信息,認(rèn)知用戶(hù)的行為規(guī)律。本文涉及到不同來(lái)源的兩類(lèi)用戶(hù)行為數(shù)據(jù),其分析的結(jié)果和作用也存在差異。1.網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)分析與可視化網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)主要包括三種:用戶(hù)屬性數(shù)據(jù)、“點(diǎn)擊流”數(shù)據(jù)、網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用相關(guān)的用戶(hù)行為數(shù)據(jù)。第一種數(shù)據(jù)是最基本的數(shù)據(jù),許多學(xué)者通過(guò)這些數(shù)據(jù),運(yùn)用認(rèn)知論、感受論等理論研究不同類(lèi)型用戶(hù),如性別,對(duì)符號(hào)色彩、界面顯示風(fēng)格等的偏好,本文旨在從數(shù)據(jù)中研究用戶(hù)偏好,因此對(duì)這部分?jǐn)?shù)據(jù)不單獨(dú)作重點(diǎn)研究。“點(diǎn)擊流”數(shù)據(jù)主要記錄了在一段時(shí)間內(nèi)用戶(hù)“有多少”、“從哪里來(lái)”、“到哪里去”、“什么時(shí)候來(lái)”、“待了多久”這些最基本的信息。這些數(shù)據(jù)均為連續(xù)變量,通過(guò)數(shù)值大小表示量的多少或者時(shí)間長(zhǎng)短。這類(lèi)數(shù)據(jù)處理主要進(jìn)行簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì),通過(guò)描述被分析數(shù)據(jù)的性質(zhì)來(lái)研究數(shù)據(jù)的關(guān)系,揭露數(shù)據(jù)的總體結(jié)構(gòu),反應(yīng)數(shù)據(jù)的分布情況,進(jìn)而創(chuàng)建模型,借助模型進(jìn)行趨勢(shì)預(yù)測(cè)。主要的可視化方法有:(1)折線(xiàn)圖:用直線(xiàn)將各數(shù)據(jù)點(diǎn)連接起來(lái),以折線(xiàn)的方式顯示數(shù)據(jù)的變化趨勢(shì)和變化幅度以及各組數(shù)據(jù)之間的差別,如圖2.12。(2)直方圖:又稱(chēng)之為質(zhì)量分布圖,主要用一系列高度不等的縱向條紋表示數(shù)據(jù)分布情況,一般用橫軸表示數(shù)據(jù)的性質(zhì),縱軸表示質(zhì)量(數(shù)量)特征,具有簡(jiǎn)單直觀(guān)等特點(diǎn),如圖2.13。(3)餅狀圖:一般用顏色表示數(shù)據(jù)屬性,面積表示數(shù)據(jù)比例,如圖2.14。圖2.12折線(xiàn)圖圖2.13柱狀圖圖2.14餅狀圖網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用相關(guān)的數(shù)據(jù)是本部分研究的重點(diǎn),一方面由于網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)提供的服務(wù)多為空間服務(wù),許多用戶(hù)行為數(shù)據(jù)中具有空間特征,利用傳統(tǒng)的數(shù)據(jù)分析和可視化手法無(wú)法真正揭示數(shù)據(jù)分布規(guī)律和特征;另一方面,這些數(shù)據(jù)記錄了用戶(hù)使用了哪些功能、進(jìn)行了什么操作、訪(fǎng)問(wèn)了哪些信息等,這一系列的行為數(shù)據(jù)中蘊(yùn)含了用戶(hù)的行為模式和興趣偏好。我們可以根據(jù)用戶(hù)行為的相似度對(duì)用戶(hù)進(jìn)行分類(lèi),研究類(lèi)群間的差異、偏好和需求,有助于提高信息推薦的準(zhǔn)確度,為提供個(gè)性化服務(wù)提供科學(xué)依據(jù)。在研究中我們的主要目的是利用大量無(wú)序的數(shù)據(jù)從定量角度進(jìn)行用戶(hù)分析,因此使用的分析方法主要是聚類(lèi)分析。聚類(lèi)分析就是在相似的基礎(chǔ)上進(jìn)行數(shù)據(jù)分類(lèi),使得同一類(lèi)對(duì)象盡可能的相似,不同類(lèi)別對(duì)象間的差異性盡可能的大,對(duì)象間的相似程度一般通過(guò)距離、相關(guān)系數(shù)等來(lái)描述。在通過(guò)聚類(lèi)分析完成分類(lèi)的基礎(chǔ)上,我們可以通過(guò)研究同類(lèi)用戶(hù)在行為上的相似性,對(duì)比不同類(lèi)別用戶(hù)在行為上的差異,總結(jié)各類(lèi)別用戶(hù)的偏好和行為習(xí)慣。在可視化方面,地圖本身就是一種很好的空間數(shù)據(jù)可視化手法,對(duì)于帶有空間特征的數(shù)據(jù)我們可以借助一些新的可視化方法如熱力圖、標(biāo)簽云等,并與地圖相結(jié)合,從地理維度上對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。2.位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)分析與可視化位置信息服務(wù)中的用戶(hù)行為數(shù)據(jù)主要包括軌跡數(shù)據(jù)和地理標(biāo)簽數(shù)據(jù),前者是線(xiàn)狀要素,后者是點(diǎn)狀要素,但是按照時(shí)間順序?qū)⒌乩順?biāo)簽連接起來(lái)也可以呈現(xiàn)用戶(hù)的活動(dòng)軌跡。這類(lèi)數(shù)據(jù)一般源于用戶(hù)現(xiàn)實(shí)生活,對(duì)于研究用戶(hù)行為更加真實(shí)可靠。對(duì)位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)研究可以分為兩類(lèi),一類(lèi)是根據(jù)用戶(hù)的軌跡數(shù)據(jù)來(lái)計(jì)算用戶(hù)的相似度,根據(jù)用戶(hù)相似度進(jìn)行位置推薦;另一類(lèi)是根據(jù)用戶(hù)的關(guān)注度計(jì)算POI的重要程度,作為POI分類(lèi)分級(jí)的標(biāo)準(zhǔn)。此外還可以結(jié)合用戶(hù)的其他數(shù)據(jù)進(jìn)行信息挖掘,豐富POI的屬性,比如某一地點(diǎn)比較受男性還是女性歡迎。本文主要利用地理標(biāo)簽數(shù)據(jù)對(duì)第二方面進(jìn)行研究,這方面的研究成果可以改進(jìn)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中POI的分類(lèi)分級(jí)中存在的不足,并且可以根據(jù)用戶(hù)信息進(jìn)行POI的選擇性表達(dá)。在POI分類(lèi)分級(jí)方面,許多專(zhuān)家根據(jù)多年的經(jīng)驗(yàn)、相關(guān)規(guī)定和準(zhǔn)則綜合考慮多種因素,制定了相應(yīng)的標(biāo)準(zhǔn),奠定了POI分類(lèi)分級(jí)的基礎(chǔ),但是這些分類(lèi)分級(jí)標(biāo)準(zhǔn)忽略了用戶(hù)需求,無(wú)法實(shí)現(xiàn)按需表達(dá)。根據(jù)用戶(hù)關(guān)注程度建立新的分類(lèi)分級(jí)標(biāo)準(zhǔn)需要在遵循POI分類(lèi)分級(jí)基本準(zhǔn)則的前提下,充分考慮用戶(hù)這一因素,建立新的分類(lèi)分級(jí)體系?;谄渌麛?shù)據(jù)對(duì)POI進(jìn)行信息挖掘主要是研究這些POI受到哪些人關(guān)注,這些人有什么特征以及是否受時(shí)空因素的影響等。2.4網(wǎng)絡(luò)地理信息應(yīng)用中的用戶(hù)行為獲取與分析關(guān)鍵技術(shù)研究為了提高數(shù)據(jù)獲取效率和分析的準(zhǔn)確度,更好地滿(mǎn)足應(yīng)用要求,本文根據(jù)構(gòu)建的網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為研究框架,進(jìn)行了關(guān)鍵技術(shù)突破,主要表現(xiàn)在以下兩個(gè)方面:1.網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)獲取與分析關(guān)鍵技術(shù)研究網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)主要包括三類(lèi):第一類(lèi)是用戶(hù)注冊(cè)時(shí)提交的個(gè)人背景數(shù)據(jù)和個(gè)性化標(biāo)簽,這部分?jǐn)?shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,是我們認(rèn)知用戶(hù)的基礎(chǔ)數(shù)據(jù);第二類(lèi)是“點(diǎn)擊流”數(shù)據(jù),這是目前網(wǎng)絡(luò)用戶(hù)行為分析中最常用的數(shù)據(jù),可以從Cookie中或者服務(wù)器日志中提取,通過(guò)統(tǒng)計(jì)分析可以用來(lái)衡量網(wǎng)站使用狀況,分析用戶(hù)質(zhì)量(忠誠(chéng)度、活躍度等),改進(jìn)平臺(tái)的設(shè)計(jì);第三類(lèi)數(shù)據(jù)為網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用相關(guān)的用戶(hù)行為數(shù)據(jù),這類(lèi)數(shù)據(jù)是本文研究的重點(diǎn),它記錄了用戶(hù)一系列的操作行為和訪(fǎng)問(wèn)內(nèi)容,反映了用戶(hù)的行為規(guī)律和興趣偏好,主要通過(guò)實(shí)時(shí)監(jiān)測(cè)用戶(hù)行為獲取。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)獲取,主要針對(duì)平臺(tái)中用戶(hù)行為數(shù)據(jù)的特點(diǎn)和頁(yè)面標(biāo)簽技術(shù)不足,對(duì)頁(yè)面標(biāo)簽技術(shù)進(jìn)行改進(jìn)和功能擴(kuò)展,使其在滿(mǎn)足網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為研究需要前提下,提高用戶(hù)的體驗(yàn),主要解決目前無(wú)法追蹤數(shù)據(jù)異步調(diào)用、具有空間特征用戶(hù)行為數(shù)據(jù)獲取和數(shù)據(jù)傳輸影響用戶(hù)體驗(yàn)三個(gè)方面的問(wèn)題。在數(shù)據(jù)分析方面則主要利用聚類(lèi)方法計(jì)算用戶(hù)相似度,挖掘不同類(lèi)別用戶(hù)的偏好和區(qū)別,在可視化方面利用熱力圖、標(biāo)簽云等可視化手段,將具有空間特征的用戶(hù)行為數(shù)據(jù)在地圖上進(jìn)行表達(dá),基于用戶(hù)行為數(shù)據(jù)進(jìn)行區(qū)域分析。2.位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)獲取與分析技術(shù)隨著移動(dòng)定位技術(shù)發(fā)展和以手機(jī)為代表的智能終端設(shè)備普及,位置信息服務(wù)得到迅速推廣,深植于各種網(wǎng)絡(luò)應(yīng)用平臺(tái)中。由于平臺(tái)開(kāi)放程度不同,數(shù)據(jù)獲取方式存在很大差異,但是為了提高用戶(hù)參與度,許多平臺(tái)開(kāi)放了API,本文主要針對(duì)這些網(wǎng)站平臺(tái)中用戶(hù)行為數(shù)據(jù)獲取與分析進(jìn)行研究。位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)主要包括兩類(lèi):第一類(lèi)是利用GPS定位等手段實(shí)時(shí)記錄自己位置生成的軌跡數(shù)據(jù);第二類(lèi)是用戶(hù)通過(guò)定位技術(shù)生成的各種地理標(biāo)簽數(shù)據(jù)。這些數(shù)據(jù)一般來(lái)源于用戶(hù)真實(shí)的現(xiàn)實(shí)生活,反映了用戶(hù)的生活軌跡,其中除了位置信息外,還包含了大量的用戶(hù)的背景數(shù)據(jù)以及用戶(hù)對(duì)位置的評(píng)價(jià)、描述等信息。通過(guò)對(duì)位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)獲取和分析,可以從用戶(hù)的視角,建立新的POI分類(lèi)分級(jí)體系,結(jié)合用戶(hù)背景數(shù)據(jù)和評(píng)價(jià)信息從更深層次上進(jìn)行位置信息挖掘,完善和豐富位置的屬性信息。位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)獲取主要采用API與網(wǎng)絡(luò)爬蟲(chóng)相融合的方法,通過(guò)開(kāi)放的API獲取種子文件,然后利用網(wǎng)絡(luò)爬蟲(chóng)有選擇的獲取數(shù)據(jù)。該方法既可以解決基于開(kāi)放API獲取數(shù)據(jù)量受限問(wèn)題,又可以提高網(wǎng)絡(luò)爬蟲(chóng)的工作效率。在數(shù)據(jù)分析方面,考慮到來(lái)自網(wǎng)絡(luò)的數(shù)據(jù)規(guī)律性差,無(wú)法很好滿(mǎn)足某種分布問(wèn)題,采用探索性數(shù)據(jù)分析方法,對(duì)數(shù)據(jù)分布進(jìn)行正態(tài)性判斷,剔除異常值,通過(guò)冪變換使其服從正態(tài)分布,在此基礎(chǔ)上進(jìn)行顯著性檢驗(yàn),發(fā)掘信息。2.5本章小結(jié)本章分析了網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)的特點(diǎn),并根據(jù)網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為數(shù)據(jù)來(lái)源對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行分類(lèi),在此基礎(chǔ)上構(gòu)建了網(wǎng)絡(luò)地理信息應(yīng)用中用戶(hù)行為研究框架,從數(shù)據(jù)源的確定、數(shù)據(jù)獲取、數(shù)據(jù)建模和數(shù)據(jù)分析與可視化四個(gè)階段進(jìn)行研究,明確了各部分研究的內(nèi)容和使用的技術(shù)方法,為接下來(lái)的研究奠定了基礎(chǔ)。第三章網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)獲取與分析第三章網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)獲取與分析用戶(hù)使用網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)查詢(xún)的信息、訪(fǎng)問(wèn)的內(nèi)容一般是用戶(hù)最感興趣的信息,反映了用戶(hù)偏好,是我們認(rèn)知用戶(hù)行為規(guī)律、理解用戶(hù)需求最為關(guān)鍵的數(shù)據(jù),是網(wǎng)絡(luò)地理信息應(yīng)用中用行為研究的主要內(nèi)容之一。本章試圖探求出科學(xué)實(shí)用的網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為獲取與分析研究方法,滿(mǎn)足相關(guān)研究的需要。具體地說(shuō),就是通過(guò)擴(kuò)展頁(yè)面標(biāo)簽技術(shù)解決數(shù)據(jù)獲取問(wèn)題,為分析提供數(shù)據(jù)基礎(chǔ);通過(guò)統(tǒng)計(jì)分析、聚類(lèi)分析,發(fā)掘用戶(hù)行為規(guī)律和偏好,為改善地理信息平臺(tái)建設(shè)提供指導(dǎo)。3.1網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為研究機(jī)理網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)主要提供空間信息服務(wù),是用戶(hù)獲取空間信息,認(rèn)知客觀(guān)世界的一種重要工具。網(wǎng)絡(luò)地理信息平臺(tái)中用戶(hù)行為具有更強(qiáng)的交互性,除了通過(guò)縮放、漫游等操作進(jìn)行信息瀏覽外,還可以進(jìn)行檢索、查詢(xún)、標(biāo)注等操作。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為不僅因?yàn)橛脩?hù)需求不同而存在差異,同時(shí)也受到用戶(hù)所處的環(huán)境和用戶(hù)的知識(shí)水平等多種因素的影響,具有很強(qiáng)的復(fù)雜性,因此需要分析網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為研究機(jī)理,明確研究對(duì)象、方法和目的,為接下來(lái)研究提供指導(dǎo)。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為研究機(jī)理如圖3.1所示,主要分為數(shù)據(jù)獲取、數(shù)據(jù)分析和應(yīng)用三個(gè)模塊。在數(shù)據(jù)獲取模塊主要通過(guò)改進(jìn)和完善頁(yè)面標(biāo)簽技術(shù),實(shí)現(xiàn)地理信息服務(wù)相關(guān)的用戶(hù)行為數(shù)據(jù)獲??;在分析模塊主要根據(jù)數(shù)據(jù)特征以及應(yīng)用要求不同,采用不同的數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)分析;應(yīng)用取決于數(shù)據(jù)分析結(jié)果,一個(gè)應(yīng)用往往需要對(duì)多種數(shù)據(jù)進(jìn)行分析,一種數(shù)據(jù)分析結(jié)果也可以為不同應(yīng)用提供指導(dǎo),本文以數(shù)據(jù)獲取和分析為重點(diǎn),不對(duì)應(yīng)用做具體研究。圖3.1網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為研究機(jī)理3.2基于擴(kuò)展頁(yè)面標(biāo)簽技術(shù)的用戶(hù)行為數(shù)據(jù)獲取方法本文主要采用頁(yè)面標(biāo)簽技術(shù)進(jìn)行數(shù)據(jù)獲取,利用頁(yè)面標(biāo)簽技術(shù)從客戶(hù)端獲取用戶(hù)行為數(shù)據(jù)減少了人為干擾,與傳統(tǒng)問(wèn)卷調(diào)查和觀(guān)察法相比,獲取的數(shù)據(jù)更加真實(shí),與基于日志方法相比降低了服務(wù)器資源的消耗,并且還可以對(duì)各種操作進(jìn)行追蹤,支持功能擴(kuò)展。但是目前基于頁(yè)面標(biāo)簽技術(shù)獲取用戶(hù)行為數(shù)據(jù)主要是針對(duì)普通網(wǎng)站,無(wú)法滿(mǎn)足網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)獲取的需要。針對(duì)當(dāng)前研究中存在的不足,本文對(duì)其功能進(jìn)行了擴(kuò)展,主要實(shí)現(xiàn)以下三個(gè)功能:追蹤異步調(diào)用的用戶(hù)行為數(shù)據(jù);獲取具有空間特征的用戶(hù)行為數(shù)據(jù);基于網(wǎng)絡(luò)狀況實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)上傳?;跀U(kuò)展頁(yè)面標(biāo)簽技術(shù)進(jìn)行用戶(hù)行為數(shù)據(jù)獲取的基本思路是:首先在服務(wù)器或者其他電腦上安裝開(kāi)發(fā)的系統(tǒng)軟件;然后將要被監(jiān)測(cè)的網(wǎng)站添加到軟件中,軟件會(huì)自動(dòng)生成一段用戶(hù)行為監(jiān)測(cè)代碼;最后在網(wǎng)站的</body>標(biāo)簽前面加入一段JavaScript腳本。完成上述操作后,當(dāng)用戶(hù)通過(guò)瀏覽器訪(fǎng)問(wèn)網(wǎng)站時(shí),會(huì)向Web服務(wù)器發(fā)送請(qǐng)求,當(dāng)頁(yè)面在瀏覽器中加載時(shí),會(huì)執(zhí)行包括監(jiān)測(cè)代碼在內(nèi)的所有JavaScript代碼,監(jiān)測(cè)代碼調(diào)用系統(tǒng)中的各項(xiàng)功能,進(jìn)而獲取各種用戶(hù)行為數(shù)據(jù)。3.2.1針對(duì)異步調(diào)用的用戶(hù)行為數(shù)據(jù)獲取Ajax(AsynchronousJavaScriptandXML)即異步的JavaScript和XML,它可以在不刷新頁(yè)面的情況下,實(shí)現(xiàn)數(shù)據(jù)的局部更新,減輕了服務(wù)器負(fù)擔(dān),提高數(shù)據(jù)響應(yīng)速度,減少了用戶(hù)等待時(shí)間。因此網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)在設(shè)計(jì)中大量采用了Ajax技術(shù),但是頁(yè)面標(biāo)簽技術(shù)是根據(jù)瀏覽器中URL變化來(lái)識(shí)別頁(yè)面的,這造成了數(shù)據(jù)獲取的不準(zhǔn)確,在此我們通過(guò)改進(jìn)頁(yè)面標(biāo)簽技術(shù),通過(guò)手動(dòng)觸發(fā)方式對(duì)異步調(diào)用行為進(jìn)行追蹤。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中最為典型就是不同類(lèi)型地理信息資源切換,以此為例本文進(jìn)行詳細(xì)介紹。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)一般會(huì)提供多種類(lèi)型地圖如矢量地圖、衛(wèi)星影像圖、三維立體圖等,當(dāng)不同類(lèi)型地圖進(jìn)行切換時(shí),只是地圖顯示區(qū)域內(nèi)容進(jìn)行局部更新,整個(gè)網(wǎng)頁(yè)并沒(méi)有重新加載,因此可以采用手動(dòng)觸發(fā)方式對(duì)這些操作行為進(jìn)行追蹤,初始代碼為:<ul><li><ahref=”#VectorMap”>矢量地圖</a></li><li><ahref=”#SatelliteImagery”>衛(wèi)星影像</a></li><li><ahref=”#3DMap”>3D地圖</a></li></ul>在地圖類(lèi)型控件對(duì)應(yīng)的標(biāo)簽內(nèi)添加一個(gè)事件,事件中的參數(shù)即為地圖類(lèi)型(頁(yè)面名稱(chēng)),當(dāng)用戶(hù)通過(guò)控件切換地圖時(shí)便會(huì)觸發(fā)相應(yīng)事件,這些事件將不同類(lèi)型地圖當(dāng)作一個(gè)單獨(dú)的面進(jìn)行監(jiān)控,添加事件后的代碼如下:

<ul><li><ahref=”#VectorMap”onclick=”javascript:baTrack.trackPageView(‘矢量地圖’);”>矢量地圖</a></li><li><ahref=”#SatelliteImagery”onclick=”javascript:baTrack.trackPageView(‘衛(wèi)星影像’);”>衛(wèi)星影像</a></li><li><ahref=”#3DMap”onclick=”javascript:baTrack.trackPageView(‘3D地圖’);”>3D地圖</a></li></ul>3.2.2具備空間特征的用戶(hù)行為數(shù)據(jù)獲取在普通網(wǎng)絡(luò)網(wǎng)站中利用頁(yè)面標(biāo)簽技術(shù)獲取的坐標(biāo)多為屏幕坐標(biāo),只需將屏幕與網(wǎng)頁(yè)對(duì)應(yīng)就可以顯示用戶(hù)訪(fǎng)問(wèn)的位置,但是用戶(hù)通過(guò)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)獲取的是地理位置服務(wù),可這些位置與屏幕位置不存在對(duì)應(yīng)關(guān)系,因此在獲取用戶(hù)許多行為數(shù)據(jù)時(shí)需要將獲取的屏幕坐標(biāo)轉(zhuǎn)換為真實(shí)的地理坐標(biāo),例如通過(guò)記錄用戶(hù)點(diǎn)擊鼠標(biāo)位置來(lái)表示空間區(qū)域訪(fǎng)問(wèn)范圍和用戶(hù)搜索使用的關(guān)鍵詞。這里以通過(guò)記錄用戶(hù)點(diǎn)擊鼠標(biāo)位置來(lái)表示空間區(qū)域訪(fǎng)問(wèn)范圍為例進(jìn)行介紹。地圖中數(shù)據(jù)是以瓦片的形式進(jìn)行存儲(chǔ)的,每一個(gè)瓦片都有自己的行列號(hào),通過(guò)這個(gè)行列號(hào)我們可以計(jì)算出屏幕左上角對(duì)應(yīng)的地理坐標(biāo),然后根據(jù)比例尺換算出屏幕每一點(diǎn)對(duì)應(yīng)的地理坐標(biāo)。當(dāng)鼠標(biāo)在屏幕上進(jìn)行點(diǎn)擊時(shí),首先判斷點(diǎn)擊位置是否位于地圖區(qū)域內(nèi),如果是則調(diào)用GetScreenPoint()事件,獲取點(diǎn)擊位置的屏幕坐標(biāo);然后調(diào)用ScreentoMap()事件,計(jì)算點(diǎn)擊位置的地圖坐標(biāo),將屏幕坐標(biāo)轉(zhuǎn)化為經(jīng)緯度進(jìn)行存儲(chǔ)。實(shí)現(xiàn)處理程序如下:if(點(diǎn)擊位置位于地圖圖層顯示區(qū)域){functionGetScreenPoint(){獲取點(diǎn)擊位置對(duì)應(yīng)的屏幕坐標(biāo);獲取地圖顯示區(qū)域左上角屏幕坐標(biāo)及其對(duì)應(yīng)的地圖坐標(biāo);functionScreentoMap(){獲取地圖比例尺;計(jì)算點(diǎn)擊位置在地圖顯示區(qū)域的屏幕相對(duì)位置;將屏幕坐標(biāo)轉(zhuǎn)化為地理經(jīng)緯度坐標(biāo)。}}}當(dāng)需要在地圖上再現(xiàn)點(diǎn)擊位置時(shí)常常以熱力圖方式,首先需要借助一定算法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),確定分類(lèi)數(shù)和中心,然后由經(jīng)緯度轉(zhuǎn)化為屏幕坐標(biāo),以熱力圖形式顯示在屏幕上。其主要流程是:點(diǎn)擊熱力圖顯示按鈕,調(diào)用HeatMap()事件,獲取存儲(chǔ)在數(shù)據(jù)庫(kù)中的經(jīng)緯度,對(duì)數(shù)據(jù)聚類(lèi),確定每一類(lèi)的中心點(diǎn)坐標(biāo),并設(shè)定中心點(diǎn)的顏色以及漸進(jìn)的灰度帶;然后調(diào)用MaptoScreen()事件,將經(jīng)緯度轉(zhuǎn)化為屏幕坐標(biāo),在屏幕上顯示。3.2.3基于網(wǎng)絡(luò)狀況的數(shù)據(jù)動(dòng)態(tài)上傳數(shù)據(jù)上傳是指把從客戶(hù)端獲取的各種用戶(hù)行為數(shù)據(jù)發(fā)送至服務(wù)器數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),以便于對(duì)數(shù)據(jù)進(jìn)行分析和處理。JavaScript是客戶(hù)端腳本語(yǔ)言,無(wú)法與服務(wù)器建立連接,需要借助Ajax(AsynchronousJavaScriptAndXML,異步JavaScript及XML)中的XMLHttpRequest對(duì)象來(lái)很好的實(shí)現(xiàn)數(shù)據(jù)的無(wú)刷新上傳。目前用戶(hù)行為數(shù)據(jù)上傳策略主要有暫存策略和實(shí)時(shí)傳輸,前者只需要在頁(yè)面關(guān)閉時(shí)發(fā)送一次數(shù)據(jù),減輕了服務(wù)器端的壓力,但是加重了客戶(hù)端的壓力,如果數(shù)據(jù)流量過(guò)大,還會(huì)降低頁(yè)面的響應(yīng)速度,降低用戶(hù)體驗(yàn);后者可以實(shí)時(shí)傳輸數(shù)據(jù),但是數(shù)據(jù)比較零散,需要在服務(wù)器端進(jìn)行額外的加工處理,增加了服務(wù)器端的壓力。為了彌補(bǔ)上述兩種方法的不足,本文采用動(dòng)態(tài)上傳數(shù)據(jù)的方法,通過(guò)監(jiān)控用戶(hù)狀態(tài)來(lái)決定數(shù)據(jù)傳輸時(shí)間,如果用戶(hù)空閑則自動(dòng)上傳數(shù)據(jù),如果用戶(hù)操作頻繁則暫時(shí)存儲(chǔ)用戶(hù)行為數(shù)據(jù),當(dāng)頁(yè)面關(guān)閉時(shí)將剩余數(shù)據(jù)一次性上傳。數(shù)據(jù)上傳主要包括兩步,首先在空閑時(shí)傳遞數(shù)據(jù),在A(yíng)jax中數(shù)據(jù)的傳遞方式主要兩種,即通過(guò)XMLHttpRequest對(duì)象的send()方法和open()方法,以查詢(xún)字符串的形式傳遞用戶(hù)行為數(shù)據(jù)。數(shù)據(jù)傳遞的算法描述為:functionUpload(){if(網(wǎng)絡(luò)空閑){傳遞數(shù)據(jù)至上傳模塊;清空已上傳數(shù)據(jù);}間隔一段時(shí)間再次執(zhí)行Upload();}關(guān)閉頁(yè)面時(shí)會(huì)觸發(fā)onbeforeunload()事件,直接將剩余數(shù)據(jù)全部上傳,然后在緩存中清空,事件的處理程序描述如下:window.Onbeforeunload=function(){傳遞數(shù)據(jù)至上傳模塊;清空數(shù)據(jù)緩存;}3.3基于多源異構(gòu)的用戶(hù)行為數(shù)據(jù)分析網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)具有“多源異構(gòu)”特點(diǎn),“多源”主要指數(shù)據(jù)來(lái)源眾多,“異構(gòu)”主要指數(shù)據(jù)結(jié)構(gòu)復(fù)雜,質(zhì)量不一。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)主要包括三種:用戶(hù)背景數(shù)據(jù)、“點(diǎn)擊流”數(shù)據(jù)、網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)應(yīng)用相關(guān)的用戶(hù)行為數(shù)據(jù)。其中用戶(hù)背景數(shù)據(jù)來(lái)自于平臺(tái)數(shù)據(jù)庫(kù),屬于結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)質(zhì)量高,可以直接使用,而“點(diǎn)擊流”數(shù)據(jù)和網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)多屬于非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)質(zhì)量低,需要經(jīng)過(guò)處理后才可以使用。本文主要利用這些數(shù)據(jù)對(duì)網(wǎng)絡(luò)用戶(hù)活躍度、空間區(qū)域訪(fǎng)問(wèn)情況和用戶(hù)相似度進(jìn)行分析研究。3.3.1用戶(hù)活躍度分析用戶(hù)活躍度分析主要是通過(guò)對(duì)一定時(shí)間范圍內(nèi)的“點(diǎn)擊流”數(shù)據(jù)中各指標(biāo)進(jìn)行統(tǒng)計(jì)和分析,來(lái)衡量這一段時(shí)間內(nèi)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)的使用情況,根據(jù)用戶(hù)使用情況研究用戶(hù)的質(zhì)量,評(píng)價(jià)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)的服務(wù)水平,為改進(jìn)平臺(tái)建設(shè)提供指導(dǎo)。網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為數(shù)據(jù)統(tǒng)計(jì)分析時(shí)間范圍設(shè)定如圖3.2。圖3.2時(shí)間范圍設(shè)定空間1.用戶(hù)訪(fǎng)問(wèn)趨勢(shì)分析主要是按照統(tǒng)計(jì)時(shí)間范疇,分析網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)使用情況,由圖3.3可以看出,起初訪(fǎng)問(wèn)量由無(wú)到有然后上升再趨于平穩(wěn),其中有兩個(gè)峰值。這是因?yàn)樵跍y(cè)試之前并未對(duì)網(wǎng)站進(jìn)行監(jiān)控,然后是小組內(nèi)利用幾臺(tái)機(jī)器進(jìn)行測(cè)試,出現(xiàn)峰值是因?yàn)闉榱藴y(cè)試服務(wù)平臺(tái)的穩(wěn)定性多臺(tái)計(jì)算機(jī)多次對(duì)平臺(tái)同時(shí)進(jìn)行訪(fǎng)問(wèn)。此外我們還可以設(shè)置多個(gè)指標(biāo),如圖3.4,通過(guò)對(duì)多個(gè)指標(biāo)進(jìn)行分析,我們可以計(jì)算訪(fǎng)客的忠誠(chéng)度,衡量訪(fǎng)客健康程度和質(zhì)量。圖3.3訪(fǎng)客趨勢(shì)圖(指標(biāo)設(shè)置)圖3.4訪(fǎng)客趨勢(shì)圖2.用戶(hù)訪(fǎng)問(wèn)的時(shí)間分布規(guī)律通過(guò)分析用戶(hù)活動(dòng)在時(shí)間上的分布規(guī)律,可以了解用戶(hù)每天的行為模式。圖3.5為依服務(wù)器時(shí)間記錄的訪(fǎng)問(wèn)次數(shù)統(tǒng)計(jì)直方圖,從圖中可以看到訪(fǎng)問(wèn)主要集中在上班工作時(shí)間,這是因?yàn)槠脚_(tái)處于測(cè)試階段,訪(fǎng)問(wèn)來(lái)自平臺(tái)網(wǎng)站開(kāi)發(fā)人員檢查服務(wù)效果,統(tǒng)計(jì)結(jié)果符合客觀(guān)實(shí)際情況。圖3.5依服務(wù)器時(shí)間記錄的訪(fǎng)問(wèn)次數(shù)直方圖3.用戶(hù)停留時(shí)間分析用戶(hù)使用平臺(tái)是帶有一定目的或需求的,通過(guò)訪(fǎng)問(wèn)停留時(shí)間我們可以推測(cè)平臺(tái)服務(wù)是否達(dá)到用戶(hù)預(yù)期,能否滿(mǎn)足用戶(hù)需求。如果停留時(shí)間過(guò)短占的比例比較大說(shuō)明平臺(tái)內(nèi)容比較“糟糕”,對(duì)用戶(hù)沒(méi)有吸引力;如果停留時(shí)間過(guò)長(zhǎng)占的比例較大,說(shuō)明平臺(tái)服務(wù)設(shè)計(jì)不合理,用戶(hù)感興趣的“知識(shí)”隱藏太深。圖3.6為實(shí)驗(yàn)環(huán)境下數(shù)據(jù),用戶(hù)主要為了查驗(yàn)平臺(tái)運(yùn)行狀況,而不是獲取感興趣內(nèi)容,所以停留時(shí)間較短。圖3.6訪(fǎng)客停留時(shí)間3.3.2基于點(diǎn)擊位置的空間區(qū)域訪(fǎng)問(wèn)分析由于網(wǎng)絡(luò)地圖提供的多為空間信息服務(wù),因此許多用戶(hù)行為數(shù)據(jù)中帶有空間特性,甚至是時(shí)間特性。這些數(shù)據(jù)中包含了位置信息,可以很方便計(jì)算數(shù)據(jù)間的距離,因此非常適合聚類(lèi)分析。在聚類(lèi)的基礎(chǔ)上,借助新型的可視化手段如熱力圖、標(biāo)簽云等,將聚類(lèi)結(jié)果可視化,制作各種可以反應(yīng)數(shù)據(jù)空間分布特征的地圖,從地理維度對(duì)這些數(shù)據(jù)進(jìn)行挖掘。這類(lèi)數(shù)據(jù)中很典型的一類(lèi)是通過(guò)記錄鼠標(biāo)點(diǎn)擊位置獲取的空間區(qū)域訪(fǎng)問(wèn)信息,如果一個(gè)地區(qū)被關(guān)注度很高,我們應(yīng)該提高該地區(qū)數(shù)據(jù)的更新速度,提供更詳細(xì)的數(shù)據(jù)。本小節(jié)以此為例介紹聚類(lèi)分析在該類(lèi)數(shù)據(jù)中的應(yīng)用,并通過(guò)熱力圖與地圖結(jié)合進(jìn)行可視化分析。熱力圖即利用空間統(tǒng)計(jì)的算法,從離散的點(diǎn)事件中找到空間聚集區(qū)域,然后將離散數(shù)據(jù)(事件或事物)的分布及其相互關(guān)系圖示化,常常以一張具備顯著顏色差異圖片的方式呈現(xiàn)最終結(jié)果,亮色一般代表事件發(fā)生頻率較高或事物分布密度較大,暗色反之。生成熱力圖主要包括數(shù)據(jù)處理和熱力圖繪制兩個(gè)階段。1.數(shù)據(jù)處理利用熱力圖對(duì)點(diǎn)數(shù)據(jù)集進(jìn)行可視化首先需要對(duì)數(shù)據(jù)按照一定方式進(jìn)行聚類(lèi),在此采用了K-Means聚類(lèi)算法,因?yàn)闊崃D顯示需要隨著地圖縮放漫游實(shí)時(shí)變化,K-Means算法效率高,可以很好滿(mǎn)足需求。其基本思想是初始隨機(jī)給定K個(gè)聚類(lèi)中心,按照最鄰近原則把待分類(lèi)樣本點(diǎn)分到各個(gè)類(lèi)中。然后按平均法重新計(jì)算各個(gè)類(lèi)的中心,從而確定新的類(lèi)中心。一直迭代,直到類(lèi)中心不變或者移動(dòng)距離小于某個(gè)給定的值。K-means聚類(lèi)流程為:(1)從所有數(shù)據(jù)點(diǎn)中隨機(jī)選取K個(gè)數(shù)據(jù)點(diǎn)作為中心點(diǎn),記下中心點(diǎn)的坐標(biāo);(2)依次測(cè)量剩余數(shù)據(jù)點(diǎn)到每個(gè)中心點(diǎn)的距離,并把它歸到距離最近的中心點(diǎn)的類(lèi);(3)根據(jù)每個(gè)類(lèi)中數(shù)據(jù)點(diǎn)的坐標(biāo)和該類(lèi)中數(shù)據(jù)點(diǎn)個(gè)數(shù),重新計(jì)算已經(jīng)得到的各個(gè)類(lèi)的中心點(diǎn),并記下中心點(diǎn)坐標(biāo)作為新的聚類(lèi)中心;(4)不斷重復(fù)第(2)、(3)步,直至新的中心點(diǎn)與原中心點(diǎn)相等或小于指定閾值,聚類(lèi)結(jié)束。2.熱力圖繪制經(jīng)過(guò)數(shù)據(jù)處理我們得到含有若干點(diǎn)的K個(gè)類(lèi),每個(gè)類(lèi)的中心點(diǎn)就是熱力圖的中心,我們以這些中心點(diǎn),繪制熱力圖,流程如下:(1)計(jì)算類(lèi)中所有點(diǎn)到其中心點(diǎn)的距離;(2)使用漸進(jìn)的灰度帶(完整的灰度帶是0~255),將距離“標(biāo)準(zhǔn)化”為灰度值,中心點(diǎn)的灰度值為255,最遠(yuǎn)距離處的灰度值為0,帶有小數(shù)的數(shù)值根據(jù)四舍五入原則確定;(3)以灰度值為索引,從一條有256種顏色的色帶中映射顏色,從中心點(diǎn)由內(nèi)向外進(jìn)行填充,并對(duì)圖像進(jìn)行著色,從而實(shí)現(xiàn)熱力圖的繪制。結(jié)果如圖3.7:圖3.7基于鼠標(biāo)點(diǎn)擊位置的空間區(qū)域訪(fǎng)問(wèn)熱力圖3.3.3基于特征向量的用戶(hù)相似性分析用戶(hù)行為受到多種因素影響,具有內(nèi)在的規(guī)律性,用戶(hù)訪(fǎng)問(wèn)的內(nèi)容和使用的功能在一定程度上反映了用戶(hù)興趣和偏好。利用這些內(nèi)容構(gòu)建特征向量,可以幫助我們計(jì)算用戶(hù)之間的相似程度,并以此為依據(jù)對(duì)用戶(hù)進(jìn)行分類(lèi),研究不同用戶(hù)之間的異同,分析用戶(hù)需求,為用戶(hù)提供個(gè)性化服務(wù)。這里我們主要利用模糊聚類(lèi)的方法,以用戶(hù)查詢(xún)酒店為例,根據(jù)用戶(hù)查看的酒店類(lèi)型構(gòu)建特征向量,并基于該特征向量完成對(duì)用戶(hù)的分類(lèi),其主要步驟如下[46]:表3.1用戶(hù)查詢(xún)酒店類(lèi)型統(tǒng)計(jì)表行為用戶(hù)X1X2X3U1231U22571U34146U42093U5668U616186U7620U814240U92230U1081812(1)數(shù)據(jù)預(yù)處理首先根據(jù)表3.1的不同用戶(hù)訪(fǎng)問(wèn)地理信息資源次數(shù)計(jì)算每種行為觀(guān)測(cè)點(diǎn)樣本的平均值和標(biāo)準(zhǔn)差。平均值:X標(biāo)準(zhǔn)差:S然后將數(shù)據(jù)標(biāo)準(zhǔn)化:X'ki=圖3.8標(biāo)準(zhǔn)化矩陣(2)根據(jù)歐氏距離,計(jì)算各對(duì)象間的模糊相似矩陣F,公式如下:dr其中c是適當(dāng)選取的參數(shù),對(duì)距離d起到約束作用,保證rij大于0圖3.9模糊相似矩陣(3)根據(jù)F求包含F(xiàn)的最小模糊傳遞矩陣,即F的傳遞閉包t(F)。圖3.10最小模糊傳遞矩陣(4)根據(jù)t(F)和閾值r進(jìn)行分類(lèi),當(dāng)閾值變化時(shí)分類(lèi)結(jié)果發(fā)生變化,我們可以根據(jù)需要和經(jīng)驗(yàn)選定合適閾值。當(dāng)C取0.1時(shí),若r取0.946,結(jié)果如下:圖3.11閾值為0.946時(shí)分類(lèi)結(jié)果實(shí)驗(yàn)表明:用戶(hù)分為四類(lèi),其中用戶(hù)1、6、8為一類(lèi),用戶(hù)2、4、7、9為一類(lèi),用戶(hù)3、10為一類(lèi),用戶(hù)5獨(dú)立成類(lèi)。當(dāng)C取0.1時(shí),若r取0.820,結(jié)果如下:圖3.12閾值為0.820時(shí)分類(lèi)結(jié)果實(shí)驗(yàn)表明:用戶(hù)分為三類(lèi),其中用戶(hù)1、3、6、8、10為一類(lèi),用戶(hù)2、4、7、9為一類(lèi),用戶(hù)5獨(dú)立成類(lèi)。以用戶(hù)選擇酒店類(lèi)型為例,在第一次分類(lèi)中第一類(lèi)用戶(hù)在酒店選擇方面偏好于前兩種,尤其是快捷酒店;第二類(lèi)用戶(hù)在酒店選擇方面更傾向于星級(jí)酒店;第三類(lèi)用戶(hù)在酒店選擇方面后兩種較多,但更傾向于快捷酒店;第四類(lèi)用戶(hù)則比較均衡。由于第一、三類(lèi)用戶(hù)均更偏愛(ài)于快捷酒店,所以當(dāng)分類(lèi)數(shù)目減少時(shí)合為一類(lèi)。如果進(jìn)一步進(jìn)行信息挖掘,第二類(lèi)用戶(hù)消費(fèi)水平最高,屬于商務(wù)人士可能性比較大;第一類(lèi)用戶(hù)次之,選擇快捷酒店原因多為其價(jià)格低廉;第三類(lèi)用戶(hù)消費(fèi)水平低于第一類(lèi),其選擇快捷酒店原因可能是因?yàn)槠浔容^安全可靠;第四類(lèi)用戶(hù)特征不明顯,屬于隨遇而安類(lèi)型。我們可以根據(jù)分析結(jié)果有針對(duì)性的對(duì)用戶(hù)進(jìn)行推薦。3.4本章小結(jié)本章首先分析了網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)中用戶(hù)行為研究機(jī)理,在此基礎(chǔ)上針對(duì)網(wǎng)絡(luò)地理信息服務(wù)平臺(tái)用戶(hù)行為數(shù)據(jù)特點(diǎn),對(duì)頁(yè)面標(biāo)簽技術(shù)進(jìn)行擴(kuò)展,實(shí)現(xiàn)了針對(duì)異步調(diào)用的用戶(hù)行為數(shù)據(jù)、具備空間特征的用戶(hù)行為數(shù)據(jù)獲取,并且實(shí)現(xiàn)了基于網(wǎng)絡(luò)狀況的數(shù)據(jù)動(dòng)態(tài)上傳。最后基于用戶(hù)行為數(shù)據(jù)分析了用戶(hù)的活躍度和相似性,并利用熱力圖對(duì)空間區(qū)域訪(fǎng)問(wèn)數(shù)據(jù)進(jìn)行可視化,這些研究為改善地理信息服務(wù)平臺(tái)提供了科學(xué)依據(jù)。第四章位置服務(wù)中用戶(hù)行為數(shù)據(jù)獲取與分析第四章位置信息服務(wù)中用戶(hù)行為數(shù)據(jù)獲取與分析位置信息服務(wù)已經(jīng)成為一種重要的地理信息應(yīng)用,用戶(hù)在使用這些服務(wù)的同時(shí),往往會(huì)對(duì)位置進(jìn)行標(biāo)注、評(píng)價(jià),這些數(shù)據(jù)反映了用戶(hù)對(duì)該位置關(guān)注程度,是衡量其重要性的一個(gè)重要指標(biāo)。由于目前POI分類(lèi)分級(jí)都是在客觀(guān)調(diào)查基礎(chǔ)上進(jìn)行專(zhuān)家打分,忽略了用戶(hù)需求,而用戶(hù)最關(guān)注的才是最重要的。本章主要基于位置信息服務(wù)中用戶(hù)行為數(shù)據(jù),在遵守POI分類(lèi)分級(jí)基礎(chǔ)上,綜合考慮用戶(hù)因素的影響,建立新的分級(jí)體系,并基于用戶(hù)背景數(shù)據(jù)對(duì)POI進(jìn)行信息挖掘,為提高地理信息服務(wù)水平提供科學(xué)依據(jù)。4.1位置信息服務(wù)中用戶(hù)行為研究機(jī)理隨著GPS、基站定位技術(shù)日漸成熟,移動(dòng)智能終端設(shè)備的普及以及移動(dòng)網(wǎng)絡(luò)的迅速發(fā)展,眾多應(yīng)用都嵌入了位置服務(wù),極大的便利了人們的日常生活。從目前位置服務(wù)的整體來(lái)看位置服務(wù)內(nèi)容主要可以概括為:位置社交(如QQ、微博等)、工具類(lèi)應(yīng)用(如導(dǎo)航、團(tuán)購(gòu)等)、傳統(tǒng)位置服務(wù)(如車(chē)輛管理、信息查詢(xún))三大類(lèi)。位置服務(wù)應(yīng)用廣泛,這導(dǎo)致了用戶(hù)行為數(shù)據(jù)來(lái)源多樣化,但由于商業(yè)機(jī)密或者保護(hù)用戶(hù)隱私,有些用戶(hù)行為數(shù)據(jù)我們無(wú)法通過(guò)網(wǎng)絡(luò)獲取,例如出租車(chē)軌跡;有些應(yīng)用不是針對(duì)普通大眾或者數(shù)據(jù)內(nèi)容不滿(mǎn)足本文研究需要,如飛行軌跡數(shù)據(jù)。在此選取數(shù)據(jù)開(kāi)放度高,信息豐富,用戶(hù)覆蓋范圍廣的微博作為數(shù)據(jù)來(lái)源,研究位置服務(wù)中的用戶(hù)行為機(jī)理,如圖4.1。位置信息服務(wù)中用戶(hù)行為研究主要分為數(shù)據(jù)獲取和數(shù)據(jù)分析兩個(gè)階段,數(shù)據(jù)獲取階段主要采用基于A(yíng)PI與網(wǎng)絡(luò)爬蟲(chóng)相融合的方法,該方法首先基于A(yíng)PI獲取種子文件,然后利用網(wǎng)絡(luò)爬蟲(chóng)根據(jù)種子文件獲取用戶(hù)行為數(shù)據(jù),該方法既可以避免基于A(yíng)PI獲取數(shù)據(jù)量受到限制問(wèn)題,又可以克服網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)缺乏針對(duì)性,效率較低問(wèn)題。獲取的用戶(hù)行為數(shù)據(jù)中主要包含位置屬性數(shù)據(jù)和用戶(hù)背景數(shù)據(jù),前者反應(yīng)了該P(yáng)OI受到用戶(hù)的關(guān)注程度,是衡量其重要性的一個(gè)重要指標(biāo);后者反映了關(guān)注該P(yáng)OI的用戶(hù)類(lèi)型,可以用來(lái)分析POI的受眾類(lèi)型,豐富POI的屬性信息。圖4.1位置信息服務(wù)中用戶(hù)行為機(jī)理4.2基于A(yíng)PI與網(wǎng)絡(luò)爬蟲(chóng)融合的用戶(hù)行為數(shù)據(jù)獲取4.2.1基于A(yíng)PI獲取數(shù)據(jù)的原理微博開(kāi)放平臺(tái)根據(jù)功能開(kāi)發(fā)需要開(kāi)放了眾多的API接口。根據(jù)接口功能劃分主要分為三類(lèi)接口:微博基礎(chǔ)數(shù)據(jù)接口,例如微博訪(fǎng)問(wèn)接口、用戶(hù)接口和關(guān)注接口;微博地理位置信息接口,例如地圖引擎接口、POI數(shù)據(jù)處理接口和移動(dòng)定位接口等;測(cè)試接口,如help/test測(cè)試接口。在微博開(kāi)放平臺(tái)上獲取應(yīng)用首先需要注冊(cè)一個(gè)微博賬戶(hù),然后提交個(gè)人的實(shí)際信息,供微博開(kāi)放平臺(tái)核準(zhǔn)確認(rèn)(OAUTH授權(quán)),只有通過(guò)審核后的用戶(hù)才可以獲得開(kāi)發(fā)者身份,進(jìn)而創(chuàng)建自己的應(yīng)用。創(chuàng)建開(kāi)發(fā)應(yīng)用時(shí),用戶(hù)會(huì)獲取兩個(gè)重要的參數(shù):APPKey和SecretKey,前者是開(kāi)發(fā)者創(chuàng)建的應(yīng)用標(biāo)識(shí),主要用來(lái)供程序來(lái)識(shí)別應(yīng)用;后者是平臺(tái)分配給創(chuàng)建的應(yīng)用的密鑰,主要用來(lái)確保該應(yīng)用的真實(shí)性和安全性。通過(guò)OAUTH授權(quán)解決了程序訪(fǎng)問(wèn)新浪微博API的用戶(hù)身份認(rèn)證問(wèn)題,用戶(hù)可以根據(jù)需要調(diào)用相應(yīng)接口獲取數(shù)據(jù),其流程如圖4.2:圖4.2新浪微博API數(shù)據(jù)獲取程序流程為了方便調(diào)用API,新浪微博提供了一套軟件開(kāi)發(fā)包即新浪SDK,其中封裝了從授權(quán)認(rèn)證到數(shù)據(jù)獲取與解析的各項(xiàng)功能。SDK是建立在A(yíng)PI基礎(chǔ)上的集成與開(kāi)發(fā),可以支持Python、C++、PHP、JAVA、JavaScript等十幾種計(jì)算機(jī)語(yǔ)言,并且可以在手機(jī)、平板電腦等移動(dòng)設(shè)備上使用,它的使用極大地減少了程序開(kāi)發(fā)的工作量,但是存在著開(kāi)發(fā)不完善,在功能上和穩(wěn)定性方面均不如API[46,47]。雖然通過(guò)開(kāi)放API可以方便獲取微博數(shù)據(jù),但是獲取數(shù)據(jù)的數(shù)量和類(lèi)型受到限制,許多數(shù)據(jù)獲取必須獲得高級(jí)權(quán)限。為了均衡服務(wù)器負(fù)載,新浪微博API服務(wù)商除了限定單頁(yè)返回記錄最大為50條以外,對(duì)用戶(hù)的API接口訪(fǎng)問(wèn)頻次做了限制,普通授權(quán)、中級(jí)授權(quán)和高級(jí)授權(quán)用戶(hù)在使用一個(gè)應(yīng)用請(qǐng)求頻次均不能超過(guò)2000次/小時(shí)。4.2.2基于網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)的原理基于網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)主要涉及網(wǎng)頁(yè)獲取和頁(yè)面內(nèi)容解析兩部分,首先利用網(wǎng)絡(luò)爬蟲(chóng)來(lái)獲取目標(biāo)網(wǎng)頁(yè),然后利用頁(yè)面解析技術(shù)獲取頁(yè)面內(nèi)容。1.網(wǎng)頁(yè)獲取網(wǎng)絡(luò)爬蟲(chóng)工作基本原理是:網(wǎng)頁(yè)之間一般都是通過(guò)鏈接進(jìn)行跳轉(zhuǎn),如果將每一個(gè)頁(yè)面看作一個(gè)節(jié)點(diǎn),網(wǎng)頁(yè)之間的鏈接看作連接節(jié)點(diǎn)的一條有向邊,這樣就可以構(gòu)成一個(gè)有向圖。網(wǎng)絡(luò)爬蟲(chóng)可以對(duì)網(wǎng)頁(yè)進(jìn)行類(lèi)似于有向圖的遍歷,從設(shè)定的一個(gè)或者多個(gè)節(jié)點(diǎn)出發(fā),下載相應(yīng)網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)中的其他URL鏈接,進(jìn)而根據(jù)這些URL遍歷其他節(jié)點(diǎn)。為了提高網(wǎng)絡(luò)爬蟲(chóng)工作效率,避免重復(fù)獲取網(wǎng)頁(yè),在URL獲取過(guò)程中一般會(huì)采用一定的抓取策略,常用的策略有:(1)深度優(yōu)先策略:爬蟲(chóng)從起始頁(yè)開(kāi)始,持續(xù)跟蹤一條線(xiàn)路里的鏈接,直至處理完整條線(xiàn)路然后返回起始頁(yè),繼續(xù)跟蹤起始頁(yè)的子節(jié)點(diǎn)。(2)廣度(寬度)優(yōu)先策略:網(wǎng)絡(luò)爬蟲(chóng)先抓取起始頁(yè)中所有鏈接,然后逐次選擇一個(gè)鏈接,繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。(3)最佳優(yōu)先搜索策略:利用一定的算法,計(jì)算待抓取的網(wǎng)頁(yè)的鏈接與目標(biāo)頁(yè)面的相關(guān)程度,優(yōu)先爬取與主題相關(guān)度高的頁(yè)面。2.頁(yè)面內(nèi)容解析HTML頁(yè)面結(jié)構(gòu)是半結(jié)構(gòu)化的,在HTML頁(yè)面中使用不同的標(biāo)簽及其屬性來(lái)表示文本具有的不同意義,這些標(biāo)簽一般都是成對(duì)出現(xiàn)的,數(shù)據(jù)內(nèi)容就存儲(chǔ)在了一對(duì)標(biāo)簽之中。一個(gè)典型的網(wǎng)頁(yè)結(jié)構(gòu)如下:<html><head><title>頁(yè)面標(biāo)題</title></head><body>//包含主要的文本數(shù)據(jù)……<ahref=”鏈接”>內(nèi)容</a>……</body></html>獲取的HTML頁(yè)面在結(jié)構(gòu)上基本是一致的,根據(jù)文檔具體結(jié)構(gòu),設(shè)計(jì)程序利用正則表達(dá)式便可以從頁(yè)面中有選擇地提取需要的內(nèi)容,按照一定格式存儲(chǔ)。在新浪微博中只有登錄后才可以訪(fǎng)問(wèn)微博信息,所以在獲取數(shù)據(jù)前需要登錄微博平臺(tái),目前解決方法是利用程序模擬用戶(hù)登錄行為[46,48]。利用網(wǎng)絡(luò)爬蟲(chóng)可以不受限制獲取數(shù)據(jù),但是爬蟲(chóng)需要不斷計(jì)算URL相關(guān)度,或者遍歷所有URL,造成了不必要開(kāi)銷(xiāo),因此基于網(wǎng)絡(luò)爬蟲(chóng)獲取效率低于基于A(yíng)PI方法。4.2.3基于A(yíng)PI與網(wǎng)絡(luò)爬蟲(chóng)融合的數(shù)據(jù)獲取方法基于A(yíng)PI獲取數(shù)據(jù)的方式效率高,但是受到來(lái)自服務(wù)器的限制,當(dāng)數(shù)據(jù)量比較大時(shí)不能獲取到完整的數(shù)據(jù)集?;诰W(wǎng)絡(luò)爬蟲(chóng)的獲取方式雖然可以獲取完整數(shù)據(jù)集,但是效率低下。在此我們將兩者結(jié)合起來(lái),提高數(shù)據(jù)的獲取效果。具體流程如圖4.3:圖4.3基于A(yíng)PI與網(wǎng)絡(luò)爬蟲(chóng)融合的數(shù)據(jù)獲取方法由圖可以看出,該方法主要分類(lèi)兩部分:第一部分主要利用開(kāi)放API獲取所需的種子文件,確定初始的URL,將URL提供給網(wǎng)絡(luò)爬蟲(chóng)模塊;第二部分是網(wǎng)絡(luò)爬蟲(chóng)模塊,該模塊根據(jù)初始URL獲取頁(yè)面,進(jìn)行頁(yè)面解析,獲取所需內(nèi)容并根據(jù)微博中URL的規(guī)律構(gòu)建新的URL集合,獲取所有相關(guān)頁(yè)面,直到程序滿(mǎn)足結(jié)束條件。以新浪微博中簽到數(shù)據(jù)為例,首先利用API獲取POI的ID信息,根據(jù)其ID信息構(gòu)建初始URL,然后爬蟲(chóng)模塊通過(guò)URL獲取相應(yīng)的頁(yè)面,通過(guò)頁(yè)面解析獲取每個(gè)POI簽到頁(yè)數(shù),利用簽到頁(yè)面URL規(guī)律循環(huán)抓取所有簽到頁(yè)面,利用頁(yè)面解析技術(shù)獲取所需內(nèi)容。在此利用上述方法獲取全國(guó)范圍和鄭州周邊兩個(gè)尺度下的旅游景點(diǎn)在微博中的用戶(hù)簽到數(shù)據(jù)作為本章節(jié)實(shí)驗(yàn)數(shù)據(jù)。首先在全國(guó)范圍內(nèi)從全國(guó)1A-5A以及非A級(jí)共5138個(gè)旅游景點(diǎn)中[49]按照不同級(jí)別進(jìn)行不放回簡(jiǎn)單隨機(jī)抽樣,總共6個(gè)簡(jiǎn)單隨機(jī)樣本,單個(gè)樣本容量為25,從新浪位置微博站點(diǎn)[50]上爬取各旅游景點(diǎn)的微博數(shù)、簽到人數(shù)和圖片數(shù)等信息。在鄭州范圍內(nèi)對(duì)百度旅游-鄭州旅游景點(diǎn)[51]中所推薦的179個(gè)旅游景點(diǎn)進(jìn)行篩選,最終選取了鄭州市及其周邊58個(gè)旅游景點(diǎn),簽到總?cè)藬?shù)為70721(獲取的最后時(shí)間為2014年8月15日),其中4個(gè)3A景點(diǎn)和2個(gè)2A景點(diǎn)(表格中陰影區(qū)域)由于簽到人數(shù)不滿(mǎn)100,沒(méi)有獲取詳細(xì)的簽到用戶(hù)信息。獲取的簽到用戶(hù)數(shù)據(jù)總共包括8項(xiàng):用戶(hù)ID、用戶(hù)名稱(chēng)、性別、地區(qū)、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)和簽到時(shí)間,具體參見(jiàn)表4.1。表4.1獲取的簽到用戶(hù)信息數(shù)據(jù)項(xiàng)數(shù)據(jù)項(xiàng)數(shù)據(jù)類(lèi)型舉例用戶(hù)ID字符串299****627用戶(hù)名稱(chēng)字符串框***桑性別枚舉型男地區(qū)字符串天津?yàn)I海新區(qū)關(guān)注數(shù)整型19粉絲數(shù)整型2微博數(shù)整型2簽到時(shí)間日期型2012/4/2819:39:004.3基于用戶(hù)行為數(shù)據(jù)的POI重要性評(píng)價(jià)和信息挖掘4.3.1基于EDA的用戶(hù)行為數(shù)據(jù)分析探索性數(shù)據(jù)分析(EDA)是在盡量少的先驗(yàn)假設(shè)條件下對(duì)通過(guò)觀(guān)察、測(cè)量等手段對(duì)初步得到的雜亂無(wú)章的數(shù)據(jù)進(jìn)行處理,借助作圖、制表等形式或者通過(guò)計(jì)算某些特征量、方程擬合等手段來(lái)探測(cè)數(shù)據(jù)的結(jié)構(gòu)和規(guī)律。它從原始數(shù)據(jù)出發(fā),完全以實(shí)際數(shù)據(jù)為依據(jù),具有分析方法靈活,結(jié)果直觀(guān)簡(jiǎn)單等特點(diǎn)。利用探索性數(shù)據(jù)分析(EDA)可以對(duì)來(lái)自網(wǎng)絡(luò)的無(wú)序的數(shù)據(jù)進(jìn)行處理,使其符合某種分布,在此基礎(chǔ)上借助傳統(tǒng)的數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)發(fā)掘,避免當(dāng)數(shù)據(jù)偏離假定所描述的模型時(shí),傳統(tǒng)分析方法分析效果很差甚至錯(cuò)誤。本文選擇探索性數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)分析,主要用于判斷數(shù)據(jù)是否服從正態(tài)分布,如果數(shù)據(jù)不服從正態(tài)分布則利用冪變換和極小異常值檢測(cè)等手段將非正態(tài)分布數(shù)據(jù),變?yōu)檎龖B(tài)分布。1.數(shù)據(jù)分布正態(tài)性判斷(1)設(shè)有n個(gè)數(shù)據(jù),經(jīng)從小到大排序后記為:,這組數(shù)據(jù)的中位數(shù)是M。此時(shí),當(dāng)n是偶數(shù)時(shí),;當(dāng)n是奇數(shù)時(shí),。(2)次序統(tǒng)計(jì)量:四分?jǐn)?shù)F,八分?jǐn)?shù)E,十六分?jǐn)?shù)D,三十二分?jǐn)?shù)C等,其中它們均有兩個(gè)值,下四分?jǐn)?shù)是處于中位數(shù)與最小值的半中間的那個(gè)數(shù),上四分?jǐn)?shù)是中位數(shù)與最大值的半中間的那個(gè)數(shù);下八分?jǐn)?shù)是處于下四分?jǐn)?shù)與最小值的半中間的那個(gè)數(shù),上八分?jǐn)?shù)是上四分?jǐn)?shù)與最大值的半中間的那個(gè)數(shù);依次類(lèi)推十六分?jǐn)?shù),三十二分?jǐn)?shù)等。次序統(tǒng)計(jì)量的深度:將一個(gè)數(shù)在一組數(shù)據(jù)中所處位置稱(chēng)為這個(gè)數(shù)的深度。M的深度=d(M)=F的深度=d(F)=C的深度=d(C)=其中表示求不超過(guò)x的最大整數(shù)運(yùn)算。(4)次序統(tǒng)計(jì)量的中總括值:對(duì)于每一個(gè)次序統(tǒng)計(jì)量的2個(gè)值,其平均值稱(chēng)為該次序統(tǒng)計(jì)量的中總括值,如下:M的中總括=中位數(shù)F的中總括=E的中總括=D的中總括=C的中總括=對(duì)于一組排好序的數(shù)據(jù),按照上述4個(gè)步驟可求出5個(gè)中總括,若這5個(gè)值既無(wú)遞增趨勢(shì)也沒(méi)遞減趨勢(shì),且大小均相近,則這組數(shù)據(jù)是正態(tài)或近似正態(tài)的。如它們是遞增的,則數(shù)據(jù)分布是偏正態(tài)的;若它們是遞減的,則數(shù)據(jù)分布是負(fù)偏態(tài)的。2.偏態(tài)冪變換若數(shù)據(jù)不服從正態(tài)分布,則可對(duì)每一個(gè)數(shù)據(jù)進(jìn)行冪變換來(lái)消除偏性,變換后得到一組新的數(shù)據(jù):。變換的冪的大小p如下確定:(1)對(duì)每一個(gè)次序統(tǒng)計(jì)量T(T=F,E,D,C),求經(jīng)過(guò)(0,0),(x,y)的直線(xiàn)方程的斜率b,計(jì)算如下:(2)對(duì)上述步驟得到的4個(gè)斜率,計(jì)算其中位數(shù),則取變換的冪,若實(shí)際計(jì)算中p是小數(shù),可取與其相近的兩個(gè)整數(shù)分別計(jì)算,再取最合適的那個(gè)值作為p.(3)冪變換后的數(shù)據(jù)做正態(tài)性判斷:首先,按上述提到的方法計(jì)算變換后的數(shù)據(jù)的5個(gè)中總括值,將相鄰的兩個(gè)中總值相減,得到4個(gè)差值。如果這4個(gè)差值中各有兩正兩負(fù),則說(shuō)明變換后的數(shù)據(jù)基本是正態(tài)分布。反之,則要再調(diào)整p值,當(dāng)分布正偏時(shí),調(diào)低p值;當(dāng)分布負(fù)偏時(shí),調(diào)高p值。3.基于改進(jìn)格拉布斯準(zhǔn)則的數(shù)據(jù)異常值檢測(cè)由于樣本中會(huì)存在極小異常值,這些異常值存在導(dǎo)致冪變換后數(shù)據(jù)仍然不服從正態(tài)分布,因此需要剔除這些異常數(shù)據(jù),在此基礎(chǔ)上在進(jìn)行冪變換。最常用的異常值檢測(cè)方法是格拉布斯準(zhǔn)則,但該準(zhǔn)則適用于兩端的極值異常檢測(cè),因此需要對(duì)該準(zhǔn)則增加“僅檢測(cè)極小異常值”的約束條件,本文改進(jìn)后的格拉布斯準(zhǔn)則算法如圖4.4:圖4.4僅檢測(cè)“極小異常值”的格拉布斯準(zhǔn)則算法改進(jìn)格拉布斯準(zhǔn)則改進(jìn)算法流程:(1)計(jì)算初始樣本的樣本均值A(chǔ)和標(biāo)準(zhǔn)差σ;(2)如果樣本均值A(chǔ)-2σ小于0,證明該分布在置信區(qū)間內(nèi)(置信度取95%)簽到人數(shù)存在負(fù)值,因此認(rèn)為樣本中的極小值為異常值,去除該異常值,生成了新的樣本,返回到第(1)步。(3)如果樣本均值A(chǔ)-2σ不小于0,找到殘差中的極值,并計(jì)算格拉布斯臨界值M,如果M小于閾值,認(rèn)為樣本中不存在異常值,算法結(jié)束。如果M大于閾值,去除樣本中的極小值后,生成了新的樣本,返回到第(1)步。4.3.2基于用戶(hù)關(guān)注度的POI分級(jí)體系建立盡管在地理信息應(yīng)用中,已經(jīng)科學(xué)的建立了一套POI重要性評(píng)價(jià)模型,依靠客觀(guān)調(diào)查進(jìn)行專(zhuān)家打分,從而給出POI的分級(jí)體系[53,54],但是這種分級(jí)方法忽略了用戶(hù)這一至關(guān)重要的因素,因?yàn)閺挠脩?hù)角度講,其需要的才是最重要的。因此我們?cè)赑OI分級(jí)體系建立過(guò)程中必須考慮到用戶(hù)這一因素。用戶(hù)在使用位置信息服務(wù)時(shí),會(huì)留下自己的“足跡”,通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)比較,可以反映到達(dá)不同地點(diǎn)的人數(shù)多少,是衡量用戶(hù)對(duì)此POI關(guān)注度的一個(gè)重要指標(biāo)。但是單純依靠用戶(hù)關(guān)注程度建立POI分級(jí)體系,會(huì)忽略掉POI的許多客觀(guān)價(jià)值,如“集安市高句麗文物古跡旅游景區(qū)”,雖然在2004年就被列入《世界文化遺產(chǎn)名錄》,但由于地處偏遠(yuǎn)(吉林省東南邊陲,與朝鮮隔江相望),因此在新浪位置微博上僅有2人簽到的信息。因此基于用戶(hù)關(guān)注程度建立POI分級(jí)體系,是在遵循科學(xué)客觀(guān)的分級(jí)基礎(chǔ)之上,結(jié)合用戶(hù)關(guān)注程度建立新的POI分級(jí)體系,其中包括兩個(gè)指標(biāo):通過(guò)專(zhuān)家打分建立的分級(jí)體系和用戶(hù)關(guān)注度。在新的分級(jí)標(biāo)準(zhǔn)中由于依靠專(zhuān)家打分建立的POI分級(jí)體系的分級(jí)結(jié)果多是定序變量,如景點(diǎn)分為1A到5A,而用戶(hù)關(guān)注程度多為定距變量,如微博數(shù)的多少。因此需要將定距變量轉(zhuǎn)換為定序變量,即“關(guān)注度高”、“相適應(yīng)”、“關(guān)注度低”。用戶(hù)關(guān)注度的“高”和“低”是一個(gè)相對(duì)概念,比如,比如一個(gè)5A景點(diǎn)簽到人數(shù)為500,會(huì)被認(rèn)為關(guān)注度“低”,但是對(duì)于一個(gè)1A景點(diǎn)來(lái)說(shuō),則被認(rèn)為關(guān)注度“高”。如果同一級(jí)別的POI用戶(hù)關(guān)注度呈正態(tài)分布,那么從統(tǒng)計(jì)角度出發(fā),可以認(rèn)為在均值的1個(gè)標(biāo)準(zhǔn)差范圍內(nèi)的人數(shù)都是和該級(jí)別的POI相適應(yīng)的,而在1個(gè)標(biāo)準(zhǔn)差范圍以外的,則被認(rèn)為用戶(hù)關(guān)注度過(guò)“高”或者過(guò)“低”,如下所示:0其中A為樣本均值,σ為標(biāo)準(zhǔn)差。在此

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論