版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
XXXX大學(xué)研究生學(xué)位論文自評表學(xué)號作者層次□博士t碩士□工程碩士□同等學(xué)力碩士學(xué)科專業(yè)地圖學(xué)與地理信息系統(tǒng)論文題目網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)獲取與分析研究作者對論文創(chuàng)新點的綜述(不超過5項,并標(biāo)注對應(yīng)的論文章節(jié))、取得的主要成果及有待改進(jìn)之處的評述:論文創(chuàng)新點本文在分析現(xiàn)有的用戶行為數(shù)據(jù)獲取和分析方法基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)地理信息應(yīng)用特點。通過擴展和改進(jìn)頁面標(biāo)簽技術(shù),實現(xiàn)了網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)獲取,并利用統(tǒng)計分析、模糊聚類分析等方法對用戶的活躍度和相似性進(jìn)行分析;利用API與網(wǎng)絡(luò)爬蟲融合技術(shù)獲取了位置信息服務(wù)中用戶行為數(shù)據(jù),提高了數(shù)據(jù)獲取效率,并利用探索性數(shù)據(jù)分析方法,探索了新的地理要素重要性評價方法,基于用戶背景數(shù)據(jù)對景點進(jìn)行信息挖掘。本文創(chuàng)新點如下:(1)建立了網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為數(shù)據(jù)分類體系,并以此為基礎(chǔ)構(gòu)建了網(wǎng)絡(luò)地理信息應(yīng)用的用戶行為數(shù)據(jù)獲取和分析研究框架;(第二章)(2)通過對傳統(tǒng)頁面標(biāo)簽技術(shù)進(jìn)行改進(jìn)和功能擴展,實現(xiàn)了從地理信息服務(wù)平臺中獲取用戶訪問空間資源類型、用戶訪問空間位置等特有的用戶行為數(shù)據(jù)的方法;(第三章)(3)結(jié)合位置服務(wù)所提供的API和通用網(wǎng)絡(luò)爬蟲技術(shù),設(shè)計了一種空間爬取策略,實現(xiàn)了從位置服務(wù)平臺(新浪位置微博)中高效獲取用戶簽到信息,并能從中提取用戶行為數(shù)據(jù)的方法;(第四章)(4)利用探索性數(shù)據(jù)分析方法對位置信息服務(wù)中用戶行為數(shù)據(jù)進(jìn)行分析,以旅游景點用戶簽到數(shù)據(jù)為例,探討了用戶視角的旅游景點分類分級方法,并研究了“性別”、“地域”和“時間”對景點選擇的影響。(第四章)2.取得的主要成果1.導(dǎo)航電子地圖自適應(yīng)用戶模型構(gòu)建與匹配研究[J],《測繪與地理空間信息》,2015年第2期,第一作者.2.基于模糊綜合評測法的移動電子地圖分析研究[J],《測繪通報》,2014年第6期,第二作者.3.TheDesignofGeo-spatialMetadataArchitectureforDigitalBoundary[C]“周邊地緣建模與解析”國際研討會,2013年,第二作者.4.一種個人地理標(biāo)記數(shù)據(jù)的可視化方法[J],《測繪學(xué)報》,2015年第2期,第四作者.5.一種基于標(biāo)簽云的與位置關(guān)聯(lián)的文本信息方法可視化[J],《武漢大學(xué)學(xué)報·信息科學(xué)版》,已錄用,第四作者.6.LBS移動導(dǎo)航電子地圖的空間認(rèn)知研究[J],《地礦測繪》,2013年3月,第四作者.7.一種基于位置簽到數(shù)據(jù)的旅游景點評價方法[J],《測繪科學(xué)與技術(shù)》,已錄用,第二作者.3.需要進(jìn)一步研究內(nèi)容網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為研究涉及到多個學(xué)科知識,如心理學(xué)、社會學(xué)、行為科學(xué)、統(tǒng)計學(xué)、計算機網(wǎng)絡(luò)技術(shù)等,以及需要借助新的可視化手段,如熱力圖、標(biāo)簽云。本文雖然對網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為數(shù)據(jù)獲取和分析的理論、技術(shù)和方法進(jìn)行研究,并取得一定成果,但要真正實現(xiàn)對用戶的認(rèn)知仍然需要對相關(guān)理論和技術(shù)進(jìn)行深入研究,概括起來主要表現(xiàn)在以下幾個方面:(1)進(jìn)一步完善數(shù)據(jù)獲取和處理方法:對用戶認(rèn)知是建立在海量數(shù)據(jù)分析之上的,用戶數(shù)據(jù)來源眾多,如何實現(xiàn)多源數(shù)據(jù)的融合,提高數(shù)據(jù)質(zhì)量成為用戶行為研究的重要一環(huán)。在“大數(shù)據(jù)”背景下,應(yīng)當(dāng)借鑒大數(shù)據(jù)獲取與處理的理論方法和技術(shù)。(2)建立和完善相應(yīng)的理論體系:目前該方面的研究比較分散,尚未形成規(guī)模,不成體系,缺乏系統(tǒng)科學(xué)的理論進(jìn)行指導(dǎo)。(3)進(jìn)一步深入研究用戶行為的分析方法:目前研究多是基于數(shù)學(xué)方法分析用戶行為,但是用戶行為往往是在復(fù)雜的環(huán)境中受到多重因素影響條件下發(fā)生的。(4)建立相關(guān)的安全機制,制定相關(guān)的法律規(guī)范:在用戶數(shù)據(jù)獲取過程中可能涉及用戶的隱私,盡量避免數(shù)據(jù)獲取時產(chǎn)生倫理道德問題。學(xué)號:論文密級:公開中圖分類號:P208學(xué)科分類號:170.4599學(xué)校代碼:碩士學(xué)位論文網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)獲取與分析研究Acquisition
and
Analysis
of
User’s
Data
in
NetworkGeographicInformationApplication論文作者:指導(dǎo)教師:申請學(xué)位:理學(xué)碩士學(xué)科名稱:地圖學(xué)與地理信息系統(tǒng)研究方向:互聯(lián)網(wǎng)空間數(shù)據(jù)挖掘論文提交日期:2015年4月20日論文答辯日期:2015年月日XXXXXX大學(xué)XXXXXX學(xué)院二○一五年四月
ADissertationSubmittedtoXXXXXXUniversityfortheDegreeofMasterofScience
第頁第二章網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為研究框架網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為的研究有助于我們認(rèn)知用戶需求和行為規(guī)律,雖然許多學(xué)者認(rèn)識到對用戶行為研究重要,并取得了一定研究成果,但是這些研究多是通過傳統(tǒng)的問卷調(diào)查、實驗觀察等方法獲取用戶行為數(shù)據(jù)。目前針對用戶真實的在線行為數(shù)據(jù)研究比較零散,尚不成體系,因此需要建立系統(tǒng)的研究框架。本章在已有的用戶行為研究基礎(chǔ)上,借鑒相關(guān)領(lǐng)域研究,結(jié)合網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)的特點,建立網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為研究框架,為接下來的研究提供指導(dǎo),奠定研究的理論基礎(chǔ)。2.1網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)及特點傳統(tǒng)意義上,用戶就是信息的接受者,即用戶是信息傳播的最終環(huán)節(jié),但是在Web2.0時代,社會成員或者組織在獲取并利用信息的同時,也伴隨著新的信息產(chǎn)生和傳播,表現(xiàn)為用戶與信息、用戶與用戶之間的交互作用機制,因此當(dāng)社會成員或者組織通過一定途徑獲取信息或者進(jìn)行交互時,均稱為用戶。根據(jù)上面對用戶的定義面向網(wǎng)絡(luò)地理信息應(yīng)用的用戶可以分為兩類:一類是網(wǎng)絡(luò)地理信息服務(wù)平臺的使用者,這類用戶在網(wǎng)絡(luò)地理信息服務(wù)平臺上瀏覽、查詢、搜索信息時,會產(chǎn)生一系列的操作行為,這些數(shù)據(jù)記錄了用戶“從哪里來”、“到哪里去”、“做了什么”、“如何做的”等,這是我們認(rèn)知用戶興趣偏好和行為模式的重要資源,是衡量地理信息服務(wù)網(wǎng)站使用狀況,提高網(wǎng)站可用性,實現(xiàn)個性化服務(wù)的重要依據(jù);而另一類是使用位置服務(wù)的用戶,這類用戶雖然操作行為比較簡單,但是其生成的數(shù)據(jù)中包含了大量用戶行為信息,例如微博中的簽到數(shù)據(jù)如圖2.1,包含了用戶的ID、地域、時間以及該地點的圖片、評價等信息,如果將一個用戶的多個簽到數(shù)據(jù)進(jìn)行連接,我們則可以發(fā)現(xiàn)用戶的運動軌跡。這些數(shù)據(jù)一方面可以幫助我們了解用戶現(xiàn)實生活,另一方面可以衡量POI的重要程度,豐富POI的屬性信息。圖2.1微博中用戶簽到數(shù)據(jù)(少林寺)無論是用戶在使用網(wǎng)絡(luò)地理信息服務(wù)平臺時產(chǎn)生的各種操作還是使用位置信息服務(wù)時生成的數(shù)據(jù)都呈現(xiàn)出以下特點:(1)知識豐富,升級速度快:經(jīng)過長時間的積累,網(wǎng)絡(luò)地理信息應(yīng)用已經(jīng)擁有大量的用戶,培養(yǎng)了用戶習(xí)慣,這些用戶使用相關(guān)應(yīng)用獲取信息同時,產(chǎn)生了大量數(shù)據(jù),這些數(shù)據(jù)揭示了用戶行為,反映了現(xiàn)實世界變化。(2)主動性強,特點鮮明:用戶使用網(wǎng)絡(luò)地理信息應(yīng)用時帶有一定的目的性,具有明顯的行為偏好,使用習(xí)慣不受地域和時域的限制。(3)隨機性與規(guī)律性并存:個體用戶行為特征具有很大的隨機性,但從整體上看又具有很強的規(guī)律性。(4)隱蔽性強:很多用戶行為都是在匿名狀態(tài)下進(jìn)行的,由于在虛擬網(wǎng)絡(luò)空間環(huán)境中對用戶行為難以形成有效的監(jiān)管,傳播的信息的真實性難以判斷,并且信息在物質(zhì)媒介中傳播也具有隱蔽性。(5)標(biāo)準(zhǔn)不一:一方面由于缺少統(tǒng)一規(guī)范,用戶產(chǎn)生的數(shù)據(jù)多為非結(jié)構(gòu)化的;另一方面由于文化程度、專業(yè)素質(zhì)不同,用戶提供的數(shù)據(jù)的準(zhǔn)確度也存在很大差異。(6)多維特性:網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為數(shù)據(jù)既有一維屬性數(shù)據(jù),又有二維的空間數(shù)據(jù)以及具有屬性特征、空間特征和時間特征的多維數(shù)據(jù)。用戶行為受到來自自身的屬性、信息與信息環(huán)境、社會和自然環(huán)境等多重因素的影響,因此造成了用戶行為個性的差異和需求的多元化,但這又決定了用戶的個性具有一定的穩(wěn)定性,成為用戶行為研究的前提和基礎(chǔ)。2.2網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)分類體系網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為數(shù)據(jù)根據(jù)不同分類標(biāo)準(zhǔn)可以有多種分類結(jié)果。如果按數(shù)據(jù)的維度進(jìn)行劃分,可以分為一維數(shù)據(jù)、二維數(shù)據(jù)、三維數(shù)據(jù)和多維數(shù)據(jù)。如果從用戶角度上來分,可分為用戶的屬性數(shù)據(jù)和用戶產(chǎn)生的數(shù)據(jù)。用戶的屬性數(shù)據(jù),主要包括年齡、性別、學(xué)歷、職業(yè)、收入等;用戶產(chǎn)生的數(shù)據(jù),主要包括用戶獲取信息或者進(jìn)行信息交互時進(jìn)行的一系列操作活動以及由用戶生成的各種數(shù)據(jù)。前者相對比較固定、變化小,后者變化更新速度快、信息量大。如果從數(shù)據(jù)的獲取來源分,可以分為網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用中的用戶行為數(shù)據(jù)和位置信息服務(wù)中用戶生成的數(shù)據(jù),網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)是指用戶在網(wǎng)絡(luò)地理信息服務(wù)平臺上瀏覽內(nèi)容、查詢信息等一系列操作行為數(shù)據(jù),訪問地理信息服務(wù)網(wǎng)站的時間以及用戶使用的設(shè)備信息,這一類數(shù)據(jù)一般是通過服務(wù)器端的記錄日志來獲取,或者是通過一定的軟件進(jìn)行實時捕捉;而位置服務(wù)中的用戶行為數(shù)據(jù)是指用戶在使用位置服務(wù)時產(chǎn)生的各種數(shù)據(jù),這一類數(shù)據(jù)則需要通過普通下載、網(wǎng)絡(luò)API、“網(wǎng)絡(luò)爬蟲”等多種方式來獲取。本文根據(jù)數(shù)據(jù)來源對用戶行為數(shù)據(jù)進(jìn)行初步劃分,在此基礎(chǔ)上綜合多種因素對數(shù)據(jù)進(jìn)行更為詳細(xì)分類,得到網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)的分類體系。如圖2.2所示:圖2.2基于數(shù)據(jù)源的用戶行為數(shù)據(jù)分類2.2.1網(wǎng)絡(luò)地理信息服務(wù)平臺中的用戶行為數(shù)據(jù)網(wǎng)絡(luò)地理信息服務(wù)平臺依托詳實的地理信息數(shù)據(jù),通過在線方式滿足政府部門、企事業(yè)單位、和社會公眾對地理信息和空間定位、分析的基本要求。在眾多的網(wǎng)絡(luò)地理信息服務(wù)平臺中網(wǎng)絡(luò)電子地圖是應(yīng)用最廣,最為典型的一種,如圖2.3用戶可以在網(wǎng)絡(luò)地圖上選擇不同類型地圖瀏覽信息、搜索內(nèi)容、查詢路線、標(biāo)注、量具等操作,用戶在選擇相應(yīng)的功能時是帶有一定目的性的,通過對這些操作行為進(jìn)行分析可以挖掘用戶的興趣需求和用圖偏好。網(wǎng)絡(luò)地理信息服務(wù)平臺中的用戶行為數(shù)據(jù)可進(jìn)一步細(xì)分為用戶背景數(shù)據(jù)、傳統(tǒng)用戶行為數(shù)據(jù)和與地理信息服務(wù)平臺應(yīng)用相關(guān)的用戶行為數(shù)據(jù),下面將對其具體包含的數(shù)據(jù)類型做詳細(xì)介紹。圖2.3百度地圖網(wǎng)站1.用戶背景數(shù)據(jù)用戶的背景數(shù)據(jù)主要包括:昵稱、ID、年齡、性別、職業(yè)等,這些信息主要有以下三種獲取途徑:(1)用戶的注冊信息:這是用戶屬性數(shù)據(jù)最主要的來源,但是由于對用戶隱私安全的保護(hù),一般網(wǎng)絡(luò)地理信息服務(wù)平臺只會要求用戶填寫必填信息,包括用戶登陸名、用戶密碼、用戶郵箱、用戶別名(可以為空)等。(2)通過頁面標(biāo)簽技術(shù)或者日志文件獲得,這部分用戶的背景信息主要包括用戶IP信息、語言設(shè)置信息,通過這些信息可以推斷用戶的地理位置。(3)第三方用戶樣本數(shù)據(jù)庫:各種專業(yè)的網(wǎng)絡(luò)用戶研究機構(gòu),如Aleax等,往往會有海量的第三方用戶樣本數(shù)據(jù)庫。由于用戶郵箱已知,因此可以和該樣本數(shù)據(jù)庫進(jìn)行比對,從而提取出用戶的年齡、學(xué)歷、婚姻狀況等更詳細(xì)的用戶信息。2.傳統(tǒng)用戶行為數(shù)據(jù)傳統(tǒng)用戶行為數(shù)據(jù)即網(wǎng)絡(luò)用戶行為研究中所說的“點擊流”數(shù)據(jù),是網(wǎng)絡(luò)網(wǎng)站用戶行為分析中最常用的數(shù)據(jù),由于網(wǎng)絡(luò)地理信息服務(wù)平臺具有自身的結(jié)構(gòu)特點,所以相同的指標(biāo)代表含義存在差別,分析結(jié)果也不一樣。傳統(tǒng)用戶行為數(shù)據(jù)至少包括以下幾種類型:(1)訪問數(shù):由用戶第一次會話請求到最后一次請求稱之為一次訪問,但是如果用戶打開網(wǎng)站然后離開計算機,并在接下來的30分鐘內(nèi)沒有進(jìn)行任何操作則會話自動結(jié)束。一個獨立的會話ID可以將訪問的所有操作集中在一起,形成一次完整的訪問。它度量的是網(wǎng)站在一段時間內(nèi)被訪問的次數(shù),訪問數(shù)的變化反映了網(wǎng)站的流行趨勢;用戶訪問軌跡信息則蘊含著用戶的行為規(guī)律。(2)點擊數(shù):表示用戶對服務(wù)器的一次請求,即用戶在網(wǎng)站上的一次活動。(3)獨立訪客:當(dāng)訪客觸發(fā)網(wǎng)站第一個頁面或請求時,就會在用戶瀏覽器中生成一個獨立cookie,會話結(jié)束后cookie仍然會保留,再次使用該瀏覽器訪問網(wǎng)站,系統(tǒng)會自動識別這個cookie的ID,獨立訪客指標(biāo)就是某段時間內(nèi)這些cookie的個數(shù)。獨立訪客比較接近網(wǎng)站的用戶的真實數(shù)量,但不完全相等,因為存在cookie禁用現(xiàn)象。(4)停留時間:在Web分析中主要包括頁面停留時間和網(wǎng)站停留時間,主要用來衡量一個訪客在網(wǎng)站中某一網(wǎng)頁或一次會話所停留的時間。(5)頁面查看次數(shù):表示一個頁面被瀏覽的次數(shù),在網(wǎng)絡(luò)地理信息服務(wù)平臺中地圖可以是二維線劃圖、衛(wèi)星影像圖、3D立體圖等,此處的頁面查看指的是不同類型地圖被訪問的次數(shù)。在網(wǎng)絡(luò)地理信息服務(wù)平臺中這些數(shù)據(jù)的調(diào)用使用了Ajax技術(shù),不會發(fā)生頁面跳轉(zhuǎn),傳統(tǒng)方法對其無法進(jìn)行追蹤。(6)跳出率:指來到頁面什么都沒有做就離開的訪客占所有訪客的比例,跳出率高的網(wǎng)頁往往存在問題。由于地圖用戶中很大一部分只是瀏覽地圖,根據(jù)普通方法計算跳出率結(jié)果會很高,在此主要根據(jù)會話時間小于設(shè)定的值所占的比例。(7)退出頁面:記錄有多少訪客從該頁面離開了網(wǎng)站,是指無論用戶從哪個網(wǎng)頁進(jìn)入網(wǎng)站,而在這個網(wǎng)頁退出所占的比率。這個頁面往往是與地理空間信息服務(wù)網(wǎng)站相關(guān)聯(lián)的各種社交網(wǎng)站,可以衡量地圖作為一個服務(wù)入口與各社交網(wǎng)站密切程度。(8)轉(zhuǎn)化率:表示在訪問中能夠完成既定任務(wù)的用戶所占的比例,在此主要指網(wǎng)站注冊用戶占獨立訪客的百分比。除此之外,還可以獲取用戶使用的操作系統(tǒng)、瀏覽器版本等信息。這類數(shù)據(jù)主要從服務(wù)器日志中提取或者通過頁面標(biāo)簽技術(shù)獲取。3.網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用相關(guān)的用戶行為數(shù)據(jù)這類用戶行為數(shù)據(jù)是網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用所特有,目前并沒有很成熟的獲取技術(shù)方法,需要針對特定網(wǎng)站編寫監(jiān)控代碼才能獲得這類數(shù)據(jù)。根據(jù)網(wǎng)絡(luò)地理信息服務(wù)平臺特點可以將該類數(shù)據(jù)概括為以下五類:(1)空間區(qū)域訪問范圍:空間區(qū)域訪問范圍獲取方式主要有兩種,一種是用戶所瀏覽的空間區(qū)域訪問范圍,由于一般網(wǎng)絡(luò)地理信息服務(wù)平臺中的地圖都是按照地圖瓦片的方式進(jìn)行組織的,因此空間區(qū)域訪問范圍主要通過記錄層號和圖片編碼完成。另外一種則是記錄用戶點擊的鼠標(biāo)位置,通過計算將該屏幕坐標(biāo)轉(zhuǎn)換變成地理經(jīng)緯度存儲起來,并借助一定的可視化手段在地圖上顯示出來,如熱力圖。(2)地理搜索關(guān)鍵字:是指用戶在使用地理搜索引擎時通過哪些關(guān)鍵字獲取信息的。這些關(guān)鍵字通過分詞技術(shù)處理后,獲取對應(yīng)地圖位置的地理坐標(biāo)進(jìn)行存儲。利用這些數(shù)據(jù)可以生成標(biāo)簽云地圖,反映一個區(qū)域的搜索熱度,挖掘該區(qū)域的地理名片等。(3)地理服務(wù)訪問數(shù):是指用戶在網(wǎng)絡(luò)地理信息服務(wù)平臺上具體使用了哪些服務(wù),如地圖瀏覽服務(wù)、量算服務(wù)、查詢服務(wù)、路徑規(guī)劃與導(dǎo)航服務(wù)、標(biāo)注服務(wù)以及用戶反饋服務(wù)等。(4)用戶地理位置信息:通常用戶使用桌面計算機或者筆記本訪問網(wǎng)絡(luò)地圖應(yīng)用站點是難以獲得用戶地理位置信息的。一般是通過用戶的語言設(shè)置和IP信息,推斷用戶的地理位置信息?;舅悸肥峭ㄟ^語言設(shè)置初步判斷用戶所在的國家,但是用戶的IP往往是不固定的,一臺家用計算機在一個月內(nèi)通常會有10.5個IP地址,但該IP地址出現(xiàn)在不同城市的可能性非常之小,因此可以將IP地址和網(wǎng)絡(luò)上免費的IP地址庫(如GeoIP等)匹配,從而判斷出用戶所在的城市。(5)用戶訪問內(nèi)容:指用戶具體訪問了哪些信息,用戶訪問內(nèi)容在一定程度上反映了用戶的需求,通過對這些數(shù)據(jù)進(jìn)行挖掘可以發(fā)現(xiàn)用戶的偏好,這是進(jìn)行內(nèi)容推薦的基礎(chǔ)。2.2.2位置信息服務(wù)中的用戶行為數(shù)據(jù)位置信息服務(wù)中的用戶行為數(shù)據(jù)主要是指用戶使用位置服務(wù),主動生成的數(shù)據(jù)。這些數(shù)據(jù)來源復(fù)雜、分布廣泛,就猶如一個個“貧富不均、深淺不一”的礦藏?zé)o序的分布在網(wǎng)絡(luò)空間中,結(jié)構(gòu)化與非結(jié)構(gòu)化、空間與非空間數(shù)據(jù)并存,信息與數(shù)據(jù)垃圾混雜,質(zhì)量良莠不齊。因此位置信息服務(wù)中的用戶主動生成的數(shù)據(jù)難以直接使用,而需要經(jīng)過數(shù)據(jù)清洗、處理、融合等一系列操作之后,才可以使用。位置信息服務(wù)中用戶行為數(shù)據(jù)從類型上主要分為如下兩大類:(1)軌跡數(shù)據(jù):通過全球?qū)Ш叫l(wèi)星系統(tǒng)或者基站定位等測量手段方法獲得的用戶活動數(shù)據(jù)(包括個人軌跡數(shù)據(jù)、車輛軌跡數(shù)據(jù)、飛行器軌跡數(shù)據(jù)等)。單用戶的軌跡數(shù)據(jù)可以顯示用戶的位置,反映用戶的偏好,認(rèn)知用戶的生活模式;多用戶軌跡數(shù)據(jù)可以用來計算用戶的相似度,根據(jù)相似度進(jìn)行信息推薦。軌跡數(shù)據(jù)主要來源有各類導(dǎo)航數(shù)據(jù)、智能手機數(shù)據(jù)、可穿戴設(shè)備、物流數(shù)據(jù)、民航系統(tǒng)數(shù)據(jù)等。如圖2.4為用戶軌跡信息生成的北京經(jīng)典徒步路線。圖2.4北京經(jīng)典徒步路線(2)地理標(biāo)簽數(shù)據(jù):地理標(biāo)簽數(shù)據(jù)可能是文本、HTML網(wǎng)頁、照片、微博、視頻、動畫等各種媒介形式。盡管形式不一,但是他們有一個共同的特征是這些數(shù)據(jù)中都顯式或隱式的植入了地理空間信息,這種地理空間信息最常見的表現(xiàn)形式是地理經(jīng)緯度坐標(biāo),但也可能包含高程、范圍、形狀等其它信息。最為常見的地理標(biāo)簽數(shù)據(jù)有以下幾種:=1\*GB3①地理標(biāo)簽文檔:如維基百科的地理標(biāo)簽文檔(圖2.5),截至2014年維基百科上的地理標(biāo)簽文檔保守估計超過400萬份,覆蓋200種以上語言,其中與用戶行為相關(guān)的位置數(shù)據(jù)包括用戶所在位置,用戶所編輯的地理文檔位置等。=2\*GB3②地理標(biāo)簽照片:如Flickr的地理標(biāo)簽照片(圖2.6),與用戶行為相關(guān)的位置數(shù)據(jù)包括照片本身,照片上除地理標(biāo)簽外的其它標(biāo)簽和拍攝照片的設(shè)備信息。=3\*GB3③位置微博:如Twitter的位置微博(圖2.7),其中與用戶相關(guān)的位置數(shù)據(jù)包括微博本身,微博的標(biāo)簽信息和微博用戶自身屬性。圖2.5關(guān)于“美國白宮”的標(biāo)簽文檔,來自于維基百科圖2.6美國白宮的照片(作者Koedian,來自于Flick網(wǎng)站)圖2.7“美國白宮”位置微博2.3網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為研究框架在前文對網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為數(shù)據(jù)類型、特點及其存在形式的分析基礎(chǔ)上,通過設(shè)計網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)獲取和分析研究框架,可以進(jìn)一步明確具體的研究內(nèi)容和相應(yīng)的研究方法,有利于我們系統(tǒng)的開展接下來的研究。網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為研究框架如圖2.8所示。圖2.8網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)獲取與分析框架通過網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為數(shù)據(jù)獲取與分析研究框架可以看出,網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)獲取與分析研究是一個非常龐大而且復(fù)雜的體系,涉及到多方面問題??紤]到現(xiàn)有條件以及實現(xiàn)的難度和工作量,本文選取了有代表性的數(shù)據(jù)源,重點突破關(guān)鍵性的方法,圖2.8中實線和實線要素代表的是本文重點研究和實現(xiàn)的技術(shù)流程,而虛線和虛線要素則是本文簡單了解或者未涉及的內(nèi)容。本文研究內(nèi)容涉及數(shù)據(jù)源的確定、數(shù)據(jù)獲取、數(shù)據(jù)建模、數(shù)據(jù)分析和可視化等一整套完整的技術(shù)方法體系。本文重點對數(shù)據(jù)獲取階段和數(shù)據(jù)分析及可視化階段進(jìn)行研究。2.3.1用戶行為數(shù)據(jù)的數(shù)據(jù)源確定階段由圖2.8可以看出,網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為數(shù)據(jù)呈現(xiàn)出多源異質(zhì)特點。不同來源的數(shù)據(jù)包含的內(nèi)容不同,在數(shù)據(jù)結(jié)構(gòu)和存儲方式方面往往也存在較大差異,因而導(dǎo)致數(shù)據(jù)獲取手段和研究方法不同,而所有研究都是建立在數(shù)據(jù)源確定的基礎(chǔ)之上。本文研究主要針對網(wǎng)絡(luò)地理信息服務(wù)平臺中的用戶行為數(shù)據(jù)和位置信息服務(wù)中用戶生成的數(shù)據(jù)。網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)來源比較明確,數(shù)據(jù)源確定主要是指網(wǎng)絡(luò)地理信息服務(wù)平臺的選擇,用戶行為數(shù)據(jù)可能因為平臺不同,具有細(xì)微差異??偟膩碇v用戶自身屬性數(shù)據(jù)一般由用戶注冊時提供;用戶的行為數(shù)據(jù)主要是用戶使用網(wǎng)絡(luò)地理信息服務(wù)平臺時的各種操作行為,主要包括“點擊流”數(shù)據(jù)和與網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用相關(guān)的用戶行為數(shù)據(jù)。位置信息服務(wù)中的用戶行為數(shù)據(jù)來源比較廣泛,并且不同來源的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容存在很大差異,獲取的手段和方法也存在較大差異,并且出于保護(hù)用戶隱私、商業(yè)機密等原因,并非所有的數(shù)據(jù)均能通過網(wǎng)絡(luò)技術(shù)手段獲得,比如出租車軌跡數(shù)據(jù)就難以在網(wǎng)絡(luò)上獲得。但是許多開放的網(wǎng)站平臺在Web2.0模式下已經(jīng)積累了大量的極具價值的用戶行為信息,例如OpenStreetMap以及OpenFlight站點是獲取個人軌跡數(shù)據(jù)以及飛行器數(shù)據(jù)的極好數(shù)據(jù)源;而位置微博、地理標(biāo)簽照片和地理標(biāo)簽文檔中不僅包含了大量的位置數(shù)據(jù)還包含了大量的用戶屬性數(shù)據(jù)以及評價信息。2.3.2用戶行為數(shù)據(jù)獲取階段數(shù)據(jù)獲取是用戶行為研究中至關(guān)重要的一環(huán),它是進(jìn)行數(shù)據(jù)分析的基礎(chǔ),數(shù)據(jù)的類型和質(zhì)量在很大程度上決定了分析結(jié)果的準(zhǔn)確性和精度。數(shù)據(jù)來源不同數(shù)據(jù)獲取手段存在不同,而且同一來源數(shù)據(jù)往往有多種獲取方式,該階段的研究主要目的就是確定需要獲取的數(shù)據(jù)指標(biāo),選擇合適的數(shù)據(jù)獲取手段。下面將根據(jù)數(shù)據(jù)來源對用戶行為數(shù)據(jù)獲取方法進(jìn)行介紹。網(wǎng)絡(luò)地理信息服務(wù)平臺中的用戶行為數(shù)據(jù)獲取網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)主要包括用戶屬性數(shù)據(jù)和用戶操作行為數(shù)據(jù)。用戶屬性數(shù)據(jù)獲取方法主要有用戶注冊、第三方用戶樣本庫,但是出于保護(hù)用戶隱私或者商業(yè)原因,通過網(wǎng)絡(luò)獲取第三方用戶樣本庫非常困難,因此用戶屬性數(shù)據(jù)主要靠用戶注冊獲取;用戶操作行為數(shù)據(jù)則可以根據(jù)Web的基本結(jié)構(gòu)從客戶端、代理服務(wù)器端或Web服務(wù)器端展開,目前使用比較廣泛的是基于日志的數(shù)據(jù)獲取方法和基于頁面標(biāo)簽的數(shù)據(jù)獲取方法。前者來自于網(wǎng)絡(luò)地理信息服務(wù)平臺的數(shù)據(jù)庫,獲取相對簡單,本文重點對用戶操作行為數(shù)據(jù)的獲取進(jìn)行研究。 (1)基于日志的數(shù)據(jù)獲取方法:基于日志的用戶行為數(shù)據(jù)獲取方法主要是從(代理)服務(wù)器所產(chǎn)生的日志文件中獲取有用的數(shù)據(jù)。服務(wù)器日志記錄了用戶與服務(wù)器進(jìn)行交互的詳細(xì)信息,一般都包括:用戶身份、用戶訪問路徑、用戶在頁面上的停留時間、是否達(dá)到目的以及請求的文件名稱、時間和結(jié)果等。但是日志文件是被設(shè)計用來衡量服務(wù)器性能的統(tǒng)計數(shù)據(jù),與用來進(jìn)行用戶分析所需的大量數(shù)據(jù)相比會存在不足[46]。由于獲取的數(shù)據(jù)缺乏針對性,加之?dāng)?shù)據(jù)源文件本身的復(fù)雜性、非精確性導(dǎo)致了分析結(jié)果存在一定局限,例如通過IP識別用戶,無法獲取用戶真正身份,頁面停留時間計算不精確,不能追蹤事件等。(2)基于頁面便簽技術(shù)的數(shù)據(jù)獲?。夯陧撁鏄?biāo)簽技術(shù)的方法只需將監(jiān)測軟件生成的一段JavaScript代碼植入到被監(jiān)控網(wǎng)站,便可以從客戶端實時獲取用戶各種操作行為數(shù)據(jù),這些數(shù)據(jù)一部分來自用戶訪問網(wǎng)站時生成的Cookie,一部分來自對操作行為的監(jiān)控?;陧撁鏄?biāo)簽技術(shù)的用戶行為數(shù)據(jù)獲取方法在保證了數(shù)據(jù)真實性的同時,克服了基于服務(wù)器日志的用戶行為數(shù)據(jù)獲取方法的不足,可以正確反映用戶的瀏覽路徑,精確的計算頁面停留時間,并且不受動態(tài)分配IP地址或代理服務(wù)器的影響,可以追蹤事件,但是由于直接從客戶端獲取數(shù)據(jù),會產(chǎn)生流量,影響網(wǎng)絡(luò)性能。無論是從獲取數(shù)據(jù)類型,還是獲取數(shù)據(jù)精度上基于頁面標(biāo)簽技術(shù)的方法具有明顯優(yōu)勢,我們將在已有的功能上進(jìn)行擴展,使其適用于網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶操作行為數(shù)據(jù)獲取。位置信息服務(wù)中用戶行為數(shù)據(jù)獲取位置信息服務(wù)中用戶行為數(shù)據(jù)獲取除少部分可以直接下載如OpenStreetMap中的數(shù)據(jù),大部分用戶行為數(shù)據(jù)是通過基于開放API的方法和基于網(wǎng)絡(luò)爬蟲方法獲取的。(1)基于開放API的數(shù)據(jù)獲取方法:開放API就是在網(wǎng)絡(luò)上把各種網(wǎng)絡(luò)應(yīng)用產(chǎn)品進(jìn)行封裝成一系列可以被計算機識別的接口,供第三方開發(fā)使用[47]。為了保證數(shù)據(jù)安全,使用該方法獲取數(shù)據(jù)必須經(jīng)過認(rèn)證授權(quán),成功登陸后才可以根據(jù)需要,調(diào)用相應(yīng)的接口,便可快速的獲取相應(yīng)數(shù)據(jù)。(2)基于網(wǎng)絡(luò)爬蟲的獲取方法:網(wǎng)絡(luò)爬蟲是一種按照特定的邏輯和算法自動下載網(wǎng)絡(luò)網(wǎng)頁的程序或者腳本[48-50],其主要目的就是將網(wǎng)絡(luò)上的網(wǎng)頁下載到本地形成一個或者聯(lián)網(wǎng)的鏡像,主要包括頁面獲取和頁面解析兩個模塊。根據(jù)其工作的原理網(wǎng)絡(luò)爬蟲可以分為兩類:通用網(wǎng)絡(luò)爬蟲和主題網(wǎng)絡(luò)爬蟲。前者將一個或者多個頁面作為起始頁面,在下載這些頁面的同時,獲取這些頁面內(nèi)包含的URL,不斷將這些URL存入隊列,一直重復(fù)這個過程,直到滿足一定條件則終止程序運行;后者主要通過分析已經(jīng)下載的頁面內(nèi)容和鏈接,計算頁面與主題的相關(guān)程度,預(yù)測需要爬取的下一個頁面的鏈接,盡可能多的獲取與主題相關(guān)頁面,較少獲取無關(guān)頁面。基于開放API的數(shù)據(jù)獲取方法獲取數(shù)據(jù)方便,并且效率較高,但是為了保證服務(wù)器的穩(wěn)定和用戶數(shù)據(jù)安全,對獲取數(shù)據(jù)的數(shù)量和類型進(jìn)行限制,許多數(shù)據(jù)獲取必須獲得高級權(quán)限。網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)效率雖然比不上前者,但是由于獲取數(shù)據(jù)量不受限制,也無需進(jìn)行授權(quán),在數(shù)據(jù)獲取中應(yīng)用較廣。2.3.3用戶行為數(shù)據(jù)建模階段用戶行為數(shù)據(jù)建模階段主要目的是將獲取的所有用戶行為數(shù)據(jù),按照統(tǒng)一的模型放置在數(shù)據(jù)庫中。本文主要采用MySQL數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲,它具有體積小、速度快和擁有成本低等特點。為了保證數(shù)據(jù)獲取和分析過程既相對獨立,又彼此聯(lián)系,提高數(shù)據(jù)分析效率,本文設(shè)計了面向數(shù)據(jù)獲取的日志庫和面向數(shù)據(jù)分析的歸檔庫,如圖所示2.9。圖2.9用戶行為數(shù)據(jù)模型(1)日志庫中數(shù)據(jù)的存儲:日志庫主要是面向數(shù)據(jù)獲取的,在日志庫中存儲的是獲取的最原始數(shù)據(jù),也稱之為“rawdata”,它是完全沒有經(jīng)過任何改變和加工的數(shù)據(jù)。依據(jù)上述分類,日志庫主要分為兩大子庫,網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)子庫和位置信息服務(wù)中用戶行為數(shù)據(jù)子庫。網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)子庫包括用戶注冊信息表、訪客表以及訪客行為表等。位置信息服務(wù)中用戶行為數(shù)據(jù)子庫則會根據(jù)不同的數(shù)據(jù)來源設(shè)計相應(yīng)的數(shù)據(jù)表。針對微博數(shù)據(jù)主要包括兩類數(shù)據(jù)源:一類是以用戶為種子,按照用戶相互之間的關(guān)注關(guān)系爬取,該表稱之為依用戶爬取的微博原始信息表;另一類是以地點為種子爬取獲得,該表稱之為依地點爬取的微博原始信息表。(2)歸檔庫中數(shù)據(jù)的存儲:歸檔庫中數(shù)據(jù)主要是面向數(shù)據(jù)分析的,在歸檔庫中存儲的是經(jīng)過數(shù)據(jù)清洗之后與研究相關(guān)的數(shù)據(jù)。面向數(shù)據(jù)分析的歸檔庫也分為兩大子庫即網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)子庫和位置信息服務(wù)中用戶行為數(shù)據(jù)子庫,但與日志庫不同,該庫的數(shù)據(jù)都是經(jīng)過深加工處理的,可以依據(jù)該數(shù)據(jù)生成報表,形成可視化圖形等。其中站內(nèi)信息子庫同樣包括用戶注冊信息表、訪客表以及訪客行為表,但其存儲的信息和日志庫中的表有所不同,如圖2.10所示,在日志庫中,訪客表記錄的是用戶訪問的地理信息資源頁面和訪問時間,但是歸檔庫中,如圖2.11所示,記錄的是地理信息資源頁面和頁面瀏覽數(shù)。歸檔庫中的位置信息服務(wù)中用戶行為子庫將日志庫中依用戶爬取的微博原始信息表和依地點爬取的微博原始信息表中所有與位置無關(guān)的數(shù)據(jù)清洗掉,僅留下與位置相關(guān)的數(shù)據(jù),存儲在數(shù)據(jù)表中,由于兩個表中均含有用戶自身屬性數(shù)據(jù),為了減少數(shù)據(jù)冗余,提高數(shù)據(jù)調(diào)用效率,將這些數(shù)據(jù)提取出來,生成用戶信息表。從日志庫到歸檔庫這一數(shù)據(jù)處理過程,本文也稱之為數(shù)據(jù)歸檔過程。圖2.10日志庫中的訪客表信息圖2.11歸檔庫中訪客表信息2.3.4用戶行為數(shù)據(jù)分析與可視化階段分析是由數(shù)據(jù)到信息轉(zhuǎn)換的必經(jīng)階段,是挖掘數(shù)據(jù)價值,實現(xiàn)應(yīng)用的基礎(chǔ),而可視化是一種有效的數(shù)據(jù)分析手段,可以清晰、直觀的顯示數(shù)據(jù)的分布特點和規(guī)律。用戶行為數(shù)據(jù)分析與可視化階段主要是借助數(shù)學(xué)的方法和原理進(jìn)行數(shù)據(jù)處理和分析,建立數(shù)據(jù)之間的聯(lián)系,并運用計算機圖形學(xué)和圖像處理技術(shù)將數(shù)據(jù)轉(zhuǎn)化為可以在屏幕上顯示的圖形或圖像。數(shù)據(jù)分析方法的選擇受到數(shù)據(jù)自身屬性影響,還與研究的目的有關(guān),由這兩者共同決定。適當(dāng)?shù)目梢暬侄斡兄谖覀兝斫鈹?shù)據(jù)中隱藏的信息,認(rèn)知用戶的行為規(guī)律。本文涉及到不同來源的兩類用戶行為數(shù)據(jù),其分析的結(jié)果和作用也存在差異。1.網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)分析與可視化網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)主要包括三種:用戶屬性數(shù)據(jù)、“點擊流”數(shù)據(jù)、網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用相關(guān)的用戶行為數(shù)據(jù)。第一種數(shù)據(jù)是最基本的數(shù)據(jù),許多學(xué)者通過這些數(shù)據(jù),運用認(rèn)知論、感受論等理論研究不同類型用戶,如性別,對符號色彩、界面顯示風(fēng)格等的偏好,本文旨在從數(shù)據(jù)中研究用戶偏好,因此對這部分?jǐn)?shù)據(jù)不單獨作重點研究?!包c擊流”數(shù)據(jù)主要記錄了在一段時間內(nèi)用戶“有多少”、“從哪里來”、“到哪里去”、“什么時候來”、“待了多久”這些最基本的信息。這些數(shù)據(jù)均為連續(xù)變量,通過數(shù)值大小表示量的多少或者時間長短。這類數(shù)據(jù)處理主要進(jìn)行簡單的數(shù)據(jù)統(tǒng)計,通過描述被分析數(shù)據(jù)的性質(zhì)來研究數(shù)據(jù)的關(guān)系,揭露數(shù)據(jù)的總體結(jié)構(gòu),反應(yīng)數(shù)據(jù)的分布情況,進(jìn)而創(chuàng)建模型,借助模型進(jìn)行趨勢預(yù)測。主要的可視化方法有:(1)折線圖:用直線將各數(shù)據(jù)點連接起來,以折線的方式顯示數(shù)據(jù)的變化趨勢和變化幅度以及各組數(shù)據(jù)之間的差別,如圖2.12。(2)直方圖:又稱之為質(zhì)量分布圖,主要用一系列高度不等的縱向條紋表示數(shù)據(jù)分布情況,一般用橫軸表示數(shù)據(jù)的性質(zhì),縱軸表示質(zhì)量(數(shù)量)特征,具有簡單直觀等特點,如圖2.13。(3)餅狀圖:一般用顏色表示數(shù)據(jù)屬性,面積表示數(shù)據(jù)比例,如圖2.14。圖2.12折線圖圖2.13柱狀圖圖2.14餅狀圖網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用相關(guān)的數(shù)據(jù)是本部分研究的重點,一方面由于網(wǎng)絡(luò)地理信息服務(wù)平臺提供的服務(wù)多為空間服務(wù),許多用戶行為數(shù)據(jù)中具有空間特征,利用傳統(tǒng)的數(shù)據(jù)分析和可視化手法無法真正揭示數(shù)據(jù)分布規(guī)律和特征;另一方面,這些數(shù)據(jù)記錄了用戶使用了哪些功能、進(jìn)行了什么操作、訪問了哪些信息等,這一系列的行為數(shù)據(jù)中蘊含了用戶的行為模式和興趣偏好。我們可以根據(jù)用戶行為的相似度對用戶進(jìn)行分類,研究類群間的差異、偏好和需求,有助于提高信息推薦的準(zhǔn)確度,為提供個性化服務(wù)提供科學(xué)依據(jù)。在研究中我們的主要目的是利用大量無序的數(shù)據(jù)從定量角度進(jìn)行用戶分析,因此使用的分析方法主要是聚類分析。聚類分析就是在相似的基礎(chǔ)上進(jìn)行數(shù)據(jù)分類,使得同一類對象盡可能的相似,不同類別對象間的差異性盡可能的大,對象間的相似程度一般通過距離、相關(guān)系數(shù)等來描述。在通過聚類分析完成分類的基礎(chǔ)上,我們可以通過研究同類用戶在行為上的相似性,對比不同類別用戶在行為上的差異,總結(jié)各類別用戶的偏好和行為習(xí)慣。在可視化方面,地圖本身就是一種很好的空間數(shù)據(jù)可視化手法,對于帶有空間特征的數(shù)據(jù)我們可以借助一些新的可視化方法如熱力圖、標(biāo)簽云等,并與地圖相結(jié)合,從地理維度上對這些數(shù)據(jù)進(jìn)行分析和挖掘。2.位置信息服務(wù)中用戶行為數(shù)據(jù)分析與可視化位置信息服務(wù)中的用戶行為數(shù)據(jù)主要包括軌跡數(shù)據(jù)和地理標(biāo)簽數(shù)據(jù),前者是線狀要素,后者是點狀要素,但是按照時間順序?qū)⒌乩順?biāo)簽連接起來也可以呈現(xiàn)用戶的活動軌跡。這類數(shù)據(jù)一般源于用戶現(xiàn)實生活,對于研究用戶行為更加真實可靠。對位置信息服務(wù)中用戶行為數(shù)據(jù)研究可以分為兩類,一類是根據(jù)用戶的軌跡數(shù)據(jù)來計算用戶的相似度,根據(jù)用戶相似度進(jìn)行位置推薦;另一類是根據(jù)用戶的關(guān)注度計算POI的重要程度,作為POI分類分級的標(biāo)準(zhǔn)。此外還可以結(jié)合用戶的其他數(shù)據(jù)進(jìn)行信息挖掘,豐富POI的屬性,比如某一地點比較受男性還是女性歡迎。本文主要利用地理標(biāo)簽數(shù)據(jù)對第二方面進(jìn)行研究,這方面的研究成果可以改進(jìn)網(wǎng)絡(luò)地理信息服務(wù)平臺中POI的分類分級中存在的不足,并且可以根據(jù)用戶信息進(jìn)行POI的選擇性表達(dá)。在POI分類分級方面,許多專家根據(jù)多年的經(jīng)驗、相關(guān)規(guī)定和準(zhǔn)則綜合考慮多種因素,制定了相應(yīng)的標(biāo)準(zhǔn),奠定了POI分類分級的基礎(chǔ),但是這些分類分級標(biāo)準(zhǔn)忽略了用戶需求,無法實現(xiàn)按需表達(dá)。根據(jù)用戶關(guān)注程度建立新的分類分級標(biāo)準(zhǔn)需要在遵循POI分類分級基本準(zhǔn)則的前提下,充分考慮用戶這一因素,建立新的分類分級體系?;谄渌麛?shù)據(jù)對POI進(jìn)行信息挖掘主要是研究這些POI受到哪些人關(guān)注,這些人有什么特征以及是否受時空因素的影響等。2.4網(wǎng)絡(luò)地理信息應(yīng)用中的用戶行為獲取與分析關(guān)鍵技術(shù)研究為了提高數(shù)據(jù)獲取效率和分析的準(zhǔn)確度,更好地滿足應(yīng)用要求,本文根據(jù)構(gòu)建的網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為研究框架,進(jìn)行了關(guān)鍵技術(shù)突破,主要表現(xiàn)在以下兩個方面:1.網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)獲取與分析關(guān)鍵技術(shù)研究網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)主要包括三類:第一類是用戶注冊時提交的個人背景數(shù)據(jù)和個性化標(biāo)簽,這部分?jǐn)?shù)據(jù)存儲在數(shù)據(jù)庫中,是我們認(rèn)知用戶的基礎(chǔ)數(shù)據(jù);第二類是“點擊流”數(shù)據(jù),這是目前網(wǎng)絡(luò)用戶行為分析中最常用的數(shù)據(jù),可以從Cookie中或者服務(wù)器日志中提取,通過統(tǒng)計分析可以用來衡量網(wǎng)站使用狀況,分析用戶質(zhì)量(忠誠度、活躍度等),改進(jìn)平臺的設(shè)計;第三類數(shù)據(jù)為網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用相關(guān)的用戶行為數(shù)據(jù),這類數(shù)據(jù)是本文研究的重點,它記錄了用戶一系列的操作行為和訪問內(nèi)容,反映了用戶的行為規(guī)律和興趣偏好,主要通過實時監(jiān)測用戶行為獲取。網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)獲取,主要針對平臺中用戶行為數(shù)據(jù)的特點和頁面標(biāo)簽技術(shù)不足,對頁面標(biāo)簽技術(shù)進(jìn)行改進(jìn)和功能擴展,使其在滿足網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為研究需要前提下,提高用戶的體驗,主要解決目前無法追蹤數(shù)據(jù)異步調(diào)用、具有空間特征用戶行為數(shù)據(jù)獲取和數(shù)據(jù)傳輸影響用戶體驗三個方面的問題。在數(shù)據(jù)分析方面則主要利用聚類方法計算用戶相似度,挖掘不同類別用戶的偏好和區(qū)別,在可視化方面利用熱力圖、標(biāo)簽云等可視化手段,將具有空間特征的用戶行為數(shù)據(jù)在地圖上進(jìn)行表達(dá),基于用戶行為數(shù)據(jù)進(jìn)行區(qū)域分析。2.位置信息服務(wù)中用戶行為數(shù)據(jù)獲取與分析技術(shù)隨著移動定位技術(shù)發(fā)展和以手機為代表的智能終端設(shè)備普及,位置信息服務(wù)得到迅速推廣,深植于各種網(wǎng)絡(luò)應(yīng)用平臺中。由于平臺開放程度不同,數(shù)據(jù)獲取方式存在很大差異,但是為了提高用戶參與度,許多平臺開放了API,本文主要針對這些網(wǎng)站平臺中用戶行為數(shù)據(jù)獲取與分析進(jìn)行研究。位置信息服務(wù)中用戶行為數(shù)據(jù)主要包括兩類:第一類是利用GPS定位等手段實時記錄自己位置生成的軌跡數(shù)據(jù);第二類是用戶通過定位技術(shù)生成的各種地理標(biāo)簽數(shù)據(jù)。這些數(shù)據(jù)一般來源于用戶真實的現(xiàn)實生活,反映了用戶的生活軌跡,其中除了位置信息外,還包含了大量的用戶的背景數(shù)據(jù)以及用戶對位置的評價、描述等信息。通過對位置信息服務(wù)中用戶行為數(shù)據(jù)獲取和分析,可以從用戶的視角,建立新的POI分類分級體系,結(jié)合用戶背景數(shù)據(jù)和評價信息從更深層次上進(jìn)行位置信息挖掘,完善和豐富位置的屬性信息。位置信息服務(wù)中用戶行為數(shù)據(jù)獲取主要采用API與網(wǎng)絡(luò)爬蟲相融合的方法,通過開放的API獲取種子文件,然后利用網(wǎng)絡(luò)爬蟲有選擇的獲取數(shù)據(jù)。該方法既可以解決基于開放API獲取數(shù)據(jù)量受限問題,又可以提高網(wǎng)絡(luò)爬蟲的工作效率。在數(shù)據(jù)分析方面,考慮到來自網(wǎng)絡(luò)的數(shù)據(jù)規(guī)律性差,無法很好滿足某種分布問題,采用探索性數(shù)據(jù)分析方法,對數(shù)據(jù)分布進(jìn)行正態(tài)性判斷,剔除異常值,通過冪變換使其服從正態(tài)分布,在此基礎(chǔ)上進(jìn)行顯著性檢驗,發(fā)掘信息。2.5本章小結(jié)本章分析了網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)的特點,并根據(jù)網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為數(shù)據(jù)來源對用戶行為數(shù)據(jù)進(jìn)行分類,在此基礎(chǔ)上構(gòu)建了網(wǎng)絡(luò)地理信息應(yīng)用中用戶行為研究框架,從數(shù)據(jù)源的確定、數(shù)據(jù)獲取、數(shù)據(jù)建模和數(shù)據(jù)分析與可視化四個階段進(jìn)行研究,明確了各部分研究的內(nèi)容和使用的技術(shù)方法,為接下來的研究奠定了基礎(chǔ)。第三章網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)獲取與分析第三章網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)獲取與分析用戶使用網(wǎng)絡(luò)地理信息服務(wù)平臺查詢的信息、訪問的內(nèi)容一般是用戶最感興趣的信息,反映了用戶偏好,是我們認(rèn)知用戶行為規(guī)律、理解用戶需求最為關(guān)鍵的數(shù)據(jù),是網(wǎng)絡(luò)地理信息應(yīng)用中用行為研究的主要內(nèi)容之一。本章試圖探求出科學(xué)實用的網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為獲取與分析研究方法,滿足相關(guān)研究的需要。具體地說,就是通過擴展頁面標(biāo)簽技術(shù)解決數(shù)據(jù)獲取問題,為分析提供數(shù)據(jù)基礎(chǔ);通過統(tǒng)計分析、聚類分析,發(fā)掘用戶行為規(guī)律和偏好,為改善地理信息平臺建設(shè)提供指導(dǎo)。3.1網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為研究機理網(wǎng)絡(luò)地理信息服務(wù)平臺主要提供空間信息服務(wù),是用戶獲取空間信息,認(rèn)知客觀世界的一種重要工具。網(wǎng)絡(luò)地理信息平臺中用戶行為具有更強的交互性,除了通過縮放、漫游等操作進(jìn)行信息瀏覽外,還可以進(jìn)行檢索、查詢、標(biāo)注等操作。網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為不僅因為用戶需求不同而存在差異,同時也受到用戶所處的環(huán)境和用戶的知識水平等多種因素的影響,具有很強的復(fù)雜性,因此需要分析網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為研究機理,明確研究對象、方法和目的,為接下來研究提供指導(dǎo)。網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為研究機理如圖3.1所示,主要分為數(shù)據(jù)獲取、數(shù)據(jù)分析和應(yīng)用三個模塊。在數(shù)據(jù)獲取模塊主要通過改進(jìn)和完善頁面標(biāo)簽技術(shù),實現(xiàn)地理信息服務(wù)相關(guān)的用戶行為數(shù)據(jù)獲??;在分析模塊主要根據(jù)數(shù)據(jù)特征以及應(yīng)用要求不同,采用不同的數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)分析;應(yīng)用取決于數(shù)據(jù)分析結(jié)果,一個應(yīng)用往往需要對多種數(shù)據(jù)進(jìn)行分析,一種數(shù)據(jù)分析結(jié)果也可以為不同應(yīng)用提供指導(dǎo),本文以數(shù)據(jù)獲取和分析為重點,不對應(yīng)用做具體研究。圖3.1網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為研究機理3.2基于擴展頁面標(biāo)簽技術(shù)的用戶行為數(shù)據(jù)獲取方法本文主要采用頁面標(biāo)簽技術(shù)進(jìn)行數(shù)據(jù)獲取,利用頁面標(biāo)簽技術(shù)從客戶端獲取用戶行為數(shù)據(jù)減少了人為干擾,與傳統(tǒng)問卷調(diào)查和觀察法相比,獲取的數(shù)據(jù)更加真實,與基于日志方法相比降低了服務(wù)器資源的消耗,并且還可以對各種操作進(jìn)行追蹤,支持功能擴展。但是目前基于頁面標(biāo)簽技術(shù)獲取用戶行為數(shù)據(jù)主要是針對普通網(wǎng)站,無法滿足網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)獲取的需要。針對當(dāng)前研究中存在的不足,本文對其功能進(jìn)行了擴展,主要實現(xiàn)以下三個功能:追蹤異步調(diào)用的用戶行為數(shù)據(jù);獲取具有空間特征的用戶行為數(shù)據(jù);基于網(wǎng)絡(luò)狀況實現(xiàn)數(shù)據(jù)動態(tài)上傳?;跀U展頁面標(biāo)簽技術(shù)進(jìn)行用戶行為數(shù)據(jù)獲取的基本思路是:首先在服務(wù)器或者其他電腦上安裝開發(fā)的系統(tǒng)軟件;然后將要被監(jiān)測的網(wǎng)站添加到軟件中,軟件會自動生成一段用戶行為監(jiān)測代碼;最后在網(wǎng)站的</body>標(biāo)簽前面加入一段JavaScript腳本。完成上述操作后,當(dāng)用戶通過瀏覽器訪問網(wǎng)站時,會向Web服務(wù)器發(fā)送請求,當(dāng)頁面在瀏覽器中加載時,會執(zhí)行包括監(jiān)測代碼在內(nèi)的所有JavaScript代碼,監(jiān)測代碼調(diào)用系統(tǒng)中的各項功能,進(jìn)而獲取各種用戶行為數(shù)據(jù)。3.2.1針對異步調(diào)用的用戶行為數(shù)據(jù)獲取Ajax(AsynchronousJavaScriptandXML)即異步的JavaScript和XML,它可以在不刷新頁面的情況下,實現(xiàn)數(shù)據(jù)的局部更新,減輕了服務(wù)器負(fù)擔(dān),提高數(shù)據(jù)響應(yīng)速度,減少了用戶等待時間。因此網(wǎng)絡(luò)地理信息服務(wù)平臺在設(shè)計中大量采用了Ajax技術(shù),但是頁面標(biāo)簽技術(shù)是根據(jù)瀏覽器中URL變化來識別頁面的,這造成了數(shù)據(jù)獲取的不準(zhǔn)確,在此我們通過改進(jìn)頁面標(biāo)簽技術(shù),通過手動觸發(fā)方式對異步調(diào)用行為進(jìn)行追蹤。網(wǎng)絡(luò)地理信息服務(wù)平臺中最為典型就是不同類型地理信息資源切換,以此為例本文進(jìn)行詳細(xì)介紹。網(wǎng)絡(luò)地理信息服務(wù)平臺一般會提供多種類型地圖如矢量地圖、衛(wèi)星影像圖、三維立體圖等,當(dāng)不同類型地圖進(jìn)行切換時,只是地圖顯示區(qū)域內(nèi)容進(jìn)行局部更新,整個網(wǎng)頁并沒有重新加載,因此可以采用手動觸發(fā)方式對這些操作行為進(jìn)行追蹤,初始代碼為:<ul><li><ahref=”#VectorMap”>矢量地圖</a></li><li><ahref=”#SatelliteImagery”>衛(wèi)星影像</a></li><li><ahref=”#3DMap”>3D地圖</a></li></ul>在地圖類型控件對應(yīng)的標(biāo)簽內(nèi)添加一個事件,事件中的參數(shù)即為地圖類型(頁面名稱),當(dāng)用戶通過控件切換地圖時便會觸發(fā)相應(yīng)事件,這些事件將不同類型地圖當(dāng)作一個單獨的面進(jìn)行監(jiān)控,添加事件后的代碼如下:
<ul><li><ahref=”#VectorMap”onclick=”javascript:baTrack.trackPageView(‘矢量地圖’);”>矢量地圖</a></li><li><ahref=”#SatelliteImagery”onclick=”javascript:baTrack.trackPageView(‘衛(wèi)星影像’);”>衛(wèi)星影像</a></li><li><ahref=”#3DMap”onclick=”javascript:baTrack.trackPageView(‘3D地圖’);”>3D地圖</a></li></ul>3.2.2具備空間特征的用戶行為數(shù)據(jù)獲取在普通網(wǎng)絡(luò)網(wǎng)站中利用頁面標(biāo)簽技術(shù)獲取的坐標(biāo)多為屏幕坐標(biāo),只需將屏幕與網(wǎng)頁對應(yīng)就可以顯示用戶訪問的位置,但是用戶通過網(wǎng)絡(luò)地理信息服務(wù)平臺獲取的是地理位置服務(wù),可這些位置與屏幕位置不存在對應(yīng)關(guān)系,因此在獲取用戶許多行為數(shù)據(jù)時需要將獲取的屏幕坐標(biāo)轉(zhuǎn)換為真實的地理坐標(biāo),例如通過記錄用戶點擊鼠標(biāo)位置來表示空間區(qū)域訪問范圍和用戶搜索使用的關(guān)鍵詞。這里以通過記錄用戶點擊鼠標(biāo)位置來表示空間區(qū)域訪問范圍為例進(jìn)行介紹。地圖中數(shù)據(jù)是以瓦片的形式進(jìn)行存儲的,每一個瓦片都有自己的行列號,通過這個行列號我們可以計算出屏幕左上角對應(yīng)的地理坐標(biāo),然后根據(jù)比例尺換算出屏幕每一點對應(yīng)的地理坐標(biāo)。當(dāng)鼠標(biāo)在屏幕上進(jìn)行點擊時,首先判斷點擊位置是否位于地圖區(qū)域內(nèi),如果是則調(diào)用GetScreenPoint()事件,獲取點擊位置的屏幕坐標(biāo);然后調(diào)用ScreentoMap()事件,計算點擊位置的地圖坐標(biāo),將屏幕坐標(biāo)轉(zhuǎn)化為經(jīng)緯度進(jìn)行存儲。實現(xiàn)處理程序如下:if(點擊位置位于地圖圖層顯示區(qū)域){functionGetScreenPoint(){獲取點擊位置對應(yīng)的屏幕坐標(biāo);獲取地圖顯示區(qū)域左上角屏幕坐標(biāo)及其對應(yīng)的地圖坐標(biāo);functionScreentoMap(){獲取地圖比例尺;計算點擊位置在地圖顯示區(qū)域的屏幕相對位置;將屏幕坐標(biāo)轉(zhuǎn)化為地理經(jīng)緯度坐標(biāo)。}}}當(dāng)需要在地圖上再現(xiàn)點擊位置時常常以熱力圖方式,首先需要借助一定算法對數(shù)據(jù)進(jìn)行聚類,確定分類數(shù)和中心,然后由經(jīng)緯度轉(zhuǎn)化為屏幕坐標(biāo),以熱力圖形式顯示在屏幕上。其主要流程是:點擊熱力圖顯示按鈕,調(diào)用HeatMap()事件,獲取存儲在數(shù)據(jù)庫中的經(jīng)緯度,對數(shù)據(jù)聚類,確定每一類的中心點坐標(biāo),并設(shè)定中心點的顏色以及漸進(jìn)的灰度帶;然后調(diào)用MaptoScreen()事件,將經(jīng)緯度轉(zhuǎn)化為屏幕坐標(biāo),在屏幕上顯示。3.2.3基于網(wǎng)絡(luò)狀況的數(shù)據(jù)動態(tài)上傳數(shù)據(jù)上傳是指把從客戶端獲取的各種用戶行為數(shù)據(jù)發(fā)送至服務(wù)器數(shù)據(jù)庫進(jìn)行存儲,以便于對數(shù)據(jù)進(jìn)行分析和處理。JavaScript是客戶端腳本語言,無法與服務(wù)器建立連接,需要借助Ajax(AsynchronousJavaScriptAndXML,異步JavaScript及XML)中的XMLHttpRequest對象來很好的實現(xiàn)數(shù)據(jù)的無刷新上傳。目前用戶行為數(shù)據(jù)上傳策略主要有暫存策略和實時傳輸,前者只需要在頁面關(guān)閉時發(fā)送一次數(shù)據(jù),減輕了服務(wù)器端的壓力,但是加重了客戶端的壓力,如果數(shù)據(jù)流量過大,還會降低頁面的響應(yīng)速度,降低用戶體驗;后者可以實時傳輸數(shù)據(jù),但是數(shù)據(jù)比較零散,需要在服務(wù)器端進(jìn)行額外的加工處理,增加了服務(wù)器端的壓力。為了彌補上述兩種方法的不足,本文采用動態(tài)上傳數(shù)據(jù)的方法,通過監(jiān)控用戶狀態(tài)來決定數(shù)據(jù)傳輸時間,如果用戶空閑則自動上傳數(shù)據(jù),如果用戶操作頻繁則暫時存儲用戶行為數(shù)據(jù),當(dāng)頁面關(guān)閉時將剩余數(shù)據(jù)一次性上傳。數(shù)據(jù)上傳主要包括兩步,首先在空閑時傳遞數(shù)據(jù),在Ajax中數(shù)據(jù)的傳遞方式主要兩種,即通過XMLHttpRequest對象的send()方法和open()方法,以查詢字符串的形式傳遞用戶行為數(shù)據(jù)。數(shù)據(jù)傳遞的算法描述為:functionUpload(){if(網(wǎng)絡(luò)空閑){傳遞數(shù)據(jù)至上傳模塊;清空已上傳數(shù)據(jù);}間隔一段時間再次執(zhí)行Upload();}關(guān)閉頁面時會觸發(fā)onbeforeunload()事件,直接將剩余數(shù)據(jù)全部上傳,然后在緩存中清空,事件的處理程序描述如下:window.Onbeforeunload=function(){傳遞數(shù)據(jù)至上傳模塊;清空數(shù)據(jù)緩存;}3.3基于多源異構(gòu)的用戶行為數(shù)據(jù)分析網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)具有“多源異構(gòu)”特點,“多源”主要指數(shù)據(jù)來源眾多,“異構(gòu)”主要指數(shù)據(jù)結(jié)構(gòu)復(fù)雜,質(zhì)量不一。網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)主要包括三種:用戶背景數(shù)據(jù)、“點擊流”數(shù)據(jù)、網(wǎng)絡(luò)地理信息服務(wù)平臺應(yīng)用相關(guān)的用戶行為數(shù)據(jù)。其中用戶背景數(shù)據(jù)來自于平臺數(shù)據(jù)庫,屬于結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)質(zhì)量高,可以直接使用,而“點擊流”數(shù)據(jù)和網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)多屬于非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)質(zhì)量低,需要經(jīng)過處理后才可以使用。本文主要利用這些數(shù)據(jù)對網(wǎng)絡(luò)用戶活躍度、空間區(qū)域訪問情況和用戶相似度進(jìn)行分析研究。3.3.1用戶活躍度分析用戶活躍度分析主要是通過對一定時間范圍內(nèi)的“點擊流”數(shù)據(jù)中各指標(biāo)進(jìn)行統(tǒng)計和分析,來衡量這一段時間內(nèi)網(wǎng)絡(luò)地理信息服務(wù)平臺的使用情況,根據(jù)用戶使用情況研究用戶的質(zhì)量,評價網(wǎng)絡(luò)地理信息服務(wù)平臺的服務(wù)水平,為改進(jìn)平臺建設(shè)提供指導(dǎo)。網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為數(shù)據(jù)統(tǒng)計分析時間范圍設(shè)定如圖3.2。圖3.2時間范圍設(shè)定空間1.用戶訪問趨勢分析主要是按照統(tǒng)計時間范疇,分析網(wǎng)絡(luò)地理信息服務(wù)平臺使用情況,由圖3.3可以看出,起初訪問量由無到有然后上升再趨于平穩(wěn),其中有兩個峰值。這是因為在測試之前并未對網(wǎng)站進(jìn)行監(jiān)控,然后是小組內(nèi)利用幾臺機器進(jìn)行測試,出現(xiàn)峰值是因為為了測試服務(wù)平臺的穩(wěn)定性多臺計算機多次對平臺同時進(jìn)行訪問。此外我們還可以設(shè)置多個指標(biāo),如圖3.4,通過對多個指標(biāo)進(jìn)行分析,我們可以計算訪客的忠誠度,衡量訪客健康程度和質(zhì)量。圖3.3訪客趨勢圖(指標(biāo)設(shè)置)圖3.4訪客趨勢圖2.用戶訪問的時間分布規(guī)律通過分析用戶活動在時間上的分布規(guī)律,可以了解用戶每天的行為模式。圖3.5為依服務(wù)器時間記錄的訪問次數(shù)統(tǒng)計直方圖,從圖中可以看到訪問主要集中在上班工作時間,這是因為平臺處于測試階段,訪問來自平臺網(wǎng)站開發(fā)人員檢查服務(wù)效果,統(tǒng)計結(jié)果符合客觀實際情況。圖3.5依服務(wù)器時間記錄的訪問次數(shù)直方圖3.用戶停留時間分析用戶使用平臺是帶有一定目的或需求的,通過訪問停留時間我們可以推測平臺服務(wù)是否達(dá)到用戶預(yù)期,能否滿足用戶需求。如果停留時間過短占的比例比較大說明平臺內(nèi)容比較“糟糕”,對用戶沒有吸引力;如果停留時間過長占的比例較大,說明平臺服務(wù)設(shè)計不合理,用戶感興趣的“知識”隱藏太深。圖3.6為實驗環(huán)境下數(shù)據(jù),用戶主要為了查驗平臺運行狀況,而不是獲取感興趣內(nèi)容,所以停留時間較短。圖3.6訪客停留時間3.3.2基于點擊位置的空間區(qū)域訪問分析由于網(wǎng)絡(luò)地圖提供的多為空間信息服務(wù),因此許多用戶行為數(shù)據(jù)中帶有空間特性,甚至是時間特性。這些數(shù)據(jù)中包含了位置信息,可以很方便計算數(shù)據(jù)間的距離,因此非常適合聚類分析。在聚類的基礎(chǔ)上,借助新型的可視化手段如熱力圖、標(biāo)簽云等,將聚類結(jié)果可視化,制作各種可以反應(yīng)數(shù)據(jù)空間分布特征的地圖,從地理維度對這些數(shù)據(jù)進(jìn)行挖掘。這類數(shù)據(jù)中很典型的一類是通過記錄鼠標(biāo)點擊位置獲取的空間區(qū)域訪問信息,如果一個地區(qū)被關(guān)注度很高,我們應(yīng)該提高該地區(qū)數(shù)據(jù)的更新速度,提供更詳細(xì)的數(shù)據(jù)。本小節(jié)以此為例介紹聚類分析在該類數(shù)據(jù)中的應(yīng)用,并通過熱力圖與地圖結(jié)合進(jìn)行可視化分析。熱力圖即利用空間統(tǒng)計的算法,從離散的點事件中找到空間聚集區(qū)域,然后將離散數(shù)據(jù)(事件或事物)的分布及其相互關(guān)系圖示化,常常以一張具備顯著顏色差異圖片的方式呈現(xiàn)最終結(jié)果,亮色一般代表事件發(fā)生頻率較高或事物分布密度較大,暗色反之。生成熱力圖主要包括數(shù)據(jù)處理和熱力圖繪制兩個階段。1.數(shù)據(jù)處理利用熱力圖對點數(shù)據(jù)集進(jìn)行可視化首先需要對數(shù)據(jù)按照一定方式進(jìn)行聚類,在此采用了K-Means聚類算法,因為熱力圖顯示需要隨著地圖縮放漫游實時變化,K-Means算法效率高,可以很好滿足需求。其基本思想是初始隨機給定K個聚類中心,按照最鄰近原則把待分類樣本點分到各個類中。然后按平均法重新計算各個類的中心,從而確定新的類中心。一直迭代,直到類中心不變或者移動距離小于某個給定的值。K-means聚類流程為:(1)從所有數(shù)據(jù)點中隨機選取K個數(shù)據(jù)點作為中心點,記下中心點的坐標(biāo);(2)依次測量剩余數(shù)據(jù)點到每個中心點的距離,并把它歸到距離最近的中心點的類;(3)根據(jù)每個類中數(shù)據(jù)點的坐標(biāo)和該類中數(shù)據(jù)點個數(shù),重新計算已經(jīng)得到的各個類的中心點,并記下中心點坐標(biāo)作為新的聚類中心;(4)不斷重復(fù)第(2)、(3)步,直至新的中心點與原中心點相等或小于指定閾值,聚類結(jié)束。2.熱力圖繪制經(jīng)過數(shù)據(jù)處理我們得到含有若干點的K個類,每個類的中心點就是熱力圖的中心,我們以這些中心點,繪制熱力圖,流程如下:(1)計算類中所有點到其中心點的距離;(2)使用漸進(jìn)的灰度帶(完整的灰度帶是0~255),將距離“標(biāo)準(zhǔn)化”為灰度值,中心點的灰度值為255,最遠(yuǎn)距離處的灰度值為0,帶有小數(shù)的數(shù)值根據(jù)四舍五入原則確定;(3)以灰度值為索引,從一條有256種顏色的色帶中映射顏色,從中心點由內(nèi)向外進(jìn)行填充,并對圖像進(jìn)行著色,從而實現(xiàn)熱力圖的繪制。結(jié)果如圖3.7:圖3.7基于鼠標(biāo)點擊位置的空間區(qū)域訪問熱力圖3.3.3基于特征向量的用戶相似性分析用戶行為受到多種因素影響,具有內(nèi)在的規(guī)律性,用戶訪問的內(nèi)容和使用的功能在一定程度上反映了用戶興趣和偏好。利用這些內(nèi)容構(gòu)建特征向量,可以幫助我們計算用戶之間的相似程度,并以此為依據(jù)對用戶進(jìn)行分類,研究不同用戶之間的異同,分析用戶需求,為用戶提供個性化服務(wù)。這里我們主要利用模糊聚類的方法,以用戶查詢酒店為例,根據(jù)用戶查看的酒店類型構(gòu)建特征向量,并基于該特征向量完成對用戶的分類,其主要步驟如下[46]:表3.1用戶查詢酒店類型統(tǒng)計表行為用戶X1X2X3U1231U22571U34146U42093U5668U616186U7620U814240U92230U1081812(1)數(shù)據(jù)預(yù)處理首先根據(jù)表3.1的不同用戶訪問地理信息資源次數(shù)計算每種行為觀測點樣本的平均值和標(biāo)準(zhǔn)差。平均值:X標(biāo)準(zhǔn)差:S然后將數(shù)據(jù)標(biāo)準(zhǔn)化:X'ki=圖3.8標(biāo)準(zhǔn)化矩陣(2)根據(jù)歐氏距離,計算各對象間的模糊相似矩陣F,公式如下:dr其中c是適當(dāng)選取的參數(shù),對距離d起到約束作用,保證rij大于0圖3.9模糊相似矩陣(3)根據(jù)F求包含F(xiàn)的最小模糊傳遞矩陣,即F的傳遞閉包t(F)。圖3.10最小模糊傳遞矩陣(4)根據(jù)t(F)和閾值r進(jìn)行分類,當(dāng)閾值變化時分類結(jié)果發(fā)生變化,我們可以根據(jù)需要和經(jīng)驗選定合適閾值。當(dāng)C取0.1時,若r取0.946,結(jié)果如下:圖3.11閾值為0.946時分類結(jié)果實驗表明:用戶分為四類,其中用戶1、6、8為一類,用戶2、4、7、9為一類,用戶3、10為一類,用戶5獨立成類。當(dāng)C取0.1時,若r取0.820,結(jié)果如下:圖3.12閾值為0.820時分類結(jié)果實驗表明:用戶分為三類,其中用戶1、3、6、8、10為一類,用戶2、4、7、9為一類,用戶5獨立成類。以用戶選擇酒店類型為例,在第一次分類中第一類用戶在酒店選擇方面偏好于前兩種,尤其是快捷酒店;第二類用戶在酒店選擇方面更傾向于星級酒店;第三類用戶在酒店選擇方面后兩種較多,但更傾向于快捷酒店;第四類用戶則比較均衡。由于第一、三類用戶均更偏愛于快捷酒店,所以當(dāng)分類數(shù)目減少時合為一類。如果進(jìn)一步進(jìn)行信息挖掘,第二類用戶消費水平最高,屬于商務(wù)人士可能性比較大;第一類用戶次之,選擇快捷酒店原因多為其價格低廉;第三類用戶消費水平低于第一類,其選擇快捷酒店原因可能是因為其比較安全可靠;第四類用戶特征不明顯,屬于隨遇而安類型。我們可以根據(jù)分析結(jié)果有針對性的對用戶進(jìn)行推薦。3.4本章小結(jié)本章首先分析了網(wǎng)絡(luò)地理信息服務(wù)平臺中用戶行為研究機理,在此基礎(chǔ)上針對網(wǎng)絡(luò)地理信息服務(wù)平臺用戶行為數(shù)據(jù)特點,對頁面標(biāo)簽技術(shù)進(jìn)行擴展,實現(xiàn)了針對異步調(diào)用的用戶行為數(shù)據(jù)、具備空間特征的用戶行為數(shù)據(jù)獲取,并且實現(xiàn)了基于網(wǎng)絡(luò)狀況的數(shù)據(jù)動態(tài)上傳。最后基于用戶行為數(shù)據(jù)分析了用戶的活躍度和相似性,并利用熱力圖對空間區(qū)域訪問數(shù)據(jù)進(jìn)行可視化,這些研究為改善地理信息服務(wù)平臺提供了科學(xué)依據(jù)。第四章位置服務(wù)中用戶行為數(shù)據(jù)獲取與分析第四章位置信息服務(wù)中用戶行為數(shù)據(jù)獲取與分析位置信息服務(wù)已經(jīng)成為一種重要的地理信息應(yīng)用,用戶在使用這些服務(wù)的同時,往往會對位置進(jìn)行標(biāo)注、評價,這些數(shù)據(jù)反映了用戶對該位置關(guān)注程度,是衡量其重要性的一個重要指標(biāo)。由于目前POI分類分級都是在客觀調(diào)查基礎(chǔ)上進(jìn)行專家打分,忽略了用戶需求,而用戶最關(guān)注的才是最重要的。本章主要基于位置信息服務(wù)中用戶行為數(shù)據(jù),在遵守POI分類分級基礎(chǔ)上,綜合考慮用戶因素的影響,建立新的分級體系,并基于用戶背景數(shù)據(jù)對POI進(jìn)行信息挖掘,為提高地理信息服務(wù)水平提供科學(xué)依據(jù)。4.1位置信息服務(wù)中用戶行為研究機理隨著GPS、基站定位技術(shù)日漸成熟,移動智能終端設(shè)備的普及以及移動網(wǎng)絡(luò)的迅速發(fā)展,眾多應(yīng)用都嵌入了位置服務(wù),極大的便利了人們的日常生活。從目前位置服務(wù)的整體來看位置服務(wù)內(nèi)容主要可以概括為:位置社交(如QQ、微博等)、工具類應(yīng)用(如導(dǎo)航、團(tuán)購等)、傳統(tǒng)位置服務(wù)(如車輛管理、信息查詢)三大類。位置服務(wù)應(yīng)用廣泛,這導(dǎo)致了用戶行為數(shù)據(jù)來源多樣化,但由于商業(yè)機密或者保護(hù)用戶隱私,有些用戶行為數(shù)據(jù)我們無法通過網(wǎng)絡(luò)獲取,例如出租車軌跡;有些應(yīng)用不是針對普通大眾或者數(shù)據(jù)內(nèi)容不滿足本文研究需要,如飛行軌跡數(shù)據(jù)。在此選取數(shù)據(jù)開放度高,信息豐富,用戶覆蓋范圍廣的微博作為數(shù)據(jù)來源,研究位置服務(wù)中的用戶行為機理,如圖4.1。位置信息服務(wù)中用戶行為研究主要分為數(shù)據(jù)獲取和數(shù)據(jù)分析兩個階段,數(shù)據(jù)獲取階段主要采用基于API與網(wǎng)絡(luò)爬蟲相融合的方法,該方法首先基于API獲取種子文件,然后利用網(wǎng)絡(luò)爬蟲根據(jù)種子文件獲取用戶行為數(shù)據(jù),該方法既可以避免基于API獲取數(shù)據(jù)量受到限制問題,又可以克服網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)缺乏針對性,效率較低問題。獲取的用戶行為數(shù)據(jù)中主要包含位置屬性數(shù)據(jù)和用戶背景數(shù)據(jù),前者反應(yīng)了該POI受到用戶的關(guān)注程度,是衡量其重要性的一個重要指標(biāo);后者反映了關(guān)注該POI的用戶類型,可以用來分析POI的受眾類型,豐富POI的屬性信息。圖4.1位置信息服務(wù)中用戶行為機理4.2基于API與網(wǎng)絡(luò)爬蟲融合的用戶行為數(shù)據(jù)獲取4.2.1基于API獲取數(shù)據(jù)的原理微博開放平臺根據(jù)功能開發(fā)需要開放了眾多的API接口。根據(jù)接口功能劃分主要分為三類接口:微博基礎(chǔ)數(shù)據(jù)接口,例如微博訪問接口、用戶接口和關(guān)注接口;微博地理位置信息接口,例如地圖引擎接口、POI數(shù)據(jù)處理接口和移動定位接口等;測試接口,如help/test測試接口。在微博開放平臺上獲取應(yīng)用首先需要注冊一個微博賬戶,然后提交個人的實際信息,供微博開放平臺核準(zhǔn)確認(rèn)(OAUTH授權(quán)),只有通過審核后的用戶才可以獲得開發(fā)者身份,進(jìn)而創(chuàng)建自己的應(yīng)用。創(chuàng)建開發(fā)應(yīng)用時,用戶會獲取兩個重要的參數(shù):APPKey和SecretKey,前者是開發(fā)者創(chuàng)建的應(yīng)用標(biāo)識,主要用來供程序來識別應(yīng)用;后者是平臺分配給創(chuàng)建的應(yīng)用的密鑰,主要用來確保該應(yīng)用的真實性和安全性。通過OAUTH授權(quán)解決了程序訪問新浪微博API的用戶身份認(rèn)證問題,用戶可以根據(jù)需要調(diào)用相應(yīng)接口獲取數(shù)據(jù),其流程如圖4.2:圖4.2新浪微博API數(shù)據(jù)獲取程序流程為了方便調(diào)用API,新浪微博提供了一套軟件開發(fā)包即新浪SDK,其中封裝了從授權(quán)認(rèn)證到數(shù)據(jù)獲取與解析的各項功能。SDK是建立在API基礎(chǔ)上的集成與開發(fā),可以支持Python、C++、PHP、JAVA、JavaScript等十幾種計算機語言,并且可以在手機、平板電腦等移動設(shè)備上使用,它的使用極大地減少了程序開發(fā)的工作量,但是存在著開發(fā)不完善,在功能上和穩(wěn)定性方面均不如API[46,47]。雖然通過開放API可以方便獲取微博數(shù)據(jù),但是獲取數(shù)據(jù)的數(shù)量和類型受到限制,許多數(shù)據(jù)獲取必須獲得高級權(quán)限。為了均衡服務(wù)器負(fù)載,新浪微博API服務(wù)商除了限定單頁返回記錄最大為50條以外,對用戶的API接口訪問頻次做了限制,普通授權(quán)、中級授權(quán)和高級授權(quán)用戶在使用一個應(yīng)用請求頻次均不能超過2000次/小時。4.2.2基于網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的原理基于網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)主要涉及網(wǎng)頁獲取和頁面內(nèi)容解析兩部分,首先利用網(wǎng)絡(luò)爬蟲來獲取目標(biāo)網(wǎng)頁,然后利用頁面解析技術(shù)獲取頁面內(nèi)容。1.網(wǎng)頁獲取網(wǎng)絡(luò)爬蟲工作基本原理是:網(wǎng)頁之間一般都是通過鏈接進(jìn)行跳轉(zhuǎn),如果將每一個頁面看作一個節(jié)點,網(wǎng)頁之間的鏈接看作連接節(jié)點的一條有向邊,這樣就可以構(gòu)成一個有向圖。網(wǎng)絡(luò)爬蟲可以對網(wǎng)頁進(jìn)行類似于有向圖的遍歷,從設(shè)定的一個或者多個節(jié)點出發(fā),下載相應(yīng)網(wǎng)頁并獲取網(wǎng)頁中的其他URL鏈接,進(jìn)而根據(jù)這些URL遍歷其他節(jié)點。為了提高網(wǎng)絡(luò)爬蟲工作效率,避免重復(fù)獲取網(wǎng)頁,在URL獲取過程中一般會采用一定的抓取策略,常用的策略有:(1)深度優(yōu)先策略:爬蟲從起始頁開始,持續(xù)跟蹤一條線路里的鏈接,直至處理完整條線路然后返回起始頁,繼續(xù)跟蹤起始頁的子節(jié)點。(2)廣度(寬度)優(yōu)先策略:網(wǎng)絡(luò)爬蟲先抓取起始頁中所有鏈接,然后逐次選擇一個鏈接,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。(3)最佳優(yōu)先搜索策略:利用一定的算法,計算待抓取的網(wǎng)頁的鏈接與目標(biāo)頁面的相關(guān)程度,優(yōu)先爬取與主題相關(guān)度高的頁面。2.頁面內(nèi)容解析HTML頁面結(jié)構(gòu)是半結(jié)構(gòu)化的,在HTML頁面中使用不同的標(biāo)簽及其屬性來表示文本具有的不同意義,這些標(biāo)簽一般都是成對出現(xiàn)的,數(shù)據(jù)內(nèi)容就存儲在了一對標(biāo)簽之中。一個典型的網(wǎng)頁結(jié)構(gòu)如下:<html><head><title>頁面標(biāo)題</title></head><body>//包含主要的文本數(shù)據(jù)……<ahref=”鏈接”>內(nèi)容</a>……</body></html>獲取的HTML頁面在結(jié)構(gòu)上基本是一致的,根據(jù)文檔具體結(jié)構(gòu),設(shè)計程序利用正則表達(dá)式便可以從頁面中有選擇地提取需要的內(nèi)容,按照一定格式存儲。在新浪微博中只有登錄后才可以訪問微博信息,所以在獲取數(shù)據(jù)前需要登錄微博平臺,目前解決方法是利用程序模擬用戶登錄行為[46,48]。利用網(wǎng)絡(luò)爬蟲可以不受限制獲取數(shù)據(jù),但是爬蟲需要不斷計算URL相關(guān)度,或者遍歷所有URL,造成了不必要開銷,因此基于網(wǎng)絡(luò)爬蟲獲取效率低于基于API方法。4.2.3基于API與網(wǎng)絡(luò)爬蟲融合的數(shù)據(jù)獲取方法基于API獲取數(shù)據(jù)的方式效率高,但是受到來自服務(wù)器的限制,當(dāng)數(shù)據(jù)量比較大時不能獲取到完整的數(shù)據(jù)集?;诰W(wǎng)絡(luò)爬蟲的獲取方式雖然可以獲取完整數(shù)據(jù)集,但是效率低下。在此我們將兩者結(jié)合起來,提高數(shù)據(jù)的獲取效果。具體流程如圖4.3:圖4.3基于API與網(wǎng)絡(luò)爬蟲融合的數(shù)據(jù)獲取方法由圖可以看出,該方法主要分類兩部分:第一部分主要利用開放API獲取所需的種子文件,確定初始的URL,將URL提供給網(wǎng)絡(luò)爬蟲模塊;第二部分是網(wǎng)絡(luò)爬蟲模塊,該模塊根據(jù)初始URL獲取頁面,進(jìn)行頁面解析,獲取所需內(nèi)容并根據(jù)微博中URL的規(guī)律構(gòu)建新的URL集合,獲取所有相關(guān)頁面,直到程序滿足結(jié)束條件。以新浪微博中簽到數(shù)據(jù)為例,首先利用API獲取POI的ID信息,根據(jù)其ID信息構(gòu)建初始URL,然后爬蟲模塊通過URL獲取相應(yīng)的頁面,通過頁面解析獲取每個POI簽到頁數(shù),利用簽到頁面URL規(guī)律循環(huán)抓取所有簽到頁面,利用頁面解析技術(shù)獲取所需內(nèi)容。在此利用上述方法獲取全國范圍和鄭州周邊兩個尺度下的旅游景點在微博中的用戶簽到數(shù)據(jù)作為本章節(jié)實驗數(shù)據(jù)。首先在全國范圍內(nèi)從全國1A-5A以及非A級共5138個旅游景點中[49]按照不同級別進(jìn)行不放回簡單隨機抽樣,總共6個簡單隨機樣本,單個樣本容量為25,從新浪位置微博站點[50]上爬取各旅游景點的微博數(shù)、簽到人數(shù)和圖片數(shù)等信息。在鄭州范圍內(nèi)對百度旅游-鄭州旅游景點[51]中所推薦的179個旅游景點進(jìn)行篩選,最終選取了鄭州市及其周邊58個旅游景點,簽到總?cè)藬?shù)為70721(獲取的最后時間為2014年8月15日),其中4個3A景點和2個2A景點(表格中陰影區(qū)域)由于簽到人數(shù)不滿100,沒有獲取詳細(xì)的簽到用戶信息。獲取的簽到用戶數(shù)據(jù)總共包括8項:用戶ID、用戶名稱、性別、地區(qū)、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)和簽到時間,具體參見表4.1。表4.1獲取的簽到用戶信息數(shù)據(jù)項數(shù)據(jù)項數(shù)據(jù)類型舉例用戶ID字符串299****627用戶名稱字符串框***桑性別枚舉型男地區(qū)字符串天津濱海新區(qū)關(guān)注數(shù)整型19粉絲數(shù)整型2微博數(shù)整型2簽到時間日期型2012/4/2819:39:004.3基于用戶行為數(shù)據(jù)的POI重要性評價和信息挖掘4.3.1基于EDA的用戶行為數(shù)據(jù)分析探索性數(shù)據(jù)分析(EDA)是在盡量少的先驗假設(shè)條件下對通過觀察、測量等手段對初步得到的雜亂無章的數(shù)據(jù)進(jìn)行處理,借助作圖、制表等形式或者通過計算某些特征量、方程擬合等手段來探測數(shù)據(jù)的結(jié)構(gòu)和規(guī)律。它從原始數(shù)據(jù)出發(fā),完全以實際數(shù)據(jù)為依據(jù),具有分析方法靈活,結(jié)果直觀簡單等特點。利用探索性數(shù)據(jù)分析(EDA)可以對來自網(wǎng)絡(luò)的無序的數(shù)據(jù)進(jìn)行處理,使其符合某種分布,在此基礎(chǔ)上借助傳統(tǒng)的數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)發(fā)掘,避免當(dāng)數(shù)據(jù)偏離假定所描述的模型時,傳統(tǒng)分析方法分析效果很差甚至錯誤。本文選擇探索性數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)分析,主要用于判斷數(shù)據(jù)是否服從正態(tài)分布,如果數(shù)據(jù)不服從正態(tài)分布則利用冪變換和極小異常值檢測等手段將非正態(tài)分布數(shù)據(jù),變?yōu)檎龖B(tài)分布。1.數(shù)據(jù)分布正態(tài)性判斷(1)設(shè)有n個數(shù)據(jù),經(jīng)從小到大排序后記為:,這組數(shù)據(jù)的中位數(shù)是M。此時,當(dāng)n是偶數(shù)時,;當(dāng)n是奇數(shù)時,。(2)次序統(tǒng)計量:四分?jǐn)?shù)F,八分?jǐn)?shù)E,十六分?jǐn)?shù)D,三十二分?jǐn)?shù)C等,其中它們均有兩個值,下四分?jǐn)?shù)是處于中位數(shù)與最小值的半中間的那個數(shù),上四分?jǐn)?shù)是中位數(shù)與最大值的半中間的那個數(shù);下八分?jǐn)?shù)是處于下四分?jǐn)?shù)與最小值的半中間的那個數(shù),上八分?jǐn)?shù)是上四分?jǐn)?shù)與最大值的半中間的那個數(shù);依次類推十六分?jǐn)?shù),三十二分?jǐn)?shù)等。次序統(tǒng)計量的深度:將一個數(shù)在一組數(shù)據(jù)中所處位置稱為這個數(shù)的深度。M的深度=d(M)=F的深度=d(F)=C的深度=d(C)=其中表示求不超過x的最大整數(shù)運算。(4)次序統(tǒng)計量的中總括值:對于每一個次序統(tǒng)計量的2個值,其平均值稱為該次序統(tǒng)計量的中總括值,如下:M的中總括=中位數(shù)F的中總括=E的中總括=D的中總括=C的中總括=對于一組排好序的數(shù)據(jù),按照上述4個步驟可求出5個中總括,若這5個值既無遞增趨勢也沒遞減趨勢,且大小均相近,則這組數(shù)據(jù)是正態(tài)或近似正態(tài)的。如它們是遞增的,則數(shù)據(jù)分布是偏正態(tài)的;若它們是遞減的,則數(shù)據(jù)分布是負(fù)偏態(tài)的。2.偏態(tài)冪變換若數(shù)據(jù)不服從正態(tài)分布,則可對每一個數(shù)據(jù)進(jìn)行冪變換來消除偏性,變換后得到一組新的數(shù)據(jù):。變換的冪的大小p如下確定:(1)對每一個次序統(tǒng)計量T(T=F,E,D,C),求經(jīng)過(0,0),(x,y)的直線方程的斜率b,計算如下:(2)對上述步驟得到的4個斜率,計算其中位數(shù),則取變換的冪,若實際計算中p是小數(shù),可取與其相近的兩個整數(shù)分別計算,再取最合適的那個值作為p.(3)冪變換后的數(shù)據(jù)做正態(tài)性判斷:首先,按上述提到的方法計算變換后的數(shù)據(jù)的5個中總括值,將相鄰的兩個中總值相減,得到4個差值。如果這4個差值中各有兩正兩負(fù),則說明變換后的數(shù)據(jù)基本是正態(tài)分布。反之,則要再調(diào)整p值,當(dāng)分布正偏時,調(diào)低p值;當(dāng)分布負(fù)偏時,調(diào)高p值。3.基于改進(jìn)格拉布斯準(zhǔn)則的數(shù)據(jù)異常值檢測由于樣本中會存在極小異常值,這些異常值存在導(dǎo)致冪變換后數(shù)據(jù)仍然不服從正態(tài)分布,因此需要剔除這些異常數(shù)據(jù),在此基礎(chǔ)上在進(jìn)行冪變換。最常用的異常值檢測方法是格拉布斯準(zhǔn)則,但該準(zhǔn)則適用于兩端的極值異常檢測,因此需要對該準(zhǔn)則增加“僅檢測極小異常值”的約束條件,本文改進(jìn)后的格拉布斯準(zhǔn)則算法如圖4.4:圖4.4僅檢測“極小異常值”的格拉布斯準(zhǔn)則算法改進(jìn)格拉布斯準(zhǔn)則改進(jìn)算法流程:(1)計算初始樣本的樣本均值A(chǔ)和標(biāo)準(zhǔn)差σ;(2)如果樣本均值A(chǔ)-2σ小于0,證明該分布在置信區(qū)間內(nèi)(置信度取95%)簽到人數(shù)存在負(fù)值,因此認(rèn)為樣本中的極小值為異常值,去除該異常值,生成了新的樣本,返回到第(1)步。(3)如果樣本均值A(chǔ)-2σ不小于0,找到殘差中的極值,并計算格拉布斯臨界值M,如果M小于閾值,認(rèn)為樣本中不存在異常值,算法結(jié)束。如果M大于閾值,去除樣本中的極小值后,生成了新的樣本,返回到第(1)步。4.3.2基于用戶關(guān)注度的POI分級體系建立盡管在地理信息應(yīng)用中,已經(jīng)科學(xué)的建立了一套POI重要性評價模型,依靠客觀調(diào)查進(jìn)行專家打分,從而給出POI的分級體系[53,54],但是這種分級方法忽略了用戶這一至關(guān)重要的因素,因為從用戶角度講,其需要的才是最重要的。因此我們在POI分級體系建立過程中必須考慮到用戶這一因素。用戶在使用位置信息服務(wù)時,會留下自己的“足跡”,通過對這些數(shù)據(jù)進(jìn)行統(tǒng)計比較,可以反映到達(dá)不同地點的人數(shù)多少,是衡量用戶對此POI關(guān)注度的一個重要指標(biāo)。但是單純依靠用戶關(guān)注程度建立POI分級體系,會忽略掉POI的許多客觀價值,如“集安市高句麗文物古跡旅游景區(qū)”,雖然在2004年就被列入《世界文化遺產(chǎn)名錄》,但由于地處偏遠(yuǎn)(吉林省東南邊陲,與朝鮮隔江相望),因此在新浪位置微博上僅有2人簽到的信息。因此基于用戶關(guān)注程度建立POI分級體系,是在遵循科學(xué)客觀的分級基礎(chǔ)之上,結(jié)合用戶關(guān)注程度建立新的POI分級體系,其中包括兩個指標(biāo):通過專家打分建立的分級體系和用戶關(guān)注度。在新的分級標(biāo)準(zhǔn)中由于依靠專家打分建立的POI分級體系的分級結(jié)果多是定序變量,如景點分為1A到5A,而用戶關(guān)注程度多為定距變量,如微博數(shù)的多少。因此需要將定距變量轉(zhuǎn)換為定序變量,即“關(guān)注度高”、“相適應(yīng)”、“關(guān)注度低”。用戶關(guān)注度的“高”和“低”是一個相對概念,比如,比如一個5A景點簽到人數(shù)為500,會被認(rèn)為關(guān)注度“低”,但是對于一個1A景點來說,則被認(rèn)為關(guān)注度“高”。如果同一級別的POI用戶關(guān)注度呈正態(tài)分布,那么從統(tǒng)計角度出發(fā),可以認(rèn)為在均值的1個標(biāo)準(zhǔn)差范圍內(nèi)的人數(shù)都是和該級別的POI相適應(yīng)的,而在1個標(biāo)準(zhǔn)差范圍以外的,則被認(rèn)為用戶關(guān)注度過“高”或者過“低”,如下所示:0其中A為樣本均值,σ為標(biāo)準(zhǔn)差。在此
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)客服工作總結(jié)及時解答解決用戶問題
- 食品行業(yè)食品安全培訓(xùn)總結(jié)
- AIDS抗病毒治療課件
- 2025年全球及中國血流動力學(xué)監(jiān)測解決方案行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球新能源交流繼電器行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球剛性墻庇護(hù)所行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國游戲視頻背景音樂行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球滑移轉(zhuǎn)向巖石拾取器行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球甲氧氯普胺片行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國工業(yè)級硅酸鉀行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 充電樁知識培訓(xùn)課件
- 2025年七年級下冊道德與法治主要知識點
- 2025年交通運輸部長江口航道管理局招聘4人歷年高頻重點提升(共500題)附帶答案詳解
- 老年髖部骨折患者圍術(shù)期下肢深靜脈血栓基礎(chǔ)預(yù)防專家共識(2024版)解讀
- 偏癱足內(nèi)翻的治療
- 藥企質(zhì)量主管競聘
- 信息對抗與認(rèn)知戰(zhàn)研究-洞察分析
- 心腦血管疾病預(yù)防課件
- 手術(shù)室??谱o(hù)士工作總結(jié)匯報
- 2025屆高三聽力技巧指導(dǎo)-預(yù)讀、預(yù)測
- 蘇州市2025屆高三期初陽光調(diào)研(零模)政治試卷(含答案)
評論
0/150
提交評論