版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
湖南商務職業(yè)技術學院畢業(yè)設計
目錄
1引言1
1.1項目背景1
1.2開發(fā)環(huán)境與工具2
1.2.1Python簡介2
1.2.2Jypyternotebook簡介2
1.2.3Python第三方庫簡介3
2需求分析3
2.1可行性需求分析3
2.2采集目標功能分析4
2.3關鍵技術分析4
2.3.1網(wǎng)絡爬蟲技術4
2.3.2文件存取技術5
2.3.3可視化技術6
3數(shù)據(jù)采集7
3.1采集頁面分析7
3.2字段分析9
3.3編程實現(xiàn)10
4數(shù)據(jù)清洗與處理13
4.1數(shù)據(jù)清洗13
4.2數(shù)據(jù)儲存14
5數(shù)據(jù)統(tǒng)計與分析15
5.1數(shù)據(jù)準備15
5.2數(shù)據(jù)展示16
5.2.1根據(jù)樓盤銷售狀態(tài)的數(shù)量進行統(tǒng)計16
5.2.2依據(jù)各銷售狀態(tài)的均價進行統(tǒng)計17
5.2.3據(jù)新房價格分布進行統(tǒng)計和分析18
5.2.4依據(jù)單價價格前20樓盤位置進行統(tǒng)計19
I
湖南商務職業(yè)技術學院畢業(yè)設計
5.2.5根據(jù)戶型數(shù)量進行統(tǒng)計20
5.3本章小結21
6小結21
參考資料23
II
湖南商務職業(yè)技術學院畢業(yè)設計
房天下網(wǎng)杭州市新房數(shù)據(jù)采集與分析
1引言
21世紀已然過去20年,全球在這20年里發(fā)展迅速,我國也同樣進入信息
大爆炸時段,從以前的只聞耳邊事,到現(xiàn)在的知天下事??萍嫉难杆侔l(fā)展帶給
人們更便捷,更舒適的生活體驗。我國雖然1997年才介入互聯(lián)網(wǎng),到2017年
互聯(lián)網(wǎng)的普及率才過半,但經過斷斷幾年的發(fā)展,我國從無到有,再到如今的
飛躍。同時隨著互聯(lián)網(wǎng)的發(fā)展,我國也以驚人的速度成長起來,成為大國。
個人的穿衣風格、食物喜好、娛樂選擇,匯聚為個人數(shù)據(jù),那么全球70億
人口的所有數(shù)據(jù)集合便是一個龐大無比的數(shù)據(jù)庫。從這個巨大的數(shù)據(jù)庫中觀察,
便可發(fā)現(xiàn)許多珍貴的信息,尤其是人們的衣食住行、衛(wèi)生醫(yī)療、娛樂項目等等,
其中的價值可開發(fā)性巨大。也因此,互聯(lián)網(wǎng)專業(yè)人才從幾年前的供不應求的狀
態(tài)變成現(xiàn)在的飽和,正式人們看到了數(shù)據(jù)的未來的發(fā)展空間大。隨著發(fā)展,人
們的喜好會變,因此數(shù)據(jù)也會增加改變,發(fā)掘性也一直存在。
1.1項目背景
住房一直以來都是人們普遍關注的事,房子通常給人的感覺是溫暖、安全,
因此人們來到一個新城市的第一件事就是找到居住的房子。對于工作的年輕人,
通常都想在當?shù)負碛幸粋€屬于自己的房子,而擁有房子,也讓婚姻有了保障,
讓夫妻在此培養(yǎng)下一代。
沿海省份普遍比內陸省份發(fā)展高,工作薪資一般也比內陸高。如今人們生
活離不開住房,但近幾年的售房率卻大大下降。在以往,尋找工作的年輕人的
選擇一般都為沿海省份城市,找到工作,然后買一間自己的小屋,所以房地產
行業(yè)經久不衰。對于購房者,買方需要滿足自己的需求,周圍環(huán)境、朝向、交
通、醫(yī)療距離,都是購房的考慮要素。
這也是我將這作為畢設的原因,生活離不開住房,對房屋的各項分析便于
人更加清晰的了解房子,從而作出自己的選擇,房產公司也可通過分析了解人
們的隱形需求,以便未來發(fā)展。
1
湖南商務職業(yè)技術學院畢業(yè)設計
1.2開發(fā)環(huán)境與工具
1.2.1Python簡介
Python由荷蘭數(shù)學和計算機科學研究學會的吉多·范羅蘇姆于1990年代
初設計,作為一門叫做ABC語言的替代品。因為是從ABC發(fā)展起來的,因此受
到了Modula-3的影響,結合了UnixShell和C的習慣。
Python是一種十分優(yōu)美的語言,其豐富的模塊和其他語言難以描述的列表、
字典等復雜的數(shù)據(jù)類型,在近年得到廣泛運用。它具有開源、免費、功能強大、
語法簡潔清晰、簡單、數(shù)據(jù)類型豐富、面向對象等特點。而且它還有十分豐富
的資源包,無論用戶要干什么,基本都能找到一個程序包滿足自己。
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多的信息被發(fā)布到互聯(lián)網(wǎng)上,信息含量越
來越密集。而大數(shù)據(jù)技術所設計的數(shù)據(jù)獲取、數(shù)據(jù)清洗、可視化處理里,都有
這python的存在,足以證明python的應用廣泛性。在如今,python已經成為
了最受歡迎的程序語言之一,在國外,很多做科學計算的科研機構都會選擇使
用python,一些知名大學也采取了用python教授設計課程的措施。眾多開源的
科學計算軟件包都提供了python的調用接口。同時,NumPy、SciPy和
matplotlib這三個經典的科學計算擴展庫為python提供了快速數(shù)組處理、數(shù)值
運算已經繪圖功能,這是人們更加愿意使用python。
最后,python曾在2022年超越Java,在最新的榜單中,python在PYPL指
數(shù)榜中斬獲冠軍,成為最火熱的計算語言。并且隨著python的繼續(xù)開發(fā),從事
的工作崗位及內容也增多。大數(shù)據(jù)技術的未來發(fā)展空間巨大,也正是因為python
在許多方面大有發(fā)揮之處,現(xiàn)在的python相關職位也炙手可熱。
1.2.2Jypyternotebook簡介
Jupyternotebook從本質上來說是一個Web程序,便于創(chuàng)建和共享程序
文檔,支持實時代碼,教學方程,可視化和markdown的應用程序其最大的優(yōu)點
是可以重現(xiàn)整個分析過程,并將說明文字、代碼、圖表。公式和結論都整合在
一個文檔中。用戶可以通過墊子郵件等方法將數(shù)據(jù)結構分享給其他人。相較于
其他的數(shù)據(jù)清洗方式,jypyternotebook更加方便。它支持markdown語言,可
以在編輯代碼的同時,可以為代碼注釋。而且jypyternotebook執(zhí)行代碼不會
將注釋一起執(zhí)行,這使教學更加易懂,講解項目時也簡單明確。
對于大數(shù)據(jù)技術的工作人員,在收集了大量數(shù)據(jù)后,用jypyternotebook
2
湖南商務職業(yè)技術學院畢業(yè)設計
來清洗數(shù)據(jù)十分廣泛,畢竟它除了可以清洗、處理數(shù)據(jù)外,還可以可視化,如
此方便、快捷的程序深受歡迎。
由于Anaconda中自帶jypyternotebook,所以用戶可以直接在當前的系統(tǒng)
中安裝Anaconda環(huán)境,這樣就默認擁有了了jypyternotebook,不需要另行下
載和安裝。當然如果不想要Anaconda,可直接前往官網(wǎng)安裝,都是可行的。
1.2.3Python第三方庫簡介
Requests庫:是一個原生的HTTP庫,比urllib3庫更容易使用,且無須手
動為URL添加查詢字符,也不需要對POST數(shù)據(jù)進行表單編碼。相較于urllib3
庫,它擁有完全自動化的Keep-Alive和HTTP連接池的功能。
Xpath:XML路徑語言是一門在XML文檔中查找信息的語言,Xpath的選擇
功能強大,它提供了非常簡潔明了的路勁選擇表達式,還提供了超過100個內
建函數(shù),幾乎所有定位都可以用Xpath來選擇。
Csv:csv屬于python內置模塊之一,它可以在python中讀取csv格式的
文件,也可以將數(shù)據(jù)存儲為csv可是文件。Csv文件是常見的數(shù)據(jù)存儲的文件格
式。
NumPy庫:具有矢量算術能力和復雜的廣播能力,可以進行部分科學計算。
而且它還擁有對高維數(shù)組的處理能力。比python標準款操作性更高。
pandas:基于MumPy的庫,專門解決數(shù)據(jù)分析任務,它不僅加入了大量的
庫和一些標準模型,還提供了高效操作大型數(shù)據(jù)所需的工具。
pycharts:繪圖庫,可繪制柱狀圖、條形圖、餅圖、箱型圖等可視圖。
Bar、Pie、:生成柱狀圖、餅圖。
pylab:它能設置畫圖讓文字顯示中文。
2需求分析
2.1可行性需求分析
1、技術可行性
面向對像的語言中python相對其他計算機編程語言通俗易懂些,本次項目
用python編寫程序來獲取數(shù)據(jù),以及數(shù)據(jù)的清洗預處理和可視化。對網(wǎng)頁進行
數(shù)據(jù)獲取需要事先設置反爬,以防ip封禁。網(wǎng)頁為靜態(tài)網(wǎng)頁,因此不需要像動
態(tài)網(wǎng)頁那么復雜,通過向瀏覽器控制臺發(fā)生請求和獲取參數(shù),得到房天下杭州
3
湖南商務職業(yè)技術學院畢業(yè)設計
新房網(wǎng)頁的數(shù)據(jù)返回值。再通過xpath路徑獲取所需的新房數(shù)據(jù),通過去空格、
保留所需字符等操作,將爬取出的數(shù)據(jù)存以csv格式文件,后續(xù)再進行數(shù)據(jù)預
處理清洗和可視化分析數(shù)據(jù)。
以上為本次項目的技術可行性,我將在接下來的工作中將以上步驟實現(xiàn)到
位,確保數(shù)據(jù)的準確性、有序性和安全性。
2、項目可行性
教育、住房、醫(yī)療一直是人民所關注的、關心的,也是我們國家發(fā)展的必要
領域。安小家成大家,生活中方方面面都涉及到住房,教育、醫(yī)療都離不開住
房。而我國人民一直都高度關注住房問題,尤其近幾年售房數(shù)有所下降。
此次項目收集群眾看房頻率較高的一家售房網(wǎng)站房天下網(wǎng)站,沿海城市杭
州的新房數(shù)據(jù)。我們將從目前正在銷售的新房和未來進入銷售行列的新房的數(shù)
量、價格、分布區(qū)域進行深度分析,得到有用的信息,然后可視化得到更為直
觀的信息結論。
2.2采集目標功能分析
此次項目的數(shù)據(jù)來源房天下網(wǎng)網(wǎng)站,通過用python爬取其網(wǎng)站下杭州城市
新房的數(shù)據(jù)信息。經過數(shù)據(jù)清洗后留下了926條數(shù)據(jù),獲取的數(shù)據(jù)盡可能的檢
查數(shù)據(jù)的準確性,確保爬取的數(shù)據(jù)準確、一一對應且的確為杭州新房的新房各
類數(shù)據(jù)的信息。
獲取房天下杭州新房的房產信息,確定我爬取的房產數(shù)據(jù)為樓盤名稱、戶
型、面積、價格、房屋類型、區(qū)域、地址、銷售狀態(tài),在對爬取后的原信息進
行處理后,對其進行多方面的分析。例如正處于在售和待售的新房數(shù)量,在售
及待售平均單價為多少,這樣可以看出該城市新房的平均單價處于哪個范圍,
購房者是否支撐得起購房所需的金額,查看每平米單價價格前二十的樓盤名稱,
以及它們多分布在城市的區(qū)域位置。可看出未來房產發(fā)展方向及城市規(guī)劃,助
于人們未來居住區(qū)域的規(guī)劃。
2.3關鍵技術分析
2.3.1網(wǎng)絡爬蟲技術
如今網(wǎng)上的東西繁多,在瀏覽自己喜歡或需要的網(wǎng)頁時,難免遇到要緩存
到本地的數(shù)據(jù),數(shù)量小還可以手動自己去下載保存,但遇到龐大的數(shù)據(jù)是,手
動保存費事費力,好幾個G甚至T的單位的數(shù)據(jù)若要進行手動幾乎難以實現(xiàn),
4
湖南商務職業(yè)技術學院畢業(yè)設計
這時候爬蟲就體現(xiàn)了它的重要性,使用爬蟲自動獲取數(shù)據(jù)可比手動快,準確性
也高,哪怕發(fā)生錯誤,也可重新爬取,省時又省力。
網(wǎng)絡爬蟲素有網(wǎng)絡蜘蛛和網(wǎng)絡機器人之稱,是一個可實現(xiàn)自動化下載網(wǎng)頁
的計算機程序或者自動化腳本。只需編寫出正確的代碼,網(wǎng)絡蜘蛛就會如同一
只蜘蛛一樣在互聯(lián)網(wǎng)上爬行,去瀏覽那龐大的互聯(lián)網(wǎng),并且將網(wǎng)頁中的數(shù)據(jù)進
行精準、準確的采集。如今的網(wǎng)絡爬蟲大致分為四種:通用網(wǎng)絡爬蟲、聚焦網(wǎng)
絡爬蟲、增量式網(wǎng)絡爬蟲、深層網(wǎng)絡爬蟲,其分類是按照系統(tǒng)的結構和運作原
理劃分。
談起網(wǎng)絡爬蟲大多數(shù)人第一反應是——黑客,但普通的網(wǎng)絡爬蟲不能與黑
客混為一談。黑客是屬于違法行為,那些黑客們違法獲取個人信息或者某些組
織的重要信息售賣進行營利。若要將大數(shù)據(jù)比作女友,那么普通的網(wǎng)絡爬蟲便
是通過正規(guī)追求方式并獲得首肯的男友,而黑客就是違法犯罪的掠奪,二者有
著本質上的區(qū)別。當然在進行爬蟲是還要設置反爬或者設置睡眠緩沖時間,否
則以極高的頻率去重復訪問瀏覽器,會造成壓力,還會倍客戶端認為是惡意攻
擊行為,導致服務器自動關機或者ip封禁。
網(wǎng)絡爬蟲在不同的場景會發(fā)揮其不同的作用,例如大學生放假前的搶票、
追星人給喜愛的明星投票、購物促銷時的限時搶購、名額有限的報名等等。同
樣也有壞的影響,歌手演唱會惡意大量搶購然后高價售出的黃牛行為、持續(xù)不
斷地信息騷擾?;ヂ?lián)網(wǎng)有利有弊,爬蟲也是如此的,因此我們技術人員要知法、
守法,不要作出違法行為,哪怕技術高超,有著超越絕大多數(shù)人的能力,也要
控制自己,不要踏入罪惡的深淵。
有爬蟲就有反爬蟲,一家公司設計網(wǎng)頁時肯定想到過他人會爬取網(wǎng)頁,那
么就會設制防守機制,反爬就是繞過防守機制獲取自己所需商務數(shù)據(jù)。反爬策
略有多種,發(fā)送模擬User-Agent、調整訪問頻率、通過驗證碼校驗、應對網(wǎng)站
結構變化、通過賬號權限限制、通過代理IP規(guī)避等。這些反爬技術雖說會極大
寫工作量,但為了更好的獲取數(shù)據(jù),這些也在所難免。對于部分小網(wǎng)站,設置
一個簡單的反爬獲取數(shù)據(jù),既不會造成太大的成本也會使我們操作簡單些。
2.3.2文件存取技術
Python內置csv模塊如圖2-1顯示:
5
湖南商務職業(yè)技術學院畢業(yè)設計
圖2-1python內置csv模塊及添加表頭
圖2-2python內為csv文件
存儲數(shù)據(jù)內容
2.3.3可視化技術
將爬取后的數(shù)據(jù)進行預處理后,我們仍然不能直接得到我們需要的分析結
果,因此我們?yōu)榱烁又庇^的得出結論,將數(shù)據(jù)可視化就能實現(xiàn)一目了然的分
析結論。
可視化就是將數(shù)據(jù)整理繪制出各類圖形,其主要數(shù)據(jù)都直接的顯示在圖中,
而一副圖可得出的信息不僅僅只有顯示出來的那些,一些隱含的數(shù)據(jù)也會在可
視圖中展露身影。
哪怕在我們預處理后的數(shù)據(jù)有序,但數(shù)據(jù)集龐大,幾百上千條的數(shù)據(jù)還是
各數(shù)據(jù)都在一起,若要盯著一條數(shù)值去看上上百條,也是繁冗枯燥的,何況要
分析得出結論,幾乎無法實現(xiàn)。為此,我們導入之后要利用到的第三方庫,將
數(shù)據(jù)提取出關鍵的數(shù)字、字符,然后根據(jù)提取出的數(shù)字、字符進行統(tǒng)計、排序,
然后思考選擇怎樣的幾何圖形才能更好的、直觀的表達我們所需要的信息,接
著編譯、繪制圖形。
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量已經擴大了50倍,如今哪怕單一數(shù)據(jù)集的規(guī)模
都達到了幾十TB到數(shù)PB不等,何況數(shù)據(jù)有復雜類型繁多,可視化技術也必須
隨之進步。這么多年來,可視化技術也發(fā)展成了三類:科學可視化、信息可視
化、可視化分析。本項目用到的是信息可視化,專門對非結構、非幾何的數(shù)據(jù)
對象進行處理,減少由于數(shù)據(jù)復雜而混淆視覺的信息的干擾。
我們這次也僅是將數(shù)據(jù)簡單的用可視化技術來實現(xiàn)數(shù)據(jù)可視化,用到的是
python的第三方庫pyecharts庫來進行可視化分析,pyecharts內有許多的庫,
除了本次使用到的餅圖、條形圖,還有柱狀圖、折線圖、箱型圖等,這寫都可
以快捷的將數(shù)據(jù)展示出來,它的圖形呈現(xiàn)的數(shù)據(jù)結果一目了然,分析然后得出
6
湖南商務職業(yè)技術學院畢業(yè)設計
結論。
3數(shù)據(jù)采集
3.1采集頁面分析
我們首先利用谷歌瀏覽器搜索房天下網(wǎng)站網(wǎng)頁,接著找到杭州的新房頁面
觀察圖3-1,其URL為:/house/s/。
圖3-1數(shù)據(jù)網(wǎng)址頁面
找到并點擊頁面下方的分頁鍵,網(wǎng)頁更新后觀察URL,發(fā)現(xiàn)URL有所變化,觀
察圖3-2,頁面URL變?yōu)椋?house/s/b92/。
7
湖南商務職業(yè)技術學院畢業(yè)設計
圖3-2第二頁的網(wǎng)址頁面
因此我們從分頁行列點擊上頁回到第一頁,發(fā)現(xiàn)URL只有最后一個數(shù)字的
變化,如圖3-3。
圖3-3第一頁網(wǎng)址頁面
右擊彈出窗口點擊檢查跳出開發(fā)者工具,刷新頁面,如圖3-4。
8
湖南商務職業(yè)技術學院畢業(yè)設計
圖3-4開發(fā)者工具
因此我們進行爬蟲爬取網(wǎng)址根據(jù)換頁后的網(wǎng)址進行編寫。
3.2字段分析
前往網(wǎng)頁頁面在選項欄中選擇網(wǎng)頁,將欄目定位在新房信息處,刷新后再
開發(fā)者工具界面的上方選項欄中選擇Preview鍵,找到新房信息起始處,如圖
3-5,可以發(fā)現(xiàn)我們所要的房產數(shù)據(jù)信息網(wǎng)站是get響應網(wǎng)站,這使我們接下來
的爬取數(shù)據(jù)提供了很大的方便,因此我們可以根據(jù)此特點,利用Requests中的
get請求來獲取網(wǎng)頁響應,再一一利用xpath爬取所需數(shù)據(jù)。
9
湖南商務職業(yè)技術學院畢業(yè)設計
圖3-5分析數(shù)據(jù)類型頁面
將樓盤名稱、戶型、面積、價格、房屋類型、區(qū)域、地址、銷售狀態(tài)的數(shù)
據(jù)爬取,整理后將所有數(shù)據(jù)按照順序寫進csv格式的文件中,保證每條數(shù)據(jù)都
是準確對應的。
圖3-6房屋字段內容
3.3編程實現(xiàn)
導入所需要使用的庫
圖3-6導入所需要使用的庫頁面
設置請求頭,利用模擬User-Agent來通過瀏覽器的檢驗。
圖3-7請求頭內容頁面
代碼實現(xiàn)如下:
importcsv
fromlxmlimportetree
importurllib3
10
湖南商務職業(yè)技術學院畢業(yè)設計
importre
url='/house/s/b9{}/'
headers={'user-agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36
(KHTML,likeGecko)Chrome/Safari/537.36',
'cookie':"global_cookie=486nggyqlvkzehh1jmvkryzuk1tlee1au8i;engine_source_coo
kie=baidu;sf_source=baidu;__utma=147393320.1008477909.1676971114.16
76975563.1677054963.4;__utmc=147393320;__utmz=147393320.16770549
63.4.2.utmcsr=baidu|utmccn=(organic)|utmcmd=organic;__utmt_t0=1;__utmt
_t1=1;__utmt_t2=1;city=hz;csrfToken=dNkmJQKuYiS7ybIEHQ60Zo0E;
g_sourcepage=xf_lp^lb_pc';__utmt_t3=1;__utmt_t4=1;unique_cookie=U_ygp
fb7hzks3lc7lu8o1gydp2o11leff81d4*4;__utmb=147393367705496
3",
'referer':'/'}
##為csv文件添加表頭
header=('樓盤名稱','戶型','面積','價格','房屋類型','區(qū)域','地址','銷售狀態(tài)')
withopen('房天下.csv',mode='a',encoding='utf-8_sig',newline='')asf:
csv_writer=csv.writer(f)
csv_writer.writerow(header)
foriinrange(1,48):
url1=url.format(i)
http=urllib3.PoolManager()
res=http.request('GET',url1,headers=headers)
#print(res.status)
html=etree.HTML(res.data,parser=etree.HTMLParser(encoding='utf-8'))
a=html.xpath('//*[@class="nl_conclearfix"]/ul/li')
#print(a)
forjina:
##樓盤名稱
house_name=j.xpath('normalize-space(.//*[@class="nlcd_name"]/a/text())')
#print(house_name)
##房子戶型
h_type=j.xpath('.//*[@class="house_typeclearfix"]/a/text()')
house_type='-'.join(h_type)
#print(huxing)
##房子面積
h_area=j.xpath('.//*[@class="house_typeclearfix"]/text()')
h_area2=[x.strip()forxinh_areaifx.strip()!='\t']
11
湖南商務職業(yè)技術學院畢業(yè)設計
ar=re.search('[\d~平米]+',str(h_area2))
ifar==None:
house_area='None'
else:
house_area=ar.group()
#print(house_area)
##房子價格
h_price=j.xpath('.//*[@class="nhouse_price"]/*/text()')
house_price='|'.join(h_price)
#print(house_price)
##房源
fy=j.xpath('.//*[@class="fangyuan"]/a/text()')
fangyuan='/'.join(fy)
#print(fangyuan)
##房子區(qū)域和地址
ar=j.xpath('normalize-space(.//*[@class="address"]/a/@title)')
ar2=re.sub('[a-zA-Z]','',str(ar))
h_address=str(ar2).strip('[]')
##區(qū)域
house_district=h_address[:2]
##地址
house_address=h_address[2:]
#print(house_address)
#print(house_district)
##銷售狀態(tài)
house_sale=j.xpath('normalize-space(.//*[@class="fangyuan"]/span/text())')
#print(house_sale)
#print(house_name,house_type,house_area,house_price,
#fangyuan,house_district,house_address,house_sale)
#withopen('房天下.csv',mode='a',encoding='utf-8_sig',newline='')asf:
#csv_writer=csv.writer(f)
#csv_writer.writerow([house_name,house_type,house_area,house_price,
#fangyuan,house_district,house_address,house_sale])
12
湖南商務職業(yè)技術學院畢業(yè)設計
4數(shù)據(jù)清洗與處理
得到了大量的數(shù)據(jù)后,則需要對數(shù)據(jù)進行相關的處理,檢查獲取的數(shù)據(jù)是
否錯誤、以及是否有空值,行數(shù)據(jù)是否對應。只有數(shù)據(jù)準確無誤,才能正確的
分析數(shù)據(jù),得出有用的結果。然后,將數(shù)據(jù)按要求整理,是它們有序性、清晰
性,這樣在后續(xù)的可視化中更方便的進行可視化,也使對數(shù)據(jù)進行調用開發(fā)的
人員同樣方便快捷、清晰易懂。
在此次項目中,我們要把數(shù)據(jù)和原網(wǎng)址的數(shù)進行比對,查看數(shù)值是否錯誤、
是否存在空缺、數(shù)據(jù)錯亂。并在對它們進行其對應的修正措施,然后再根據(jù)我
們需要的分析目的進行處理。
4.1數(shù)據(jù)清洗
圖4-1數(shù)據(jù)清洗準備頁面
經過數(shù)據(jù)比對和檢查后,發(fā)現(xiàn)數(shù)據(jù)沒有發(fā)生缺失,錯位以及空值,那么我們
接下來將有效的數(shù)據(jù)保留,將不要的數(shù)據(jù)去掉,以防發(fā)生數(shù)據(jù)的冗余,以及后
續(xù)分析過程的失誤。保留好整理后的數(shù)據(jù),重新存為列表,留以后續(xù)的統(tǒng)計分
析、可視化處理。
13
湖南商務職業(yè)技術學院畢業(yè)設計
圖4-2數(shù)據(jù)清洗完成界面
4.2數(shù)據(jù)儲存
數(shù)據(jù)儲存方法有很多種類,例如我們常見txt儲存,也就是記事本格式儲存,
當然還有替他格式的存儲方法,例如數(shù)據(jù)庫、excel、json等儲存方式,對于數(shù)
據(jù)較多的儲存,數(shù)據(jù)庫雖然為一個不錯的選擇,但容易出現(xiàn)錯誤,以及容易發(fā)
生數(shù)據(jù)庫密碼忘記的記憶錯誤。因此此次采取的事通過python進行數(shù)據(jù)爬取后,
直接在python內進行csv存儲,添加每列數(shù)據(jù)的表頭,一遍csv表中的數(shù)據(jù)明
了。本次使用到的項目是csv。
如圖4-3所示:
圖4-3數(shù)據(jù)存儲為csv儲存頁面
14
湖南商務職業(yè)技術學院畢業(yè)設計
圖4-4數(shù)據(jù)存儲csv頁面
5數(shù)據(jù)統(tǒng)計與分析
5.1數(shù)據(jù)準備
導入相關的要使用的庫,讀取csv文件,讀取前十條數(shù)據(jù),如圖5-1、5-2。
圖5-1數(shù)據(jù)準備頁面
15
湖南商務職業(yè)技術學院畢業(yè)設計
圖5-2數(shù)據(jù)加載頁面
5.2數(shù)據(jù)展示
5.2.1根據(jù)樓盤銷售狀態(tài)的數(shù)量進行統(tǒng)計
圖5-3數(shù)據(jù)展示頁面
將在表格中價格待定的樓盤刪去,匯總成一個新的表格,將表格的銷售狀
態(tài)的字段數(shù)據(jù)進行匯總和處理然后將其統(tǒng)計出現(xiàn)的頻率,最后生成特定序列,通
16
湖南商務職業(yè)技術學院畢業(yè)設計
過特定序列里面的數(shù)據(jù)參照頻率繪制出銷售狀態(tài)的數(shù)量圖。根據(jù)圖發(fā)現(xiàn),杭州
的新房待售的數(shù)量比在售的多,在后續(xù)的樓盤進一步開放售賣中,這些待售的
樓盤將是個房產行業(yè)的主要宣傳對象。
由于近年來可供房地產建新房的土地逐年下降,因此對于房產行業(yè)來說,
現(xiàn)有的待售的房產是保障未來繼續(xù)發(fā)展的保障,在得到新的可用于建房的土地
前,要計劃好手中的待售樓盤開放頻率。而對于購房者來說,待售樓盤也是考
慮范圍內的,在人群居多的地方,各類生活服務也會緊隨而至,區(qū)域的經濟便
會隨人數(shù)增多發(fā)展。
5.2.2依據(jù)各銷售狀態(tài)的均價進行統(tǒng)計
圖5-4數(shù)據(jù)展示頁面
由圖5-4可以看出,待售的每平米的平均單價比在售的每平米平均單價高,
在待售房比在售房多出91的數(shù)量上,在售的均價比待售的少了3500元左右。
由此可見,在售房雖然數(shù)量少,但價格普遍高,導致在低了近100的數(shù)量上只
低了4000不到。
在售的每平米的單價平均為27000元,但我國7億多勞動人口,月薪資達
到5000元的人數(shù)占比不到10%,每月的工資除去生活花費后,所能存下的數(shù)額
非常少,這讓現(xiàn)在的人們買方更加困難,哪怕有著房貸的存在,背負房貸的時
長長達數(shù)十年,這更加讓月薪不多的人們生活更加困難。同時由于可供建房的
土地減少,房產商們或許會因為土地減少而增加每平米單價。商家增加房子價
格,買家因高額的房價放棄買方,這會使購房率持續(xù)下降,形成惡性循環(huán)。
17
湖南商務職業(yè)技術學院畢業(yè)設計
5.2.3據(jù)新房價格分布進行統(tǒng)計和分析
圖5-5數(shù)據(jù)展示頁面
圖5-5可以看出,新房的單價價格分布在20000~40000元區(qū)間,40000元以
上的房價較少,10000元至20000元的樓盤相對于40000元以上的多,而有的房
價甚至達到了12萬元每平米。
如上述所說,我國有90%的人每月薪資不足5000元,但新房市場上的房子
普遍在20000元每平米到40000元每平米,而對于這部分人來說,一年除去花
銷所攢下的金額不足5萬元,而一間房通常幾十平米,一年攢下的金額無法滿
足一個人的購房需求。近年來,購房率下降,房產行業(yè)面臨無人購房的處境,
與高房價、低薪資離不開關系,有人調查過,相對于8、90年代,房子的價格
上漲了將近500倍,而薪資卻漲了3倍,薪資漲幅于房價漲幅相差極大,導致
人們買方難。同時,因為生活物價上漲,年經人生活普遍壓力大,導致結婚率
下降,買方的主力軍——婚姻下降,本來的因婚姻買方的占比下降,更是導致
購房率下降。
18
湖南商務職業(yè)技術學院畢業(yè)設計
5.2.4依據(jù)單價價格前20樓盤位置進行統(tǒng)計
圖5-6數(shù)據(jù)展示頁面
我們將前20的樓盤的區(qū)域位置進行統(tǒng)計,發(fā)現(xiàn)有一半的樓盤建在上城區(qū),
西湖的有四個,其次就是拱墅的三個。由此可知,大多地產開發(fā)商都趨向于在
上城修建新房。
辦公區(qū)、學校、醫(yī)院周邊通常會成為房產商建設新房的目標,因為人們住
房都會選擇離工作近、交通方便的地方,有孩子的家庭則更多選擇學校附近,
而單價前20的樓盤有一半在上城,經濟越是發(fā)達的區(qū)域,房價也是更高,由此
可看出,上城的經濟發(fā)展高于其他地區(qū),周邊的衛(wèi)生條件、社區(qū)服務也是相對
會高于其他地區(qū)。西湖、拱墅數(shù)量相差一,其經濟狀況或許比不過上城,但也
有較高水平,何況杭州作為沿海省份城市,城市經濟相對較高。但由于高薪資
人群少,所以,哪怕上城有多處新房銷售,不同人家也是望文卻步。
19
湖南商務職業(yè)技術學院畢業(yè)設計
5.2.5根據(jù)戶型數(shù)量進行統(tǒng)計
圖5-5數(shù)據(jù)展示頁面
根據(jù)圖5-5數(shù)據(jù)可知,在這些樓盤總,絕大多數(shù)支持三居或四居的房屋室
內戶型,而又100多個樓盤只支持三居室、四居室戶型,而排在前四的都是都
是支持多居室的戶型,而支持多類戶型的樓盤只有一兩個。
如今購房的目的多為婚姻家庭,購房者的家庭多為夫妻式家庭組合,因此
三居、四居的購房者居多,且人們普遍認為,婚姻要有新房才能有未來,房產
商們也正是抓住這點,建設的房屋多為家庭設戶型。但由于今年來結婚率下降,
青年人普遍單身,購房便不是必要選擇。再者,近年來女性購方率升高,女性
購方普遍為個人居住,因此,一居室、兩居室的戶型房將會受到大量青年人歡
迎。但不排除合租式居住,購房者將新房買下,將其出租給他人,合租人太多
易發(fā)生矛盾,因此三居、四居為主要選擇,所以三、四居式房屋仍不會無人訪
問。
五居房多為三代式家庭居住,但愿意與長輩居住一起的人甚少,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)勞務輸出承包協(xié)議范本版B版
- 2024水塔拆除及拆除現(xiàn)場消防安全隱患排查合同3篇
- 2024幼兒園保育員幼兒早期教育與家庭教育合作合同3篇
- 專項粉刷施工合作合同2024版版B版
- 2023-2024學年滬科版(2019)高中信息技術必修二第二單元項目四《探索電子點餐信息系統(tǒng)軟件-了解軟件的功能和開發(fā)》說課稿
- 2024年碎石資源開采與購銷合同協(xié)議書3篇
- 2025彩鋼板復合材料研發(fā)與應用合作協(xié)議3篇
- 11別傷著自己(說課稿)-部編版道德與法治一年級上冊
- 中醫(yī)跟師心得(四氣調神)
- 市第五醫(yī)院醫(yī)學倫理標準操作規(guī)程和審查指南
- 2024-2025學年高一上學期期末數(shù)學試卷(基礎篇)(含答案)
- 《工程勘察設計收費標準》(2002年修訂本)-工程設計收費標準2002修訂版
- YY/T 1409-2016等離子手術設備
- 電梯安全防護知識培訓PPT課件:正確使用電梯
- 設計風速、覆冰的基準和應用
- 水果深加工項目商業(yè)計劃書范文參考
- 基于單片機的室內環(huán)境檢測系統(tǒng)設計開題報告
- 愛麗絲夢游仙境話劇中英文劇本
- 優(yōu)秀團隊評分標準
- 中英文驗貨報告模板
- 五年級上冊人教版數(shù)學脫式計算題五年級上冊脫式計算,解方程,應用題
評論
0/150
提交評論