版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
成果形式:實踐報告成果名稱:對北京朝陽區(qū)出租房房價的分析大數(shù)據(jù)分析項目實踐對北京朝陽區(qū)出租房房價的分析一、實踐目的1.素養(yǎng)提升(1)知識的運用本次大數(shù)據(jù)分析項目的實踐,不僅是對大二學習的數(shù)據(jù)庫的一次復習,也是對我們自身使用統(tǒng)計學相關(guān)知識的考驗。通過這次實踐,我們能更加熟練地掌握數(shù)據(jù)庫相關(guān)知識,并且對統(tǒng)計學也能有更加深入的了解和體悟。(2)相關(guān)軟件的學習本次實踐的目的是讓我們體驗并學會數(shù)據(jù)分析方面的小項目的實施。以此為目標,我們主要學習了三個軟件Mysql、FineReport和Python,并附帶學習了Mysql的可視化工具Navicat,Python的編輯軟件Pycharm以及簡易數(shù)據(jù)爬取工具八爪魚采集器。(3)增強自身對社會的認識對于大部分學生,本次實踐的實習單位,光環(huán)北京光環(huán)致成國際管理咨詢有限公司,是學生第一次接觸的正式崗位。負責教學我們的老師也是企業(yè)的正式員工,根據(jù)員工的精神面貌和行為特點可以讓我們對社會有一個更加直接和清醒的認識。2.提供資本(1)面試資本通過本次實踐,我們學習了數(shù)據(jù)分析方向小項目的實施方式以及相關(guān)軟件在數(shù)據(jù)分析方面的應用,這個項目也確實是初級數(shù)據(jù)分析,此次的經(jīng)歷可以作為實習經(jīng)歷填入簡歷中以豐富自己的面試資本,并由此提高自己的社會競爭力。(2)調(diào)整自身在經(jīng)過本次實踐,對社會和職場有了模糊的印象后,可以對自己的生活方式做一個批判和改進,自己現(xiàn)在的生活方式是否正確以及是否做好了進入社會的準備。通過調(diào)整來使自己更加適應社會。3.自我認識增強(1)確定就業(yè)方向本次實踐提供的是數(shù)據(jù)分析方向的實習,從這次實習我們可以大致聯(lián)想出從事數(shù)據(jù)分析行業(yè)的工作方式和生活方式,這有利于我們排除不適合我們的就業(yè)方向,盡量在就業(yè)前選出我們適合并且舒適的職業(yè)。(2)調(diào)整未來規(guī)劃通過本次實踐,我們對數(shù)據(jù)分析領域的工作有了更加具體的認識,同時我們也認識到工作本身也伴隨著工具的使用,因此在未來規(guī)劃中加入對應工具的學習將會大大提升我們的社會競爭力,去爭取更好的崗位。二、實踐內(nèi)容1.Mysql的學習以及應用首先,我們學習了Mysql軟件的安裝以及跳過Mysql驗證的代碼編寫;因為Mysql直接運行很麻煩,于是我們繼續(xù)安裝了Mysql的可視化軟件NavicatPremium,并且后續(xù)操作都會在該軟件中進行;接下來我們開始學習各項數(shù)據(jù)庫相關(guān)的代碼如查看、創(chuàng)建、刪除數(shù)據(jù)庫等,并簡單復習了數(shù)據(jù)庫的相關(guān)知識;再之后我們學習了Navicat這一可視化工具在非編程時如何使用以及數(shù)據(jù)如何導入;最后我們學習了查詢相關(guān)語句,該語句會在下一個學習的軟件FineReport當中用到。2.FineReport的學習以及應用我們先學習了FineReport的安裝,安裝并不復雜;接下來我們學習了如何將FineReport與Mysql數(shù)據(jù)庫相連接并且學習了簡單的操作界面的使用;之后我們正式開始學習報表,首先是行式報表,過程很簡單,是基礎報表;然后我們進階學習了交叉報表并了解了父子格和拓展方向的概念;最后我們學習了決策報表,通過決策報表我們可以制作包括折線圖、和流向地圖等一系列圖表,同時我們也可以通過制作混合型決策報表把上述圖形匯合在一個報表內(nèi)。3.Python的學習以及應用我們首先學習了Python的安裝,Python本身是一門編程的語言,因此我們又安裝了JetBrainsPyCharm來對Python進行編輯操作。對于Python的學習其實就是對一串從網(wǎng)頁爬取數(shù)據(jù)的代碼的學習,在為期四天的Python學習中,這串代碼被分到三天的課程中。在這之后,老師帶我們從網(wǎng)頁源代碼中提取需要信息并設置Python的偽裝。最后,以電影網(wǎng)站為例,我們學習了如何從網(wǎng)上爬取相應的字段信息。4.數(shù)據(jù)分析小項目的實踐在完成數(shù)據(jù)爬取、數(shù)據(jù)收集和數(shù)據(jù)處理的課程后,下一步要做的是具體項目的實踐,按照要求,我們需要使用上述三種軟件或者給出的數(shù)據(jù)去完成一份最終報表。三、實踐過程1.Mysql(1)安裝我們通過老師下發(fā)的文件獲得安裝包,安裝時語言選擇utf8。在安裝過程中我們要設置密碼,但由于部分同學的電腦由于版本問題導致密碼無法編輯,于是我們學習了如何通過修改Mysql的配置文件my.ini來實現(xiàn)跳過密碼驗證的功能。(2)數(shù)據(jù)庫命令語句在安裝完成后,我們就開始了對Mysql的數(shù)據(jù)庫的命令語句的學習。數(shù)據(jù)庫的命令語句主要包括對數(shù)據(jù)庫、表和數(shù)據(jù)的直接處理三類。對數(shù)據(jù)庫的處理有查看數(shù)據(jù)庫、切換數(shù)據(jù)庫創(chuàng)建和刪除數(shù)據(jù)庫,主要用到了show,use,create,drop。對表的處理有查看表、查看表結(jié)構(gòu)、創(chuàng)建數(shù)據(jù)表、刪除表內(nèi)數(shù)據(jù)、刪除全部數(shù)據(jù)保留表等,比如查看表結(jié)構(gòu)使用的查詢是:showtables;。最后是對數(shù)據(jù)的處理,有插入數(shù)據(jù)、查看數(shù)據(jù)、修改數(shù)據(jù)(有/無關(guān)聯(lián)條件)、查詢所有數(shù)據(jù),比如查詢所有數(shù)據(jù):select*from表名;。(3)Navicat非編程語句的使用Navicat非編程語言除了可以實現(xiàn)簡單的表的創(chuàng)建與刪除之類的操作,最重要的就是與Mysql建立連接,使得可以對Mysql中的數(shù)據(jù)庫進行可視化操作。如果無法建立連接,一般是用戶名和密碼的問題,可以通過修改配置文件來跳過驗證。(4)Navicat內(nèi)編程語句的使用Navicat非編程語句可以更加快捷地實現(xiàn)簡單的Mysql語句,比如表格數(shù)據(jù)庫的建立刪除等,但更加復雜的數(shù)據(jù)處理則必須用編程來實現(xiàn)。比如,插入數(shù)據(jù):insertinto表名(字段1,字段2,字段3)value(1,2,3);修改數(shù)據(jù)(關(guān)聯(lián)條件):updateempsetempnc=123whereempnc=1;單行數(shù)據(jù)查詢:select*fromempwheresal=5000;運算符查詢:select*fromempwheresal>5000;別名的使用:selectempnoas編號,enameas姓名fromemp;and關(guān)鍵字的使用:select*fromempwheresal=5000andsal=3000。(5)函數(shù)的學習在Mysql的學習時間中,最后學習的是函數(shù)。一共介紹了五種函數(shù),分別是count函數(shù)、max函數(shù)、min函數(shù)、avg函數(shù)和加密函數(shù)。前四種函數(shù)很簡單,分別是用來計數(shù)、求最大、求最小、求平均的。值得一提的是加密函數(shù),老師一共介紹了兩種加密方式:selectpassword(‘root’);輸出后會得到一個32位的字符串,另一種也就是換了個算法:selectMD5(‘root’);。2.FineReport(1)安裝FineReport的安裝包較Mysql的要大,因此不使用網(wǎng)上下載的形式,安裝包通過U盤拷貝的方式在學生中傳遞。(2)與數(shù)據(jù)庫的連接在服務器選項中選擇定義數(shù)據(jù)庫連接,選擇JDBC模式,然后在數(shù)據(jù)庫類型中選擇Mysql的數(shù)據(jù)庫類型。之后要對URL進行修改,在localhost后要加上”:3306”并在最后加上要連接的數(shù)據(jù)庫名字。(3)行式報表的學習行式報表在報表制作中是非常簡單的基礎報表。在新建報表后,導入數(shù)據(jù)庫,將選中的變量拖拽至同一行就完成了行式報表的制作,為了美觀可以繼續(xù)編輯行標題以及自定義邊框。在教學中還有分界線的概念,文本中的數(shù)據(jù)長度超過分界線的部分會被強制分頁。分界線無法通過直接拖拽來進行操作,必須選定模板中的頁面設置,通過自定義紙張大小類型來改變。(4)交叉報表的學習交叉報表比起行式報表多出了列變量。在制作交叉報表前,我們先學習了單元格拓展方向和父子格這兩個概念。單元格拓展方向是指變量所附帶的數(shù)據(jù)排列方向,有橫向和縱向兩種,根據(jù)交叉表的最終表現(xiàn)要求的不同會需要使用不同的拓展方向。父子格是指兩個單元格的從屬關(guān)系,子格根據(jù)父格來進行數(shù)據(jù)排列,但父格不受子格的影響。父子格也分為左父格和上父格,分別是對應父格相對于子格的位置。(5)決策報表決策報表主要是把數(shù)據(jù)制作成各種圖表,比如餅圖、地圖、雷達圖和詞云等。在課時中,我們主要學習了地圖(新特性)、點地圖、柱狀圖、餅圖和混合型報表,我主要介紹混合型報表?;旌闲蛨蟊肀旧硎且粋€空模板,需要你將你想要制作的圖形拖入相應位置中。在制作混合型報表時,常常會遇到數(shù)據(jù)無法直接使用的情況,這時就需要在左下角的數(shù)據(jù)庫查詢中手動輸入代碼來對數(shù)據(jù)做一些處理。在這一過程中,我們新學到了oederby語句、desclimit以及unionall語句。3.Python(1)安裝Python的安裝相對簡單,要注意的只有如果曾經(jīng)安裝過舊版本,那在安裝新版本前必須清除注冊表。(2)數(shù)據(jù)類型的介紹對于我們將要實現(xiàn)的項目,我們只用接觸到Python中相對簡單的數(shù)據(jù)類型,即int整數(shù)、float小數(shù)類型、str字符串類型、字典類型,相應也有語句,如b=int(a),意思是把字符串b轉(zhuǎn)化為int類型并賦值給a。字典類型是一個字段a={””,””}。(3)在網(wǎng)頁獲取數(shù)據(jù)的方式在網(wǎng)頁中獲取數(shù)據(jù)需要用到網(wǎng)頁的代碼,我們直接看到的數(shù)據(jù)圖片都會在代碼中顯示,而如何在復雜的代碼中把需要的數(shù)據(jù)爬取出來就是我們學習Python的原因。一般除了IE瀏覽器,普通瀏覽器都會有審查元素的功能,如果沒有找到也可以通過按F12喚出。在網(wǎng)頁中我們進行的操作不多,主要把用戶名和相應的代碼復制了,剩下的大部分還是在Pycharm中通過編程進行。(4)爬取數(shù)據(jù)的數(shù)據(jù)代碼#發(fā)送請求
#引入導入使用urllib的包
#request的模塊(request.py)
fromurllibimportrequest
frombs4importBeautifulSoup
foriinrange(10):
page=str(i*10)
url="/board/4?offset="+page
header={"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/49.0.2623.221Safari/537.36SE2.XMetaSr1.0"}
#在request模塊中,有個大寫的Request,可以封裝headers信息
r=request.Request(url,headers=header)
#request中的urlopen模塊,可以打開網(wǎng)頁
#把封裝好的信息放到urlopen中
#urlopen發(fā)送請求接受響應
response=request.urlopen(r)
#讀取響應信息
html=response.read().decode()
#print(html)
#解析響應解析源代碼
#創(chuàng)建soup對象參數(shù)1等待被解析的對象參數(shù)2解析器
soup=BeautifulSoup(html,"html.parser")#lxml
index=soup.select("i.board-index")
name=soup.select("a")
star=soup.select("p.star")
releasetime=soup.select("p.releasetime")
img=soup.select("img.board-img")
foriinrange(10):
print(index[i].text,name[i].text,star[i].text.strip(),releasetime[i].text,img[i].get("data-src"))四、實踐體會經(jīng)過十天的校內(nèi)短學期企業(yè)項目實習實踐,前三天通過對mysql的學習對數(shù)據(jù)庫做了初步的了解,了解了數(shù)據(jù)庫的重要性,以及數(shù)據(jù)庫在數(shù)據(jù)統(tǒng)計中所占的重要地位。對數(shù)據(jù)庫做了一定的了解之后的三天我們開始了帆軟的學習,F(xiàn)ineReport報表軟件是一款純Java編寫的、集數(shù)據(jù)展示(報表)和數(shù)據(jù)錄入(表單)功能于一身的企業(yè)級web報表工具,它“專業(yè)、簡捷、靈活”的特點和無碼理念,僅需簡單的拖拽操作便可以設計復雜的中國式報表,搭建數(shù)據(jù)決策分析系統(tǒng)。我們通過對帆軟的學習,知道了如何使我們的數(shù)據(jù)庫中的數(shù)據(jù)具體的表現(xiàn)出來,以及如何讓數(shù)據(jù)能過更好的表達于人。然后,只會數(shù)據(jù)的表達是遠遠不夠的,我們還需要收集數(shù)據(jù),學會更快的收集我們所需要的數(shù)據(jù)。所以最后四天,我們學習了使用python,學習如何使用python爬取數(shù)據(jù)。Python爬蟲即使用Python程序開發(fā)的網(wǎng)絡爬蟲(網(wǎng)頁蜘蛛,網(wǎng)絡機器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。其實通俗的講就是通過程序去獲取web頁面上自己想要的數(shù)據(jù),也就是自動抓取數(shù)據(jù)。通過對python的學習,我們能夠加快對數(shù)據(jù)的收集,以及對數(shù)據(jù)的處理,加強我們得統(tǒng)計數(shù)據(jù)的效率。Python就是對數(shù)據(jù)的爬取,可以讓我們直接在網(wǎng)頁上高效地獲取數(shù)據(jù),恭喜我終于獲得了除了統(tǒng)計年鑒之外的數(shù)據(jù)整理方式。主要是python能主動翻頁,這樣之前繁雜的數(shù)據(jù)也有了短暫收集完畢的可能。Mysql是一個數(shù)據(jù)庫,通過對它的學習,我多少回憶起了一些大二學習的數(shù)據(jù)庫的知識。Mysql和python一樣,主要靠的是編碼
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物業(yè)管理招標文件總匯
- 乘坐校車的學生保證
- 農(nóng)田建設監(jiān)理招標文件發(fā)布
- 無紡布采購意向書
- 工程按時完成保證協(xié)議
- 極致版安裝服務合同范本
- 招標文件辦公家具規(guī)格
- 股權(quán)質(zhì)押借款合同范本
- 借道施工協(xié)議
- 工程分包合同的勞務成本控制策略
- 團體輔導準備篇:結(jié)構(gòu)式團體練習及其應用
- 大華硬盤錄像機操作說明
- 結(jié)婚函調(diào)報告表(帶參考)
- 單位車輛領取免檢標志委托書范本
- 2023-2024學年江蘇省泰州市姜堰市數(shù)學六年級第一學期期末質(zhì)量檢測試題含答案
- 供銷社建設項目可行性研究報告
- 治安案件報案登記表(標準范本)
- 婦產(chǎn)科名詞解釋及簡答題
- 高級英語-張漢熙-第一冊-答案
- 河南省定點醫(yī)療機構(gòu)申請表
- 臨床工程技師在血液凈化中心的作用和職責
評論
0/150
提交評論