大眾使用爬蟲技術(shù)挖掘數(shù)據(jù)的情況調(diào)查_第1頁
大眾使用爬蟲技術(shù)挖掘數(shù)據(jù)的情況調(diào)查_第2頁
大眾使用爬蟲技術(shù)挖掘數(shù)據(jù)的情況調(diào)查_第3頁
大眾使用爬蟲技術(shù)挖掘數(shù)據(jù)的情況調(diào)查_第4頁
大眾使用爬蟲技術(shù)挖掘數(shù)據(jù)的情況調(diào)查_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

成果形式:實踐報告成果名稱:大眾使用爬蟲技術(shù)挖掘數(shù)據(jù)的情況調(diào)查目錄一、實踐目的 11.素養(yǎng)提升 12.能力提升 1二、實踐過程 1三、實踐內(nèi)容 11.調(diào)查時間 12.調(diào)查方式 13.調(diào)查對象 14.具體調(diào)查內(nèi)容 1四、實踐體會 10-1-實踐活動題目(大眾使用爬蟲技術(shù)挖掘數(shù)據(jù)的情況調(diào)查)一、實踐目的1.素養(yǎng)提升(1)心智訓練學習和了解python這門語言,有助于我們開闊思維,特別是對于我們理科生來說,開闊思維,動用想象力是非常重要的學習方法。而python剛好具有這方面的功能,如果我們可以通過學習python提升我們的動腦能力,這對我們今后對于各種知識的學習都有好處。(2)素質(zhì)訓練學習Python爬蟲的相關(guān)知識,可以提高我們在計算機方面的知識儲備,如果我們能夠?qū)⑦@些知識應用在我們平時的學習和工作中去,簡化日常生活中的那些機械化繁瑣的操作,將節(jié)約下來更多的時間去學習新的內(nèi)容。2.能力提升(1)能力訓練能利用簡單的Python編程語言實現(xiàn)網(wǎng)絡爬蟲,主要用于對網(wǎng)絡大數(shù)據(jù)的獲得和提取,可以爬取一些比較常見的網(wǎng)站上的信息,并對這些數(shù)據(jù)與信息進行簡單的篩選與分析,從中了解Python爬蟲對大數(shù)據(jù)的影響。(2)能力提升結(jié)合我們之前學習的計算機知識,理解Python的相關(guān)內(nèi)容,將更深層次的學習和理解Python這門語言,python的學習將會有效提升我們自主學習和動腦動手的能力,提高我們的編程語言能力和編程思維的能力,為將來更深層次的學習互聯(lián)網(wǎng)提供更好的發(fā)展。二、實踐過程1.確定調(diào)研目的、來源和限制因素2.確定數(shù)據(jù)收集方法:線上問卷調(diào)查3.確定問題回答形式:開放式問題4.確定問卷的流程和排序5.開展問卷調(diào)查6.分析問卷并總結(jié)心得三、實踐內(nèi)容1.調(diào)查時間:2019年7月15日-7月20日2.調(diào)查方式:線上問卷調(diào)查3.調(diào)查對象:在校大學生及各社會人士4.具體調(diào)查內(nèi)容:大家都知道,隨著計算機、互聯(lián)網(wǎng)、大數(shù)據(jù)、等網(wǎng)絡技術(shù)的日漸發(fā)展迅速,計算機上的各種信息呈直線式增長。毋庸置疑,計算機上的信息包括了社會、文化、政治、娛樂、軍事等所有方面。使用如問卷調(diào)查法、訪談法,線上調(diào)查問卷法等方法對信息進行提取與篩選以及總結(jié),經(jīng)常會受到物質(zhì)和范圍等條件的限制,而且還會因為報告字數(shù)少、可信度低等因素導致獲得的信息經(jīng)常與客觀事實不一致,有著非常大的不真實性。網(wǎng)絡爬蟲通過統(tǒng)一且穩(wěn)定的資源定位符URL=來提取想要的網(wǎng)頁內(nèi)容,并不需要我們以查找網(wǎng)站內(nèi)容的方法去獲取數(shù)據(jù),為我們節(jié)省了時間和精力非常方便,并提高了數(shù)據(jù)的準確度與可信度,使我們在復雜的網(wǎng)絡世界中準確獲得所需的數(shù)據(jù)。爬蟲的最終目的就是從網(wǎng)絡世界中準確獲取自己所需要運用的信息與數(shù)據(jù)。爬蟲對我們而言并不僅僅是一門學習科目,熟練掌握之后將是一門對我們工作與學習以及生活非常高效的技能。以下是我們小組進行的一項問卷調(diào)查結(jié)果:1.您的性別?[單選題]*○男○女圖SEQ圖\*ARABIC1性別比例餅圖在此次調(diào)查中,男性占比51.35%,女性48.65%,由比列可知此次調(diào)查中男性比例較大2.您聽說過python爬蟲嗎[單選題]*○從沒聽過○了解一點○非常了解圖SEQ圖\*ARABIC2對爬蟲的了解程度餅圖通過這次調(diào)查,我們了解到大多數(shù)人對于爬蟲還只是稍微了解,由于學歷及專業(yè)的影響,對爬蟲技術(shù)非常了解的只是少數(shù)人,占比18.92%,32.43%的人則從沒聽過爬蟲技術(shù)3.您知道網(wǎng)絡爬蟲的分類有哪些[多選題]*□通用網(wǎng)絡爬蟲□聚焦網(wǎng)絡爬蟲□增量式網(wǎng)絡爬蟲□DeepWeb爬蟲圖SEQ圖\*ARABIC3了解爬蟲分類的比例條形圖通過調(diào)查,我們了解到人們對網(wǎng)絡爬蟲的分類,通用網(wǎng)絡爬蟲知道的更多,對增量式網(wǎng)絡爬蟲不是很熟悉,聚焦網(wǎng)絡爬蟲和DeepWeb爬蟲則占平均水平。4.您覺得至少要花多久時間才能真正深入了解python爬蟲[單選題]*○半年○一年○三年○五年甚至更久圖SEQ圖\*ARABIC4學習編程年限對Python爬取大數(shù)據(jù)的影響僅有少部分人認為深入學習Python只需要半年時間,說明學習編程的時間久的話,Python技術(shù)的掌握情況也會相當熟練,學習編程的時間對Python的熟練運用起決定性作用。5.您覺得網(wǎng)絡爬蟲對大數(shù)據(jù)的影響大不大[單選題]*○挺大的○還可以○影響不太大○沒影響圖SEQ圖\*ARABIC5網(wǎng)絡爬蟲對大數(shù)據(jù)的影響大部分人認為網(wǎng)絡爬蟲對大數(shù)據(jù)的影響還是蠻大的,畢竟在大數(shù)據(jù)計算能力不斷發(fā)展的過程中,大數(shù)據(jù)是不可或缺的部分,這說明網(wǎng)絡爬蟲對大數(shù)據(jù)的影響不容小覷。6.如果您掌握了python爬蟲技術(shù),您會用這種技術(shù)去獲取技術(shù)嗎[單選題]*○當然,很樂意○不愿意,太麻煩○其他圖SEQ圖\*ARABIC6使用爬蟲技術(shù)去獲取信息的意愿Python技術(shù)普及度不夠,是Python網(wǎng)絡爬蟲應用不廣泛的主要原因大部分人雖然是計算機專業(yè),但是對爬蟲知之甚少,更不要說熟練運用了。且有的人表示從來沒聽說過Python,有的人的表示不會使用Python,有的人只是通過朋友或者同事知道python,但是并沒有系統(tǒng)學習過,所以完全不會運用。。但大家都覺得如果自己掌握了這門語言,會非常樂意使用網(wǎng)絡爬蟲去獲取數(shù)據(jù)。4.調(diào)查總結(jié):通過我們的調(diào)查結(jié)果顯示,我們可以了解到python語言在目前的人群普及率并不高,當然我們可以理解。一般來講,如果我們不從事于計算機方面或者對計算機并沒有多大興趣的話,是很難去了解和學習這門語言。而且也可以了解到知道和了解python的人群中男性高于女性,本科以上學歷的人群認知率會高一下。如果我們想要學習python,我們首先得了解什么是python,以及python的作用。在數(shù)據(jù)處理中,Python也是非常高效且受眾面非常廣的一門語言,這是因為Python就是一門技術(shù)性語言,數(shù)據(jù)工作者們對Python的運用成果,可以順利的用在所需成果中,這對于運用大數(shù)據(jù)的公司節(jié)省時間,以及節(jié)省物力財力有非常大的幫助。當然通過我們的調(diào)查,知道python作用的以及會運用的占比也非常低,僅占13.5%。但是通過我們的統(tǒng)計,大部分人都非常愿意和了解這門語言。30%的人會認為學習python是一個耗時相當長時間的一門課程,我想這也是他們不愿意去深入了解這門語言的原因。當然我們也發(fā)現(xiàn),如果本來就是從事于計算機方面的工作或者專業(yè),他們了解python的比率以及想要學習python的比率也會比平常人高一些??偟膩碇v,目前python的普及率并不高,但是人們對于python的認可率是非常高的??赡苁堑K于專業(yè)及工作的影響,但是并不妨礙它的發(fā)展。通過我們的調(diào)查,想要提高python的普及率,還有很長的路要走。python是一種新的信息處理模式,我們希望它成為對于大眾接受率更高,學習更方便,更容易掌握的技術(shù)性語言及技術(shù)。我們根據(jù)線上調(diào)查問卷的方式得到了大眾對于python爬蟲技術(shù)與大數(shù)據(jù)的看法。在這個信息化爆炸的時代,大數(shù)據(jù)非常重要,有了大數(shù)據(jù),那么也需要處理,才能找到適合自己的數(shù)據(jù)。我們需要這樣一門技術(shù)來替我們實現(xiàn)信息的分類,規(guī)劃,篩選以及提取。在數(shù)據(jù)處理中,Python也是非常高效且受眾面非常廣的一門語言,這是因為Python就是一門技術(shù)性語言,數(shù)據(jù)工作者們對Python的運用成果,可以順利的用在所需成果中,這對于運用大數(shù)據(jù)的公司節(jié)省時間,以及節(jié)省物力財力有非常大的幫助。正是因為這些原因,才讓python語言成為很多公司處理大數(shù)據(jù)的首選。加之python本身具有簡單、易學、易上手等原因,讓越來越多的人選擇從事python開發(fā)。Python技術(shù)就是我們所需要的,當然很多人還并不是很了解這門技術(shù),但是我相信隨著互聯(lián)網(wǎng)技術(shù)的日益增進,我們總會需要python來幫助我們實現(xiàn)更多的優(yōu)化。而網(wǎng)絡爬蟲技術(shù)是python技術(shù)的精進之處。隨著互聯(lián)網(wǎng)信息的迅猛增多,利用python這項工具來獲取所需信息必然會有一天會被普及以及重要運用。使用網(wǎng)絡爬蟲來獲取數(shù)據(jù)與信息,不僅可以實現(xiàn)對網(wǎng)絡上各種信息的智能,快速的分析,還可以極大的節(jié)約工作人員的時間,獲得更高的效率。我們期待網(wǎng)絡爬蟲對未來世界的改變,也期待一個充滿奧秘的未來數(shù)字世界。四、實踐體會作為一名西安財經(jīng)大學數(shù)學系的大二學生,一直以來對我們專業(yè)的就業(yè)前景非常的迷茫,數(shù)學這個專業(yè)說大也大,說小也小。除過課本上的學習內(nèi)容,我一直對其在生活上乃至將來工作上的運用很茫然。我們的學校為了讓我們更好的了解我們的專業(yè),在我們大二的下學期末,為我們開展了這次為期兩周的python學習課程,以下是我學習python課程的心得體會。首先,python是什么?python中文譯名為蟒蛇。之所以選中Python(大蟒蛇的意思)作為該技術(shù)語言的名字,來自《蒙提.派森干的飛行馬戲團》(MontyPython'sFlyingCircus)。Python是一種計算機程序設計語言,由吉多·范羅蘇姆創(chuàng)造,第一版發(fā)布于1991年,可以視之為一種改良的LISP。Python的設計哲學強調(diào)代碼的可讀性和簡潔的語法。相比于C++或Java,Python讓開發(fā)者能夠用更少的代碼表達想法。Python屬于科學計算程序,說起科學計算,大家眾所周知的計算機語言為MATLAB。與MATLAB相比,Python是一門更易學、更嚴謹?shù)某绦蛟O計語言。它能讓用戶編寫出更易讀、易維護的代碼。然而MATLAB價格不菲,python卻是免費面向大眾。這一點python則比較經(jīng)濟實惠。我是第一次接觸python,對于我而言,僅僅學習過計算機基礎(chǔ)以及入門的C語言教程,對于這門計算機語言簡直一竅不通,所以在學習過程中也是挺吃力的。我們是六月21號左右開始上課,這次培訓,我們學校是與圖論公司合作的,公司派的老師也是非常專業(yè),對國內(nèi)的計算機技術(shù)非常了解,通過老師的介紹。Python非常高級,但是也非常難學。通過我的了解,python編寫的程序有游戲,例如,魔獸世界,星際爭霸,守望先鋒等。知乎,youtube等網(wǎng)站也是用python語言來編寫的。當然我認為python語言跟我們專業(yè)最相關(guān)的還是對大數(shù)據(jù)的應用,爬蟲技術(shù)在這方面非常有用。因為我們數(shù)學專業(yè)所屬學院為統(tǒng)計學院,多了解一些統(tǒng)計的知識,對于我們將來考研想考統(tǒng)計專業(yè)有非常大的幫助。特別是現(xiàn)在大數(shù)據(jù)行業(yè)的前景非常不錯,各個行業(yè)的發(fā)展都需要大數(shù)據(jù)技術(shù),而python語言與大數(shù)據(jù)技術(shù)密切相關(guān)。我們在這兩周的學習過程中,起先是編寫一些比較簡單的小算法,例如曾經(jīng)的一個作業(yè),寫一個簡單的Html網(wǎng)頁:這是python很基礎(chǔ)的應用。也比較常見。其中爬蟲技術(shù)更是計算機領(lǐng)域最常見的應用技術(shù)。而老師在教授爬蟲技術(shù)時花費了一半的時間,可見爬蟲技術(shù)的重要。所謂爬蟲,就是把網(wǎng)頁的html下載下來,然后從里面提取出來我們需要的信息,這些信息一般就是正文,圖片,或者鏈接一類的信息。針對特定網(wǎng)站的爬蟲就更好寫了,用正則表達式,把網(wǎng)頁里的鏈接信息找到,然后找到需要的信息,保存在需要的地方,然后打開下一個鏈接重復上一次的過程即可。網(wǎng)絡爬蟲是Python的最有效和運用率最大的技能,最流行的爬蟲框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能夠熟練運用的類庫。爬蟲這東西每天都在網(wǎng)上爬大量的信息,各大搜索引擎廠商每天都有上百萬的爬蟲在網(wǎng)絡上活動,這些爬蟲的作用就是給搜索引擎采集互聯(lián)網(wǎng)上最新的內(nèi)容,采集來的內(nèi)容經(jīng)過分類、加工之后,進入搜索引擎的索引。這是爬蟲最常見的應用。python其實是一種很適合寫爬蟲的語言,如果你掌握了python技術(shù),python技術(shù)用起來將非常順手。爬蟲的應用非常廣泛,比如可以利用爬蟲技術(shù)抓取公司用戶信息。辦公室的hr部門,只要有部門級的管理人員權(quán)限就可以看自己部門的員工資料。這對辦公來講非常方便,節(jié)約了大量的人力,物力,財力。網(wǎng)絡爬蟲與大數(shù)據(jù)行業(yè)息息相關(guān),如果我們將來要從事大數(shù)據(jù)行業(yè),爬蟲技術(shù)是必須要掌握的。python是一門面向?qū)ο蟮木幊陶Z言,所謂的膠水語言。經(jīng)過歷時兩周的關(guān)于Python的學習,讓我對Python有了一定的認識,對Python的編程也基本了解,但若是說通過兩周的學習就能夠完全掌握這門語言甚至是精通的話那是萬萬不可能的,須知冰凍三尺非一日之寒,水滴穿石非一日之功,學習任何一門語言都不可能是一蹴而就的事情,都是需要我們的積累,只有不斷的積累,才有可能有質(zhì)變到量變的飛躍。個人覺得python還是非常容易上手的,例如for循環(huán),while循環(huán),range語句等,感覺多多練習就會發(fā)現(xiàn)其中的竅門。但是需要每天投入時間學習,也不可紙上談兵,需要自己親自操作,不動手就不會發(fā)現(xiàn)問題,動了手印象才會深刻,記得更靠。在我學習python爬蟲的這半個多月里,它讓我快速的感受到爬蟲帶給人的那種便利感,真的節(jié)約了我們的時間以及提高了我們的辦事效率,我已經(jīng)能簡單地實現(xiàn)自己想要獲取的東西,這對于我一個新手來說,是非常有改革性的,這一點也一直激勵著自己往python的更深處學習。但隨著學習的深入,才認識到自己對于某些編程邏輯和數(shù)理基礎(chǔ)方面的不足,這不光是認知基礎(chǔ)的問題,更是我的人生觀與價值觀

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論