




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第9章文本及在線數(shù)據(jù)的挖掘文本數(shù)據(jù)挖掘(TextMining)是指從大量文本數(shù)據(jù)中抽取出有價(jià)值的知識(shí),并且利用這些知識(shí)重新組織信息的過程。從這個(gè)意義上講,文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘與分析的一個(gè)分支。文本挖掘利用智能算法,分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網(wǎng)頁等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。第9章文本及在線數(shù)據(jù)的挖掘第9章文本及在線數(shù)據(jù)的挖掘在線分析處理是一種重要的商務(wù)智能分析方法。這種技術(shù)主要對(duì)多維數(shù)據(jù)集進(jìn)行多角度、多層次的分析,幫助管理者獲取業(yè)務(wù)洞察。在線數(shù)據(jù)分析也稱聯(lián)機(jī)分析處理,是一門新興的軟件技術(shù),它專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持,可以應(yīng)分析人員的要求,快速靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)的經(jīng)營狀況,了解市場(chǎng)需求并制定正確的方案,以增加效益。第9章文本及在線數(shù)據(jù)的挖掘第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.1文本數(shù)據(jù)的預(yù)處理
1.字符及字符串統(tǒng)計(jì)
2.字符串連接與拆分
3.字符串查詢與替換9.1.2文本挖掘及可視化
1.文本挖掘的概念與方法
2.Python分詞包jieba
3.文本數(shù)據(jù)的收集與分詞
4.詞頻與詞云分析及可視化9.1.1文本數(shù)據(jù)的預(yù)處理1.字符及字符串統(tǒng)計(jì)直接使用len()函數(shù)可分別對(duì)字段自身長度、列表長度和嵌套列表長度進(jìn)行統(tǒng)計(jì),len()函數(shù)也可以直接對(duì)中文字段進(jìn)行操作。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.1文本數(shù)據(jù)的預(yù)處理1.字符及字符串統(tǒng)計(jì)9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Ins='abcdef’#字符串的定義len(s)#字符串的長度Out6InS=["Python","Data","Visual","暨南大學(xué)","管理學(xué)院"];#字符串列表長度len(S)#字符串的個(gè)數(shù)Out5In[len(s)forsinS]#字符串列表中各字符串長度Out[6,4,6,4,4]9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法1:加號(hào)'+'直接使用加號(hào)'+'就可以實(shí)現(xiàn)對(duì)兩個(gè)或多個(gè)字符串進(jìn)行連接。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化In'Excel'+''+'and'+''+'Python'Out'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法2:字符串格式化輸出有時(shí)對(duì)連接有自定義操作,這時(shí)可以采用字符串格式化輸出,這種方法更為常用。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Inwebsite='%s%s%s%s%s'%('Excel','','and','','Python’);websiteOut'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法3:join()如果操作的對(duì)象是列表,也可以采用join()函數(shù)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InlistStr=['Excel','','and','','Python']''.join(listStr)Out'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(2)字符串的拆分Python內(nèi)置了針對(duì)字串的拆分函數(shù)split()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS1='中國;廣東省;廣州市;天河區(qū)'S1.split(';’)#按;拆分Out['中國','廣東省','廣州市','天河區(qū)']InS2='暨南大學(xué)、管理學(xué)院、企業(yè)管理系'S2.split('、’)#按、拆分Out['暨南大學(xué)','管理學(xué)院','企業(yè)管理系']9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(2)字符串的拆分針對(duì)字符串列表(相當(dāng)于一段段文本),可以自定義一個(gè)列表拆分函數(shù)list_split()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS3=['廣州大學(xué);廣州發(fā)展研究院','暨南大學(xué);文學(xué)院;歷史系','暨南大學(xué);管理學(xué)院']Indeflist_split(lists,sep):#列表拆分函數(shù)new_list=[]foriinrange(len(lists)):new_list.append(list(filter(None,lists[i].split(sep))))returnnew_listInlist_split(S3,';')Out[['廣州大學(xué)','廣州發(fā)展研究院'],['暨南大學(xué)','文學(xué)院','歷史系'],['暨南大學(xué)','管理學(xué)院']]9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(1)in函數(shù)在Python中in可以實(shí)現(xiàn)直接查詢(集合操作)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化In'暨南大學(xué)'inS2OutTrue9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(1)in函數(shù)根據(jù)in的特點(diǎn)可以自定義一個(gè)字符串列表查詢函數(shù)find_words()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Indeflist_find(lists,word):return[lists[i]foriinrange(len(lists))if(wordinlists[i])==True]Inlist_find(S3,'暨南大學(xué)')Out['暨南大學(xué);文學(xué)院;歷史系','暨南大學(xué);管理學(xué)院']9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(2)replace函數(shù)replace函數(shù)可以對(duì)字符串的內(nèi)容進(jìn)行替換。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS2.replace('、',';')Out'暨南大學(xué);管理學(xué)院;企業(yè)管理系'9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(2)replace函數(shù)也可以自定義一個(gè)針對(duì)字符串列表的字符串替換函數(shù)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Indeflist_replace(lists,old,new):return[lists[i].replace(old,new)foriinrange(len(lists))]Inlist_replace(S3,'暨南大學(xué)','中山大學(xué)')Out['廣州大學(xué);廣州發(fā)展研究院','中山大學(xué);文學(xué)院;歷史系','中山大學(xué);管理學(xué)院']9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過程。文本挖掘是數(shù)據(jù)挖掘的一個(gè)應(yīng)用分支,用于基于文本信息的知識(shí)發(fā)現(xiàn)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問題查詢、網(wǎng)頁等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來,但并不意味著簡單地將數(shù)據(jù)挖掘技術(shù)運(yùn)用到大量文本的集合上就可以實(shí)現(xiàn)文本挖掘,還需要做很多準(zhǔn)備工作。文本挖掘的準(zhǔn)備工作由文本收集、文本分析和特征修剪三個(gè)步驟組成。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(1)文本收集:需要挖掘的文本數(shù)據(jù)可能具有不同的類型,且分散在很多地方。需要尋找和檢索那些所有被認(rèn)為可能與當(dāng)前工作相關(guān)的文本。一般地,系統(tǒng)用戶都可以定義文本集,但是仍需要一個(gè)用來過濾相關(guān)文本的系統(tǒng)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(2)文本分析:與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文本具有有限的結(jié)構(gòu),或者根本就沒有結(jié)構(gòu);此外文檔的內(nèi)容是人類所使用的自然語言,計(jì)算機(jī)很難處理其語義。文本數(shù)據(jù)源的這些特殊性使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上,需要對(duì)文本進(jìn)行分析,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。其目的在于從文本中掃描并抽取所需要的事實(shí)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(3)關(guān)鍵詞詞云分析詞云就是對(duì)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使用戶只要一眼掃過文本就可以領(lǐng)略文本的主旨。好的數(shù)據(jù)可視化,可以使得數(shù)據(jù)分析的結(jié)果更通俗易懂?!霸~云”就是數(shù)據(jù)可視化的一種形式。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jiebaJieba(結(jié)巴分詞)號(hào)稱宇宙最強(qiáng)Python分詞工具,是Python語言中最流行的一個(gè)分詞工具,在自然語言處理等場(chǎng)景被廣泛使用。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jieba(1)安裝9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘In#!pipinstalljiebaOutRequirementalreadysatisfied:jiebainc:\users\lenovo\anaconda3\lib\site-packages(0.42.1)9.1.2文本挖掘及可視化2.Python分詞包jieba(2)簡單分詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inimportjiebawords1=jieba.lcut("我愛中國暨南大學(xué)");words1Out['我','愛','中國','暨南大學(xué)']句子切分成了5個(gè)詞組的列表。9.1.2文本挖掘及可視化2.Python分詞包jieba(3)全模式分詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwords2=jieba.lcut("我愛中國暨南大學(xué)",cut_all=True);words2Out['我','愛','中國','暨南','暨南大學(xué)','南大','大學(xué)']全模式分出來的詞覆蓋面更廣。9.1.2文本挖掘及可視化2.Python分詞包jieba(4)提取關(guān)鍵詞從一個(gè)句子或者一個(gè)段落中提取前K個(gè)關(guān)鍵詞,topK為返回前topK個(gè)權(quán)重最大的關(guān)鍵詞,withWeight返回每個(gè)關(guān)鍵字的權(quán)重值。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jieba9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Insentence="詞云就是對(duì)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使用戶只要一眼掃過文本就可以領(lǐng)略文本的主旨。其作用是提供用戶在業(yè)務(wù)中的轉(zhuǎn)化率和流失率;揭示了各種業(yè)務(wù)在網(wǎng)站中受歡迎的程度;發(fā)現(xiàn)業(yè)務(wù)流程中存在的問題,以及改進(jìn)的效果。"Inimportjieba.analyseasjaja.extract_tags(sentence,topK=5)#句中出現(xiàn)次數(shù)最多的5個(gè)詞Out['文本','關(guān)鍵詞','流失率','用戶','詞云']9.1.2文本挖掘及可視化2.Python分詞包jieba9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inja.extract_tags(sentence,topK=5,withWeight=True)#出現(xiàn)次數(shù)最多的5個(gè)詞及權(quán)重Out[('文本',0.7778130951626087),('關(guān)鍵詞',0.5806607855354349),('流失率',0.30218864460869566),('用戶',0.2966233074965217),('詞云',0.25988625006304344)]9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(1)粵港澳大灣區(qū)發(fā)展規(guī)劃綱要《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》是進(jìn)一步提升粵港澳大灣區(qū)在國家經(jīng)濟(jì)發(fā)展和對(duì)外開放中的支撐引領(lǐng)作用,支持香港、澳門融入國家發(fā)展大局,增進(jìn)香港、澳門同胞福祉,保持香港、澳門長期繁榮穩(wěn)定,讓港澳同胞同祖國人民共擔(dān)民族復(fù)興的歷史責(zé)任、共享祖國繁榮富強(qiáng)的偉大榮光。由中共中央、國務(wù)院于2019年2月印發(fā)實(shí)施。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(2)規(guī)劃綱要正文(節(jié)選)9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Intxt=open("GBAtxt.txt","r",encoding='GBK').read()txt[:200]#顯示前200個(gè)字符Out'《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》\n前言\n粵港澳大灣區(qū)包括香港特別行政區(qū)、澳門特別行政區(qū)和廣東省廣州市、深圳市、珠海市、佛山市、惠州市、東莞市、中山市、江門市、肇慶市(以下稱珠三角九市),總面積5.6萬平方公里,2017年末總?cè)丝诩s7000萬人,是我國開放程度最高、經(jīng)濟(jì)活力最強(qiáng)的區(qū)域之一,在國家發(fā)展大局中具有重要戰(zhàn)略地位。建設(shè)粵港澳大灣區(qū),既是新時(shí)代推動(dòng)形成全面開放新格局的新嘗試,也是推動(dòng)“一國兩制”事'9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(3)分詞及權(quán)重分析9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwords=jieba.lcut(txt)#使用精確模式對(duì)文本進(jìn)行分詞words[:10]#顯示前10個(gè)詞Out'《','粵港澳','大灣','區(qū)','發(fā)展','規(guī)劃','綱要','》','\n','前言']9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘InWi=ja.extract_tags(txt,topK=10,withWeight=True)#文中出現(xiàn)次數(shù)最多的10個(gè)詞及權(quán)重pd.DataFrame(Wi,columns=['關(guān)鍵詞','權(quán)重'])Out關(guān)鍵詞權(quán)重0粵港澳0.1491大灣0.1292建設(shè)0.0943港澳0.0864合作0.0855澳門0.0726發(fā)展0.0717創(chuàng)新0.0708支持0.0659香港0.0579.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化(1)詞頻分析9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Indefwords_freq(words):#定義統(tǒng)計(jì)文中詞出現(xiàn)的頻數(shù)函數(shù)counts={}#通過鍵值對(duì)的形式存儲(chǔ)詞語及其出現(xiàn)的次數(shù)forwordinwords:iflen(word)==1:continue#單個(gè)字不計(jì)算在內(nèi)else:#遍歷所有詞語,每出現(xiàn)一次其值加1counts[word]=counts.get(word,0)+1return(DataFrame(counts.items(),columns=['關(guān)鍵詞','頻數(shù)']))Inwordsfreq=words_freq(words);wordsfreq9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out關(guān)鍵詞頻數(shù)0粵港澳1171大灣1182發(fā)展2013規(guī)劃194綱要1.........2188勞工12189學(xué)術(shù)界12190建立聯(lián)系12191公眾22192意見反饋1[2193rowsx2columns]9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwordsfreq.sort_values(by='頻數(shù)’,ascending=False,inplace=True);wordsfreqkeys=wordsfreq.set_index('關(guān)鍵詞');keys[:10]#按詞頻排序,并設(shè)關(guān)鍵詞為索引,取排名前10個(gè)關(guān)鍵詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out頻數(shù)關(guān)鍵詞發(fā)展201建設(shè)192合作155支持128創(chuàng)新122大灣118粵港澳117香港98港澳98國際919.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inkeys[:10].plot(kind='barh');Out9.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化(2)詞云分析>pipinstallWordCloud#安裝詞云包9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘InfromwordcloudimportWordCloud#加載詞云包Instrings="".join(words)#用.join將分詞連接為字符串,用空格分隔WC=WordCloud(max_words=50,max_font_size=200,width=1200,height=800,font_path='STZHONGS.TTF',background_color="white")plt.imshow(WC.generate(strings));plt.axis("off")9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out9.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化注意在做該圖時(shí)并未刪除一些停止詞。停止詞是指在句子中無關(guān)緊要的詞語,例如標(biāo)點(diǎn)符號(hào)、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過濾停止詞,需要手動(dòng)處理。限于篇幅這里從略。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取2.居民消費(fèi)數(shù)據(jù)的抓取9.2.2網(wǎng)絡(luò)數(shù)據(jù)爬蟲及分析1.股票數(shù)據(jù)的抓取與分析2.Python爬蟲步驟3.爬蟲數(shù)據(jù)的分析練習(xí)題9(網(wǎng)上存在大量的在線數(shù)據(jù),如何獲取這些數(shù)據(jù)是大家所關(guān)心的.下面我們以中商情報(bào)網(wǎng)(/)的中商產(chǎn)業(yè)研究院數(shù)據(jù)庫(/)平臺(tái)為例介紹這類數(shù)據(jù)的獲取和分析。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘中商情報(bào)網(wǎng)是國內(nèi)第三方市場(chǎng)研究機(jī)構(gòu)和企業(yè)綜合咨詢服務(wù)提供商。已構(gòu)建起企業(yè)商業(yè)情報(bào)數(shù)據(jù)庫,致力于為企業(yè)中高層管理人員、企事業(yè)發(fā)展研究部門人員、市場(chǎng)投資人士、投行及咨詢行業(yè)人士、投資專家等提供各行業(yè)的市場(chǎng)研究資料和商業(yè)競(jìng)爭情報(bào);致力于為國內(nèi)外各行業(yè)企業(yè)、科研院所、社會(huì)團(tuán)體和政府部門提供專業(yè)的行業(yè)市場(chǎng)研究、行業(yè)專項(xiàng)咨詢、項(xiàng)目可行性研究、IPO咨詢、商業(yè)計(jì)劃書等服務(wù)。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取中商情報(bào)網(wǎng)上的很多數(shù)據(jù)都是以表格形式出現(xiàn)的,對(duì)少量的表格數(shù)據(jù),我們可以用簡單的拷貝方式獲取數(shù)據(jù)。進(jìn)入網(wǎng)頁/data/area/440000/,可選取數(shù)據(jù)并復(fù)制到Python中。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析2.居民消費(fèi)數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡單數(shù)據(jù)的獲取及分析2.居民消費(fèi)數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘很多網(wǎng)站都會(huì)以表格的形式展示數(shù)據(jù),但如果表格中的數(shù)據(jù)較多或有多頁數(shù)據(jù)時(shí),顯然使用復(fù)制的方法是不可行的。如對(duì)于下圖的我國宏觀經(jīng)濟(jì)的綜合數(shù)據(jù),可通過爬蟲技術(shù)獲取這些數(shù)據(jù)。從下圖可以看出,我們需要的數(shù)據(jù)都保存在表格中,所以這里可以使用pandas獲取表格數(shù)據(jù)。在pandas庫中有一個(gè)方法read_html可以直接讀取網(wǎng)頁中的圖表,然后遍歷出每一個(gè)表格。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘打開網(wǎng)址/stock/a/,其中有幾個(gè)主表數(shù)據(jù)。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘若表數(shù)據(jù)量不大,也可以用前文介紹的復(fù)制的方法抓取數(shù)據(jù),但若表內(nèi)容較多,這時(shí)使用復(fù)制的方法顯然是不可行的,需通過編程的方法抓取數(shù)據(jù)。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取InImportrequestsurl=‘/stock/a’#A股信息html=requwsts.get(url).content.decode(‘utf-8);In#獲取第1張表格的數(shù)據(jù):A股公司營業(yè)收入排行榜pd.read_html(html,header=0)[0]9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取In#獲取第2張表格的數(shù)據(jù):A股公司凈利潤排行榜pd.read_html(html,header=0)[1]9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取In#獲取第3張表格的數(shù)據(jù):A股公司利潤總額排行榜pd.read_html(html,header=0)[2]9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析獲取這種數(shù)據(jù)需要通過代碼進(jìn)行網(wǎng)頁爬蟲,由于股票數(shù)據(jù)設(shè)計(jì)很多頁,這時(shí)可通過循環(huán)遍歷出每一個(gè)表,然后將獲取的數(shù)據(jù)保存在表格中即可。下面僅介紹獲取廣東省上市公司(共599家)的數(shù)據(jù)并進(jìn)行簡單分析。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析由于每頁只顯示20只股票的數(shù)據(jù),所以需通過編程來獲取數(shù)據(jù),首先構(gòu)建一個(gè)獲取當(dāng)前頁的函數(shù),通過pageNum的數(shù)字來獲取不同頁。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息技術(shù)必修一《數(shù)據(jù)與計(jì)算》第二章第二節(jié)《程序設(shè)計(jì)語言基本知識(shí)》教學(xué)設(shè)計(jì)
- 定西師范高等專科學(xué)?!渡茖W(xué)基礎(chǔ)二:細(xì)胞生物學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 沈陽職業(yè)技術(shù)學(xué)院《中醫(yī)藥文化與養(yǎng)生》2023-2024學(xué)年第二學(xué)期期末試卷
- 駐馬店職業(yè)技術(shù)學(xué)院《寫意畫》2023-2024學(xué)年第二學(xué)期期末試卷
- 阜陽幼兒師范高等??茖W(xué)?!峨娮泳€路CAD技術(shù)B》2023-2024學(xué)年第二學(xué)期期末試卷
- Unit 3 Amazing animals PartA (教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教PEP版(2024)英語三年級(jí)上冊(cè)
- 鹽城師范學(xué)院《現(xiàn)代材料分析技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東云浮中醫(yī)藥職業(yè)學(xué)院《民俗學(xué)與民間文學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 鋼軌購銷合同范本
- 山西大同大學(xué)《三維機(jī)械CAD實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 有溫度的護(hù)理人
- 1《挑戰(zhàn)第一次》第1課時(shí) 說課稿 -2023-2024學(xué)年道德與法治二年級(jí)下冊(cè)統(tǒng)編版
- 預(yù)防性試驗(yàn)四措一案及施工方案
- 第十八屆“地球小博士”全國地理知識(shí)科普競(jìng)賽題庫(附答案)
- 第13課《 擴(kuò)音系統(tǒng)的控制》說課稿 2023-2024學(xué)年 浙教版六年級(jí)下冊(cè)信息科技
- 高校國有資產(chǎn)管理的三個(gè)維度與內(nèi)部控制
- 2025甘肅省事業(yè)單位聯(lián)考招聘(3141人)高頻重點(diǎn)提升(共500題)附帶答案詳解
- JJF 1176-2024(0~2 300) ℃鎢錸熱電偶校準(zhǔn)規(guī)范
- 8.4+同一直線上二力的合成課件+2024-2025學(xué)年人教版物理八年級(jí)下冊(cè)
- 2024年河北省邢臺(tái)市公開招聘警務(wù)輔助人員(輔警)筆試專項(xiàng)訓(xùn)練題試卷(2)含答案
- 家政公司服務(wù)員考試題庫單選題100道及答案解析
評(píng)論
0/150
提交評(píng)論