![企業(yè)外部數(shù)據(jù)采集_第1頁(yè)](http://file4.renrendoc.com/view/5b7792001f094876435c1a6a56565529/5b7792001f094876435c1a6a565655291.gif)
![企業(yè)外部數(shù)據(jù)采集_第2頁(yè)](http://file4.renrendoc.com/view/5b7792001f094876435c1a6a56565529/5b7792001f094876435c1a6a565655292.gif)
![企業(yè)外部數(shù)據(jù)采集_第3頁(yè)](http://file4.renrendoc.com/view/5b7792001f094876435c1a6a56565529/5b7792001f094876435c1a6a565655293.gif)
![企業(yè)外部數(shù)據(jù)采集_第4頁(yè)](http://file4.renrendoc.com/view/5b7792001f094876435c1a6a56565529/5b7792001f094876435c1a6a565655294.gif)
![企業(yè)外部數(shù)據(jù)采集_第5頁(yè)](http://file4.renrendoc.com/view/5b7792001f094876435c1a6a56565529/5b7792001f094876435c1a6a565655295.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)采集與處理教學(xué)團(tuán)隊(duì)數(shù)據(jù)采集與處理企業(yè)外部數(shù)據(jù)采集企業(yè)外部數(shù)據(jù)采集的概念采集工具0102企業(yè)外部數(shù)據(jù)采集主要的形式是萬(wàn)維網(wǎng)的網(wǎng)絡(luò)信息采集,獲取的數(shù)據(jù)格式常常是非結(jié)構(gòu)化數(shù)據(jù),需要借助各類網(wǎng)絡(luò)信息采集工具得以實(shí)施。網(wǎng)絡(luò)信息工具分為:采集終端類、庫(kù)類、體系類、整頁(yè)抓取工具企業(yè)外部數(shù)據(jù)采集采集終端類
網(wǎng)絡(luò)信息采集主要由網(wǎng)頁(yè)采集工具完成,本節(jié)重點(diǎn)介紹網(wǎng)頁(yè)采集工具。(1)采集終端類:這類工具一般都支持Windows圖形界面,基本無(wú)需寫代碼,可通過(guò)配置規(guī)則,實(shí)現(xiàn)較典型的數(shù)據(jù)采集。但數(shù)據(jù)粹取能力一般,擴(kuò)展受限,較復(fù)雜應(yīng)用的二次開發(fā)成本不低。常見(jiàn)國(guó)產(chǎn)軟件:火車頭、八爪魚、集搜客采集終端類
火車頭采集器
火車頭是老牌的采集軟件,伴隨了無(wú)數(shù)個(gè)人站長(zhǎng)的成長(zhǎng),可配置性強(qiáng),可實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)存,功能比較齊全,采集速度比較快,主要針對(duì)cms,短時(shí)間可以采集很多,過(guò)濾,替換都不錯(cuò),比較詳細(xì),很多人寫接口,發(fā)布,接口比較齊全,可以抓取網(wǎng)頁(yè)上散亂分布的數(shù)據(jù)信息,并通過(guò)一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù),用戶數(shù)量最多,功能最強(qiáng)大。它的用戶定位主要是擁有一定代碼基礎(chǔ)的人群,適合編程老手。網(wǎng)址:/采集終端類
八爪魚采集器號(hào)稱最好用的網(wǎng)頁(yè)數(shù)據(jù)采集器,讓數(shù)據(jù)觸手可及!和市面上其他采集軟件不同的是,八爪魚采集器沒(méi)有繁雜的采集規(guī)則設(shè)置,通過(guò)鼠標(biāo)點(diǎn)擊幾次就可以成功配置一個(gè)采集任務(wù),把體驗(yàn)做到了極簡(jiǎn),大幅度提高了工作效率。八爪魚是一款適合小白用戶嘗試的采集軟件,云功能強(qiáng)大,當(dāng)然爬蟲老手也能開拓它的高級(jí)功能。網(wǎng)址:/采集終端類
集搜客采集器是一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素。同樣可通過(guò)簡(jiǎn)單可視化流程進(jìn)行采集,服務(wù)于任何對(duì)數(shù)據(jù)有采集需求的人群。庫(kù)類
(2)庫(kù)類:
通過(guò)開源庫(kù)或工具庫(kù)的方式提供。這些庫(kù)通常只負(fù)責(zé)數(shù)據(jù)抓取的網(wǎng)絡(luò)部分以及HTML的解析部分。而具體的業(yè)務(wù)實(shí)現(xiàn),則由開發(fā)者自己實(shí)現(xiàn)。這種方式非常靈活,也較合適于復(fù)雜數(shù)據(jù)的抓取,以及較大規(guī)模的抓取。這些庫(kù)的差異,主要體現(xiàn)在如下幾個(gè)方面:一、語(yǔ)言適用。很多庫(kù)只適用于某一門語(yǔ)言;二、功能差異。絕大部分庫(kù)都只支持HTML,不支持JS,CSS等動(dòng)態(tài)數(shù)據(jù);三、接口方面。有些庫(kù)提供函數(shù)級(jí)接口,有些庫(kù)提供對(duì)象級(jí)接口。四、穩(wěn)定性。有些庫(kù)是嚴(yán)肅的,有些庫(kù)則在逐步改進(jìn)。庫(kù)類
SimpleHTMLDOM解析器(SimpleHTMLDOMParser)語(yǔ)言:PHP官網(wǎng):/介紹:PHP的擴(kuò)展模塊,支持對(duì)HTML標(biāo)簽的解析。提供類似于JQuery的函數(shù)級(jí)接口,功能較簡(jiǎn)單,合適于對(duì)簡(jiǎn)單HTML頁(yè)面的解析,做數(shù)據(jù)引擎會(huì)比較吃力。庫(kù)類
JSoup語(yǔ)言:JAVA官網(wǎng):/介紹:JSoup是一款Java的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過(guò)DOM,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。庫(kù)類
Spynner語(yǔ)言:Python官網(wǎng):/makinacorpus/spynner介紹:Spynner是一個(gè)1000多行的Python腳本,最大的特色是支持動(dòng)態(tài)內(nèi)容的抓取。由于需要進(jìn)行頁(yè)面渲染,速度偏慢。體系類
(3)體系類:這類工具或開源庫(kù),提供了一整套體系,包括數(shù)據(jù)抓取,調(diào)度,存儲(chǔ),檢索。Nutch:語(yǔ)言:JAVA官網(wǎng):/介紹:Nutch是一個(gè)開源Java實(shí)現(xiàn)的搜索引擎。它提供了全文搜索和Web爬蟲,頁(yè)面調(diào)度,數(shù)據(jù)存儲(chǔ)等功能,幾乎可看作是一個(gè)完整的通用搜索引擎。合適于較大頁(yè)面規(guī)模(幾十億),且只對(duì)數(shù)據(jù)做文本索引(很少結(jié)構(gòu)化數(shù)據(jù))的應(yīng)用。Nutch用于做研究很不錯(cuò)。體系類
Heritrix:語(yǔ)言:JAVA官網(wǎng):/index.html介紹:Heritrix是一個(gè)開源的網(wǎng)絡(luò)爬蟲系統(tǒng),用戶可以使用它來(lái)從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴(kuò)展性,方便用戶實(shí)現(xiàn)自己的抓取邏輯。Heritrix集成了索引調(diào)度,頁(yè)面解析和數(shù)據(jù)存儲(chǔ)。其它的包括:DataparkSearch,Web-Harvest整頁(yè)抓取工具
(4)整頁(yè)抓取工具TeleportUltra官網(wǎng):/介紹:TeleportUltra所能做的,不僅僅是離線瀏覽某個(gè)網(wǎng)頁(yè)(讓你離線快速瀏覽某個(gè)網(wǎng)頁(yè)的內(nèi)容當(dāng)然是它的一項(xiàng)重要功能),它可以從Internet的任何地方抓回你想、、要的任何文件,它可以在你指定的時(shí)間自動(dòng)登錄到你指定的網(wǎng)站下載你指定的內(nèi)容,你還可以用它來(lái)創(chuàng)建某個(gè)網(wǎng)站的完整的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025嶺南文化創(chuàng)意產(chǎn)業(yè)園項(xiàng)目啟動(dòng)儀式籌辦服務(wù)合同協(xié)議書
- 2025含破碎錘挖掘機(jī)買賣合同書
- 2025咖啡粉批發(fā)合同
- 2025金屬制品委托加工合同
- 2023三年級(jí)英語(yǔ)上冊(cè) Unit 5 Let's eat The first period第一課時(shí)說(shuō)課稿 人教PEP
- 5 應(yīng)對(duì)自然災(zāi)害(說(shuō)課稿)2023-2024學(xué)年統(tǒng)編版道德與法治六年級(jí)下冊(cè)
- 保母阿姨合同范例
- 人用工合同范例
- 上海檢測(cè)合同范例
- 金屬防水材料施工方案
- 2025年廣西教育出版社有限公司招聘筆試參考題庫(kù)含答案解析
- 中醫(yī)膏方臨床應(yīng)用與制備工藝規(guī)范 DB32/T 4870-2024
- JJG(交通) 208-2024 車貨外廓尺寸動(dòng)態(tài)現(xiàn)場(chǎng)檢測(cè)設(shè)備
- 蘇北四市(徐州、宿遷、淮安、連云港)2025屆高三第一次調(diào)研考試(一模)英語(yǔ)試卷(含答案)
- 2025年信息系統(tǒng)集成服務(wù)公司組織架構(gòu)和業(yè)務(wù)流程
- 西藏自治區(qū)拉薩市城關(guān)區(qū)多校2024-2025學(xué)年六年級(jí)上學(xué)期期中英語(yǔ)試題
- 胸外科講課全套
- 2023年海南省公務(wù)員錄用考試《行測(cè)》真題卷及答案解析
- 公安法制培訓(xùn)
- 中國(guó)心力衰竭診斷和治療指南2024解讀(完整版)
- 《鋼鐵是怎樣練成的》閱讀任務(wù)單及答案
評(píng)論
0/150
提交評(píng)論