版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
—爬蟲崗位職責(zé)爬蟲崗位職責(zé)1
職位描述:
工作職責(zé):
1.開發(fā)網(wǎng)頁自動化腳本。
2.負(fù)責(zé)商品信息結(jié)構(gòu)化,編寫自動化腳本解析網(wǎng)頁信息。
3.商品索引系統(tǒng):億級sku的庫存價格實(shí)時跟蹤同步,并對商品進(jìn)行智能分類、本地化、圖片處理和去重。
4.設(shè)計、開發(fā)、測試、部署以及維護(hù)并改進(jìn)各子系統(tǒng);
5.管理工程優(yōu)先級并按時交付。
職位要求:
1.全日制統(tǒng)招本科、碩士畢業(yè),1年以上軟件開發(fā)工作經(jīng)驗(yàn);
2.熟識至少一門通用靜態(tài)編譯編程語言,c/c++/java/c#/go;
3.熟識web端基礎(chǔ)標(biāo)準(zhǔn),包括html、css、javascript、json等;
4.熟識python或其他腳本語言,有愛好和力量依據(jù)需求學(xué)習(xí)其他編程語言;
5.熟識uniX/linuX環(huán)境,memcache/redis/mongodb等存儲系統(tǒng),能獨(dú)立設(shè)計開發(fā)包括前后端交互的業(yè)務(wù)子系統(tǒng);
6.熟識常見的.設(shè)計模式、單元測試、持續(xù)開發(fā)集成、codereview,并能在日常工作踐行;
7.了解搜尋引擎、電子商務(wù)、社交類應(yīng)用的系統(tǒng)根本架構(gòu),能對已有的子系統(tǒng)進(jìn)行優(yōu)化調(diào)整的優(yōu)先;
8.活潑的開源工程奉獻(xiàn)者優(yōu)先。
爬蟲崗位職責(zé)2
職責(zé)描述:
1,負(fù)責(zé)網(wǎng)絡(luò)爬蟲系統(tǒng)的`設(shè)計與開發(fā)
2,對爬取的網(wǎng)頁信息進(jìn)行數(shù)據(jù)抽取,清洗和去重等工作
任職要求:
1、2年及以上網(wǎng)絡(luò)爬蟲開發(fā)經(jīng)驗(yàn),本科及大專學(xué)歷,計算機(jī)相關(guān)專業(yè),
2、主動、溝通順暢,工作認(rèn)真負(fù)責(zé)
3、扎實(shí)的編程力量,熟識常用算法和數(shù)據(jù)結(jié)構(gòu)等基礎(chǔ)學(xué)問
4、嫻熟把握開發(fā)語言java或c/c++,熟識腳本語言和正則表達(dá)式
爬蟲崗位職責(zé)3
崗位職責(zé):
1.負(fù)責(zé)網(wǎng)絡(luò)爬蟲的架構(gòu)設(shè)計、開發(fā)與優(yōu)化;
2.負(fù)責(zé)抓取數(shù)據(jù)的'清洗、落地、分析;
3.抓取策略算法的更新維護(hù),以及確保數(shù)據(jù)抽取精確、高效。
任職要求:
1.兩年及以上互聯(lián)網(wǎng)或軟件行業(yè)工作經(jīng)驗(yàn);
2.理解http協(xié)議,熟識html、dom、Xpath;
3.熟識linuX開發(fā)環(huán)境,至少熟識python/go/java/node.js中的一種編程語言;
4.有爬蟲、信息抽取、文本分類、大數(shù)據(jù)處理相關(guān)經(jīng)驗(yàn)優(yōu)先;
5.有自然語言處理、機(jī)器學(xué)習(xí)經(jīng)驗(yàn)優(yōu)先;
6.熟識閱讀器內(nèi)核、渲染機(jī)制優(yōu)先;
7.工作認(rèn)真,細(xì)心,有條理,主動性高;良好的溝通力量及團(tuán)隊(duì)合作精神。
爬蟲崗位職責(zé)4
職位要求
1、計算機(jī)相關(guān)專業(yè),本科及以上學(xué)歷,3年以上爬蟲相關(guān)工作經(jīng)驗(yàn);
2、對爬蟲編程有劇烈愛好,嫻熟精通把握至少1種語言java、python,在需要的情況下能快速上手新語言切換;
3、深化理解tpc/ip、http、以及web登錄認(rèn)證的機(jī)制,有勝利破解冗雜驗(yàn)證碼的經(jīng)驗(yàn);
4、有通用分布式爬蟲系統(tǒng)架構(gòu)和開發(fā)經(jīng)驗(yàn),能快速部署新的.爬蟲應(yīng)用;
5、已有2年以上網(wǎng)絡(luò)爬蟲或搜尋引擎工作經(jīng)驗(yàn),參與過大規(guī)模數(shù)據(jù)爬蟲優(yōu)先考慮;
6、有app安全、逆向等領(lǐng)域的經(jīng)驗(yàn);
7、具有良好的溝通、團(tuán)隊(duì)協(xié)作、計劃力量,有過1—2人的團(tuán)隊(duì)管理經(jīng)驗(yàn)。
崗位職責(zé)
1、建設(shè)完善分布式爬蟲系統(tǒng);
2、建立通用的爬蟲框架,能夠快速順應(yīng)新的爬蟲需求;
3、快速完成對目標(biāo)資源的數(shù)據(jù)抓取、處理。
爬蟲崗位職責(zé)5
職責(zé)描述:
1.參與爬蟲系統(tǒng)的架構(gòu)設(shè)計與開發(fā);
2.負(fù)責(zé)執(zhí)行和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng),進(jìn)行多平臺信息的抓取和分析;
3.負(fù)責(zé)網(wǎng)頁信息和app數(shù)據(jù)抽取、清洗、消重等工作,提升平臺的抓取效率;
4.參與爬蟲核心算法和策略優(yōu)化,熟識采集系統(tǒng)的調(diào)度策略;
5.實(shí)時監(jiān)控爬蟲的進(jìn)度和警報反應(yīng)。
任職要求:
1.本科以上學(xué)歷,3年以上爬蟲開發(fā)相關(guān)經(jīng)驗(yàn),嫻熟運(yùn)用python或java進(jìn)行開發(fā);
2.嫻熟運(yùn)用正則表達(dá)式、csspath、Xpath等,能夠從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中取得信息;
3.嫻熟運(yùn)用mysql數(shù)據(jù)庫,把握redis、mongodb、hive等常用nosql技術(shù)并具有實(shí)戰(zhàn)經(jīng)驗(yàn);
4.熟識各種抓取技術(shù),包括代理、phantomjs/selenium、驗(yàn)證碼處理;
5.熟識整個爬蟲的`設(shè)計及完成流程,有從事網(wǎng)絡(luò)爬蟲、網(wǎng)頁信息抽取開發(fā)經(jīng)驗(yàn),熟識反爬蟲技術(shù),有分布式爬蟲架構(gòu)經(jīng)驗(yàn);
6.具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機(jī)器學(xué)習(xí)背景者優(yōu)先;
7.快速學(xué)習(xí)力量,工作主動主動,有創(chuàng)業(yè)熱忱和良好的團(tuán)隊(duì)幫助力量;
8.需要有大量數(shù)據(jù)爬取以及高難度反爬經(jīng)驗(yàn),沒有相關(guān)經(jīng)驗(yàn)的勿擾。
爬蟲崗位職責(zé)6
職位描述:
工作職責(zé):
1、負(fù)責(zé)設(shè)計和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng),進(jìn)行多平臺信息的抓取和分析工作;
2、負(fù)責(zé)網(wǎng)頁信息和app數(shù)據(jù)抽取、清洗、消重等工作,提升平臺的抓取效率;
3、參與爬蟲核心算法和策略優(yōu)化,熟識采集系統(tǒng)的調(diào)度策略;
4、實(shí)時監(jiān)控爬蟲的進(jìn)度和警報反應(yīng)。
任職要求:
1、有扎實(shí)的算法和數(shù)據(jù)結(jié)構(gòu)力量;
2、熟識爬蟲原理,熟識常見的`反爬蟲技術(shù),有爬蟲相關(guān)工程開發(fā)經(jīng)驗(yàn)者優(yōu)先;
3、把握http協(xié)議,熟識html、dom、Xpath等常見的數(shù)據(jù)抽取技術(shù);
4、有大規(guī)模數(shù)據(jù)處理、數(shù)據(jù)挖掘、信息提取等經(jīng)驗(yàn)者優(yōu)先。
爬蟲崗位職責(zé)7
職責(zé)描述:
1、負(fù)責(zé)公司產(chǎn)品的`爬蟲架構(gòu)設(shè)計與開發(fā),以及爬蟲策略優(yōu)化等工作;
2、依據(jù)數(shù)據(jù)產(chǎn)品需求,負(fù)責(zé)對網(wǎng)頁等大規(guī)模文本數(shù)據(jù)抓取、清洗、存儲等設(shè)計開發(fā)工作;
任職要求:
1、計算機(jī)、數(shù)學(xué)或統(tǒng)計等相關(guān)專業(yè)本科及以上學(xué)歷,1年以上爬蟲相關(guān)工作經(jīng)驗(yàn);
2、熟識linuX平臺,嫻熟把握python或java爬蟲開發(fā)工作;
3、熟識靜態(tài)、動態(tài)網(wǎng)頁等大規(guī)模文本數(shù)據(jù)的高效信息抽取、清洗、存儲等技術(shù);
4、有反爬相關(guān)問題處理經(jīng)驗(yàn),精通常用的爬蟲技術(shù)及架構(gòu)設(shè)計,并能快速開發(fā)完成;
5、具備良好的編程習(xí)慣和算法基礎(chǔ);
6、擅長學(xué)習(xí),熱愛技術(shù)開發(fā),擅長團(tuán)隊(duì)協(xié)作,能主動主動地參與公司產(chǎn)品研發(fā)等相關(guān)工作。
爬蟲崗位職責(zé)8
職位描述:
1、負(fù)責(zé)廣告素材線索和垂直類產(chǎn)品爬蟲系統(tǒng)的設(shè)計、開發(fā)
2、抓取數(shù)據(jù)的`清洗、落地、分析
3、抓取策略算法的更新維護(hù),以及確保數(shù)據(jù)抽取精確、高效
任職要求:
1、具備強(qiáng)悍的編碼力量、扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和算法功底
2、熟識tcp,http協(xié)議原理;熟識ajaX工作原理;精通python編程,熟識一種開源爬蟲框架和源碼;
3、有爬蟲、信息抽取、文本分類、大數(shù)據(jù)處理相關(guān)經(jīng)驗(yàn)優(yōu)先
4、有自然語言處理、機(jī)器學(xué)習(xí)經(jīng)驗(yàn)優(yōu)先
爬蟲崗位職責(zé)9
崗位職責(zé)
1.熟識線程池、并發(fā)機(jī)制、鎖機(jī)制、線程安全原理;
2.java體系學(xué)問:網(wǎng)絡(luò)io、設(shè)計模式、linuX、jvm、java類加載機(jī)制、java內(nèi)存模型;
3.爬蟲經(jīng)驗(yàn):webmagic、adsl撥號、正則表達(dá)式、脫殼技術(shù)、加密、圖片破解、二維碼辨認(rèn)、滑塊驗(yàn)證碼破解、httpclient、分詞、分布式爬蟲調(diào)度、數(shù)據(jù)質(zhì)量監(jiān)控、代理ip調(diào)度算法、配置化爬蟲、授權(quán)爬蟲、輿情、應(yīng)用市場、反爬;
4.熟識http/http、tcp/ip、socket等通訊協(xié)議;
5.6年以上軟件開發(fā)經(jīng)驗(yàn),至少2年爬蟲開發(fā)經(jīng)驗(yàn)。
任職要求
1.采集、清洗、監(jiān)控、配置化、調(diào)度、反爬、數(shù)據(jù)爬取、分詞、檢索等數(shù)據(jù)采集研發(fā);
2.較強(qiáng)的規(guī)律思維和發(fā)散思維;
3.計算機(jī)或相關(guān)專業(yè)本科及以上學(xué)歷。
爬蟲崗位職責(zé)10
職位要求:
具備良好的計算機(jī)基礎(chǔ),熟識http協(xié)議,具備良好的基礎(chǔ)前端學(xué)問;
有過良好的高并發(fā)系統(tǒng)的后臺開發(fā)經(jīng)驗(yàn);
具備肯定的數(shù)據(jù)處理/分析經(jīng)驗(yàn),熟識hadoop、mapreduce、spark等并行計算框架;
了解小程序的基礎(chǔ)框架,有實(shí)際開發(fā)經(jīng)驗(yàn)更優(yōu);
把握c/c++、python等一門或多門語言,有nodejs開發(fā)經(jīng)驗(yàn)更優(yōu);
假如您還具備以下技能,我們會優(yōu)先考慮:
具備網(wǎng)絡(luò)爬蟲系統(tǒng)的開發(fā)經(jīng)驗(yàn),有反爬蟲實(shí)踐經(jīng)驗(yàn);
具備機(jī)器學(xué)習(xí)框架的`開發(fā)運(yùn)用經(jīng)驗(yàn);
熟識傳統(tǒng)搜尋引擎的seo規(guī)章。
爬蟲崗位職責(zé)11
工作內(nèi)容:
1、基礎(chǔ)系統(tǒng)架構(gòu)、模塊、庫和組件的研發(fā);
2、分布式海量數(shù)據(jù)存儲和分析系統(tǒng)的`研發(fā)和調(diào)優(yōu);
3、統(tǒng)計分析、報表、saas業(yè)務(wù)等系統(tǒng)研發(fā);
4、crm、財務(wù)結(jié)算、工作流等內(nèi)部管理系統(tǒng)的研發(fā)。
力量要求:
1、至少運(yùn)用php/java/python等一門以上語言,開發(fā)過不算太小的工程;
2、熟識數(shù)據(jù)結(jié)構(gòu)、db、os、web開發(fā)等相關(guān)學(xué)問,對linuX相關(guān)的各類技術(shù)情有獨(dú)鐘;
3、有大規(guī)模、高性能互聯(lián)網(wǎng)網(wǎng)站系統(tǒng)相關(guān)的設(shè)計和開發(fā)經(jīng)驗(yàn)者優(yōu)先;
4、具備良好的學(xué)習(xí)力量和成長潛力,渴望和團(tuán)隊(duì)一起快速成長。
爬蟲崗位職責(zé)12
職位描述:
負(fù)責(zé)設(shè)計和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)
應(yīng)用多種技術(shù)對各平臺進(jìn)行數(shù)據(jù)采集
設(shè)計數(shù)據(jù)采集策略,提升數(shù)據(jù)采集效率及質(zhì)量
與各行業(yè)分析師溝通,分析工程的可行性和商量抓取方案。
兩年以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東省外語藝術(shù)職業(yè)學(xué)院《高等代數(shù)綜合訓(xùn)練》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東輕工職業(yè)技術(shù)學(xué)院《高級英語Ⅲ》2023-2024學(xué)年第一學(xué)期期末試卷
- 【名師一號】2020-2021學(xué)年高中地湘教版選修6-雙基限時練14
- 【2021屆備考】2020全國名?;瘜W(xué)試題分類解析匯編:K單元-烴
- 【課堂設(shè)計】2014-2021學(xué)年高中生物拓展演練:4.1-種群的特征(人教版必修3)
- 【優(yōu)教通-備課參考】2020年高中物理教學(xué)設(shè)計:6.2《行星的運(yùn)動》1(人教版必修2)
- 2025年七年級統(tǒng)編版語文寒假預(yù)習(xí) 第05講 古代詩歌五首
- 【走向高考-2022】(新課標(biāo)版)高考語文一輪總復(fù)習(xí)專項(xiàng)訓(xùn)練-專題12-古代詩歌鑒賞-第5節(jié)
- 【KS5U原創(chuàng)】新課標(biāo)2021年高一地理暑假作業(yè)一
- 【優(yōu)化探究】2022屆高三物理一輪復(fù)習(xí)知能檢測:8-1電流、電阻、電功、電功率-
- 浙江省杭州市西湖區(qū)2023-2024學(xué)年六年級上學(xué)期期末科學(xué)試卷
- 《疼痛科特色診療》課件
- 軟件項(xiàng)目服務(wù)外包工作管理辦法
- 紅薯系列產(chǎn)品項(xiàng)目規(guī)劃設(shè)計方案
- 小兒肺炎支氣管鏡護(hù)理查房課件
- Part 6 Unit 8 Green Earth 教案-【中職專用】高一英語精研課堂(高教版2021·基礎(chǔ)模塊2)
- 我國地方政府債務(wù)風(fēng)險及其防范研究的開題報告
- 艾森克人格問卷(EPQ)(成人)
- 設(shè)備維護(hù)與故障排除項(xiàng)目風(fēng)險評估報告
- (新版)質(zhì)量知識競賽參考題庫400題(含各題型)
- 幼兒園小班語言《誰的耳朵》課件
評論
0/150
提交評論