大數(shù)據(jù)分析系統(tǒng)需求_第1頁
大數(shù)據(jù)分析系統(tǒng)需求_第2頁
大數(shù)據(jù)分析系統(tǒng)需求_第3頁
大數(shù)據(jù)分析系統(tǒng)需求_第4頁
大數(shù)據(jù)分析系統(tǒng)需求_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析系統(tǒng)需求天津紹聞迪康科技咨詢有限公司2018/5/28僅為需求基本框架,需要根據(jù)貴公司產(chǎn)品、技術(shù)路線具體面議。目錄一、系統(tǒng)定位 2二、功能模塊 32.1爬蟲系統(tǒng) 32.1.1數(shù)據(jù)源 32.1.2爬蟲系統(tǒng)功能 32.2數(shù)據(jù)處理、存儲(chǔ)、計(jì)算系統(tǒng) 42.2.1數(shù)據(jù)處理模塊 42.2.2數(shù)據(jù)存儲(chǔ)模塊 42.2.3數(shù)據(jù)計(jì)算模塊 52.3數(shù)據(jù)分析、可視化系統(tǒng) 92.4對(duì)外接口 102.4.1會(huì)員制體系 102.4.2其他 102.5其他 112.5.1數(shù)據(jù)痕跡 112.5.2信息安全 112.5.3注意事項(xiàng) 111、系統(tǒng)定位從數(shù)據(jù)接入到數(shù)據(jù)應(yīng)用,我們需要【大數(shù)據(jù)分析系統(tǒng)】包括幾大功能模塊:(1)爬蟲系統(tǒng)(2)數(shù)據(jù)處理、存儲(chǔ)、計(jì)算系統(tǒng)(3)數(shù)據(jù)人工智能分析、可視化系統(tǒng)(4)外部接口其中第(3)模塊是核心,需要結(jié)合我們公司業(yè)務(wù)方向建設(shè)相關(guān)的數(shù)學(xué)模型,進(jìn)行人工智能的自動(dòng)分析。爬蟲系統(tǒng)可以從指定網(wǎng)站自動(dòng)的進(jìn)行信息的抓取,對(duì)數(shù)據(jù)庫中的已有詞條進(jìn)行更新或新建,或者從全站按照關(guān)鍵詞抓取信息,更新數(shù)據(jù)庫中詞條,爬蟲搜集到的數(shù)據(jù)也需要存儲(chǔ)到系統(tǒng)中。數(shù)據(jù)庫系統(tǒng)可以將公司現(xiàn)有資料分庫錄入系統(tǒng),生成詞條,詞條之間相互關(guān)聯(lián),可以實(shí)現(xiàn)跳轉(zhuǎn),可視化查看;存儲(chǔ)爬蟲得到的數(shù)據(jù)。數(shù)據(jù)庫中的詞條或者數(shù)據(jù)源大多是國外的,例如美國,日本等,涉及到的人物或者其它詞條會(huì)有多種語言的表達(dá)。系統(tǒng)可以結(jié)合爬蟲的數(shù)據(jù)、庫中本來的數(shù)據(jù)按照一定內(nèi)容生成詞條自身的時(shí)間軸,多庫之間詞條的的關(guān)系圖。系統(tǒng)需要與外部互聯(lián)的接口,包括微信平臺(tái),天蝎系統(tǒng),郵件營銷平臺(tái),調(diào)查問卷分析平臺(tái)。2、功能模塊2.1爬蟲系統(tǒng)2.1.1數(shù)據(jù)源網(wǎng)站,可能是信息變化不大的靜態(tài)網(wǎng)站,也可能是信息在實(shí)時(shí)更新的動(dòng)態(tài)網(wǎng)站,例如博客或者論壇。網(wǎng)站庫不定時(shí)更新。數(shù)據(jù)庫,需要模擬登陸,從一些數(shù)據(jù)庫中抓取數(shù)據(jù),例如論文或者專利數(shù)據(jù)庫等,可能是從國內(nèi)或者國外的數(shù)據(jù)庫網(wǎng)站中。自媒體,例如Facebook,twitter等,需要從中抓取一些個(gè)人信息,例如一個(gè)人的郵箱,可能需要與公司已有的天蝎系統(tǒng)結(jié)合,從天蝎系統(tǒng)已經(jīng)分析出的個(gè)人信息Excel中抓取所需信息。(可具體商議)2.1.2爬蟲系統(tǒng)功能爬蟲系統(tǒng)需要從指定數(shù)據(jù)源網(wǎng)站中實(shí)時(shí)抓取信息,通過實(shí)體抽取,和數(shù)據(jù)庫中的詞條進(jìn)行關(guān)聯(lián),自動(dòng)更新數(shù)據(jù)庫中已有的詞條??梢栽O(shè)定關(guān)鍵詞,從全站以及所有數(shù)據(jù)源中抓取信息,進(jìn)行數(shù)據(jù)處理后,按照詞條準(zhǔn)確匹配,存入數(shù)據(jù)庫;可以按照用戶指定的關(guān)鍵詞在指定的網(wǎng)站中抓取信息,生成結(jié)果。爬蟲得到的信息生成的報(bào)告等可以進(jìn)行導(dǎo)出。數(shù)據(jù)處理在更新或增加詞條時(shí)需要將抓取到的信息與詞條中的屬性進(jìn)行匹配,將對(duì)應(yīng)的信息錄入??梢允菍?shí)時(shí)更新,自動(dòng)匹配更新;可以是非實(shí)時(shí)的,有一定的人工干預(yù)。由于庫中數(shù)據(jù)有一大部分是國外的,有一些屬性的顯示方式并不唯一,需要有一定的匹配規(guī)則。2.2數(shù)據(jù)處理、存儲(chǔ)、計(jì)算系統(tǒng)2.2.1數(shù)據(jù)處理模塊系統(tǒng)需要可以對(duì)導(dǎo)入系統(tǒng)的文檔等數(shù)據(jù)和爬蟲得到的數(shù)據(jù)進(jìn)行數(shù)據(jù)的預(yù)處理,進(jìn)行分詞切詞,實(shí)體抽取(可能為中英日文)。需要可以自動(dòng)增加新詞條,對(duì)比現(xiàn)有詞條實(shí)現(xiàn)詞條的實(shí)時(shí)更新;或者也可以非實(shí)時(shí)更新可以有一定的人工干預(yù),進(jìn)行詞條的半自動(dòng)化增長。處理過程需要考慮處理的規(guī)則和詞條匹配的規(guī)則。 2.2.2數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)分為幾部分:結(jié)構(gòu)化數(shù)據(jù)分詞條存儲(chǔ)在數(shù)據(jù)庫中,詞條分為:調(diào)研人物庫,專家?guī)欤撐膸?,專利庫,領(lǐng)域庫,專題庫,快訊庫。還需要存儲(chǔ)詞條的一些非業(yè)務(wù)屬性:詞條的負(fù)責(zé)人,參與人,時(shí)間周期,存儲(chǔ)詞條本身的時(shí)間軸,上傳的聯(lián)系痕跡等。非結(jié)構(gòu)化存儲(chǔ)爬蟲來的網(wǎng)頁,文檔(PDF、Word、Excel、PPT、圖片、視頻)圖片,視頻。2.2.3數(shù)據(jù)計(jì)算模塊數(shù)據(jù)庫系統(tǒng)含有以下詞條庫:(1)調(diào)研人物庫:生成人物簡歷,信息包括:照片,姓名?;拘畔ⅲ簡挝唬Z言,國別,生日,所在地,曾住地。聯(lián)系方式:電話傳真郵箱即時(shí)通訊方式教育經(jīng)歷:時(shí)間學(xué)習(xí)單位專業(yè)學(xué)歷/學(xué)位工作經(jīng)歷:時(shí)間工作單位職位備注官方網(wǎng)站:官方人物數(shù)據(jù)庫社會(huì)人物數(shù)據(jù)庫學(xué)術(shù)情況:研究領(lǐng)域論文情況:包括引用次數(shù)的表格和具體論文。專利情況編寫書籍參與會(huì)議表格所受獎(jiǎng)勵(lì)表格合作項(xiàng)目:次數(shù)跨度涉及單位具體合作事件社會(huì)活動(dòng):媒體采訪政治活動(dòng)來華交流國內(nèi)外自媒體:在國外社交網(wǎng)站上的交友列表人脈關(guān)系:總結(jié)(共多少人等)姓名、職位的表格家庭情況調(diào)研總結(jié)及合作建議:調(diào)研總結(jié)合作建議原始信息來源網(wǎng)站原始文檔(2)專家?guī)欤荷蓪<液啔v,包括:照片,姓名基本信息:國籍出生年月出生地語言種族聯(lián)系方式:電話郵箱教育情況工作情況合作情況所屬學(xué)會(huì)、協(xié)會(huì)或團(tuán)體其他信息:研究領(lǐng)域獲獎(jiǎng)?lì)^銜原始文檔(3)領(lǐng)域庫:有一定的分類,信息包括:從事研究相關(guān)領(lǐng)域的人員信息:包括姓名,所在地,畢業(yè)院校,單位等從事相關(guān)行業(yè)的公司、機(jī)構(gòu)信息:分國別進(jìn)行公司介紹包括:名稱,類型,地址,聯(lián)系方式等本領(lǐng)域的研究成果等領(lǐng)域相關(guān)的會(huì)議,事件等信息:會(huì)議舉辦時(shí)間,主要參與人員,地點(diǎn),名稱。領(lǐng)域相關(guān)論文資料:論文名稱,發(fā)表日期,作者等。領(lǐng)域相關(guān):專題報(bào)告,名稱,原始文件(4)專利庫:信息包括:專利名稱專利申請時(shí)間,國別專利相關(guān)領(lǐng)域,專利涉及單位或?qū)W校專利涉及人員論文庫:信息包括:論文題目,作者,國別所屬領(lǐng)域發(fā)表時(shí)間論文原文專題庫:將之前寫過的專題報(bào)告做整理,信息包括:題目,提交時(shí)間,具體報(bào)告:可以查看??煊崕欤褐皩戇^的快訊導(dǎo)入,或者手動(dòng)添加,內(nèi)容為:快訊標(biāo)題,添加時(shí)間,領(lǐng)域,具體內(nèi)容,原始文檔。系統(tǒng)本身包含以上幾種詞條庫,庫中數(shù)據(jù)實(shí)現(xiàn)可視化查看:1)以上數(shù)據(jù)首先需要從公司已有的文檔中導(dǎo)入,自動(dòng)匹配詞條的屬性,生成詞條的可視化列表,其中詞條的每一個(gè)屬性作為一個(gè)標(biāo)簽,用戶可以自己勾選需要的屬性,自定義在頁面中顯示。2)需要針對(duì)不同的國別對(duì)詞條設(shè)置待遇、晉升機(jī)制的參考值:針對(duì)不同國家公務(wù)員,科研機(jī)構(gòu),高等院校有不同的待遇參考標(biāo)準(zhǔn),需要在錄入詞條時(shí)能夠人工選擇,可以進(jìn)行可視化對(duì)比。3)庫中數(shù)據(jù)可以進(jìn)行導(dǎo)入導(dǎo)出。4)數(shù)據(jù)庫中每一個(gè)詞條都要有相應(yīng)的負(fù)責(zé)人,參與人,每一個(gè)詞條都要有相應(yīng)的創(chuàng)建更新時(shí)間和修改、更新瀏覽痕跡以及修改內(nèi)容。對(duì)于一些詞條,員工可以上傳關(guān)于此詞條的聯(lián)系痕跡,比如,專家?guī)熘校瑔T工可以上傳一些和這個(gè)專家的聯(lián)系記錄。系統(tǒng)可以統(tǒng)計(jì)每個(gè)員工使用了多少詞條,進(jìn)行可視化查看。系統(tǒng)中的存儲(chǔ)數(shù)據(jù)主要包括結(jié)構(gòu)化數(shù)據(jù):詞條數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù):爬蟲系統(tǒng)爬取的或者第三方導(dǎo)入的網(wǎng)頁、文檔(PDF、Word、Excel、PPT、圖片、視頻)等。2.3數(shù)據(jù)分析、可視化系統(tǒng)系統(tǒng)需要能夠進(jìn)行關(guān)聯(lián)分析,生成可視化列表,主要功能為:1.庫中結(jié)構(gòu)化數(shù)據(jù)本身要進(jìn)行關(guān)聯(lián)分析,不同庫中的詞條會(huì)有屬性能夠進(jìn)行相互關(guān)聯(lián),點(diǎn)擊一個(gè)庫中某一詞條的相關(guān)屬性可以進(jìn)行跳轉(zhuǎn)到另一庫中的相關(guān)詞條中。

2.可以根據(jù)一個(gè)關(guān)鍵詞,從已有數(shù)據(jù)庫全部詞條庫、庫中存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)(爬蟲數(shù)據(jù)等)中提取出來,形成關(guān)系圖。如人物關(guān)系圖或者機(jī)構(gòu)關(guān)系圖。若是輸入人物希望包含人物的人際關(guān)系圖,排出交友情況,公司,領(lǐng)域,會(huì)議,研究等相關(guān)信息,交友情況要根據(jù)人物共同出現(xiàn)的次數(shù)排序。若是輸入公司或者機(jī)構(gòu)可以查看公司地點(diǎn),國家,類型,建立日期公司或機(jī)構(gòu)的人員,分支機(jī)構(gòu)等基本情況。若輸入會(huì)議名稱可以看到會(huì)議舉辦方,舉辦地點(diǎn),主題,涉及領(lǐng)域,參會(huì)人員等。若輸入領(lǐng)域可以查看領(lǐng)域相關(guān)的科研人員,領(lǐng)域得到研究成果,相關(guān)論文,研究機(jī)構(gòu)等。關(guān)聯(lián)需要可以查看到信息來源。3.進(jìn)行多維度分析,例如人物庫中,可以生成一個(gè)人的時(shí)間軸,記錄這個(gè)人的主要事件。可以生成這個(gè)人的興趣愛好圖,家人關(guān)系圖等。行業(yè)技術(shù)機(jī)構(gòu)庫中可以生成主要事件的時(shí)間軸等。4.輸入兩個(gè)關(guān)鍵詞可以生成這兩側(cè)關(guān)鍵詞之間的關(guān)系圖,可以顯示出多層關(guān)聯(lián),可以查看每層關(guān)聯(lián)的證據(jù)。5.可以對(duì)同一庫中數(shù)據(jù)進(jìn)行模糊查詢,全文檢索,或者按屬性條件進(jìn)行各種組合的篩選查詢。6.可以實(shí)現(xiàn)2-3同庫詞條的的對(duì)比,可視化展示出來。2.4對(duì)外接口2.4.1會(huì)員制體系與微信開發(fā)對(duì)接,實(shí)現(xiàn)推送消息半自動(dòng)化導(dǎo)入,系統(tǒng)數(shù)據(jù)庫可以作為一項(xiàng)客戶服務(wù)對(duì)用戶有權(quán)限開放。1.與公司已有的會(huì)員制微信體系的對(duì)接,系統(tǒng)后期作為客戶可以使用的數(shù)據(jù)庫商品,作為一項(xiàng)客戶服務(wù)對(duì)用戶有權(quán)限開放:需要可以把控客戶的使用權(quán)限,讓客戶可以自動(dòng)化便捷的使用數(shù)據(jù)庫服務(wù)。2.實(shí)現(xiàn)推送消息半自動(dòng)化導(dǎo)入,能夠?qū)⑾到y(tǒng)抓取的數(shù)據(jù)導(dǎo)出,可以人工的方式導(dǎo)入,進(jìn)行微信的推送。2.4.2其他可能與公司已有天蝎系統(tǒng)對(duì)接,實(shí)現(xiàn)一定格式的文檔的導(dǎo)入作為爬蟲系統(tǒng)的數(shù)據(jù)源??赡芘c外部郵件營銷系統(tǒng)對(duì)接,記錄員工發(fā)送郵件地址,記錄等??赡芘c調(diào)查問卷分析平臺(tái)對(duì)接,將調(diào)查問卷的分析結(jié)果導(dǎo)入等。2.5其他2.5.1數(shù)據(jù)痕跡系統(tǒng)要有內(nèi)部行為記錄,可以查看:員工修改記錄:查看修改詞條痕跡以及具體的修改內(nèi)容,員工使用記錄;有外部行為記錄:記錄客戶的查看信息,記錄用戶行為,可以對(duì)客戶行為進(jìn)行一定的分析。2.5.2信息安全1.系統(tǒng)需要注重系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論