




已閱讀5頁,還剩25頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
互聯(lián)網(wǎng)信息采集系統(tǒng)軍犬網(wǎng)絡(luò)信息采集系統(tǒng)用戶指南V5.0第一章:系統(tǒng)簡(jiǎn)介31.1軟件簡(jiǎn)介31.2 internet信息收集和挖掘31.3互聯(lián)網(wǎng)收集系統(tǒng)流程圖31.4系統(tǒng)應(yīng)用:41.5軟件功能41.6系統(tǒng)配置要求131.7系統(tǒng)性能13第二章:用戶指南142.1綜合設(shè)置142.1.1管理數(shù)據(jù)庫(kù)142.1.2管理表單142.1.3通道管理182.1.4管理模板192.2收集信息192.2.1站點(diǎn)默認(rèn)屬性192.2.2提交訪問數(shù)據(jù)202.2.3預(yù)覽站點(diǎn)鏈接212.2.4收集和過濾222.2.5尋呼模板222.2.6附件收集設(shè)置232.2.7自動(dòng)識(shí)別新聞232.2.8字段提取設(shè)置242.2.9字段后處理252.3站點(diǎn)管理252.3.1管理收集站點(diǎn)252.3.2掃描收集源252.3.3收集日志262.4信息管理262.4.1信息管理262.4.2附件管理272.4.3導(dǎo)入記錄272.4.4導(dǎo)出信息282.5消息發(fā)布28登錄到2.5.1發(fā)布服務(wù)器282.5.2獲取有關(guān)發(fā)布權(quán)限的信息292.5.3新發(fā)布表單發(fā)布映射292.5.4管理發(fā)布表單映射292.5.5發(fā)布通道映射管理30第一章:系統(tǒng)簡(jiǎn)介1.1軟件簡(jiǎn)介信息收集是利用計(jì)算機(jī)軟件技術(shù)對(duì)自定義目標(biāo)數(shù)據(jù)源進(jìn)行實(shí)時(shí)信息收集、提取、挖掘和處理,從而為各種信息服務(wù)系統(tǒng)提供數(shù)據(jù)輸入的整個(gè)過程。軍犬信息采集專家是一種基于人工智能的自動(dòng)學(xué)習(xí)技術(shù),它是一種強(qiáng)大、簡(jiǎn)單、實(shí)用的互聯(lián)網(wǎng)信息收集和監(jiān)控軟件。1.2 internet信息收集和挖掘收集和監(jiān)視internet上的特定目標(biāo)數(shù)據(jù)源或非特定目標(biāo)數(shù)據(jù)源,將信息的結(jié)構(gòu)化提取存儲(chǔ)為本地結(jié)構(gòu)化數(shù)據(jù)庫(kù),根據(jù)業(yè)務(wù)流程要求與其他模塊相結(jié)合,導(dǎo)入和應(yīng)用到電子行業(yè)平臺(tái)。internet數(shù)據(jù)收集和挖掘技術(shù)是指利用計(jì)算機(jī)軟件技術(shù)對(duì)自定義目標(biāo)數(shù)據(jù)源進(jìn)行實(shí)時(shí)信息收集、提取、挖掘、處理,以提供各種信息服務(wù)系統(tǒng)的數(shù)據(jù)輸入,并根據(jù)業(yè)務(wù)需要發(fā)布和分析數(shù)據(jù)的全過程。1.3互聯(lián)網(wǎng)收集系統(tǒng)流程圖第一步:確定收集操作。步驟2:每個(gè)收集作業(yè)都有多個(gè)目標(biāo)數(shù)據(jù)源。第三步:對(duì)不同的目標(biāo)數(shù)據(jù)源執(zhí)行不同的收集配置,以驗(yàn)證是否收集了數(shù)據(jù)。步驟4:調(diào)度收集作業(yè),更新目標(biāo)站點(diǎn)和同步,增量收集。步驟5:收集數(shù)據(jù)結(jié)果并完成異構(gòu)數(shù)據(jù)之間的流程。步驟6:發(fā)布服務(wù)器以將數(shù)據(jù)發(fā)布到應(yīng)用程序平臺(tái)。1.4系統(tǒng)應(yīng)用程序領(lǐng)域:1、搜索引擎和垂直搜索2、集成門戶和行業(yè)門戶3、電子政府和電子商務(wù)4、知識(shí)管理和知識(shí)共享5、企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)6、BI業(yè)務(wù)智能系統(tǒng)7、信息咨詢和信息增值8、信息安全和信息監(jiān)控1.5軟件功能(1),干凈智能的提取正文和圖形關(guān)聯(lián)圖:收集的目標(biāo)源圖:收集后的“干凈”正文結(jié)果(2)豐富的數(shù)據(jù)導(dǎo)出界面,允許將數(shù)據(jù)導(dǎo)出到各種關(guān)鍵關(guān)系數(shù)據(jù)結(jié)構(gòu)。(3),簡(jiǎn)單的配置對(duì)于新聞信息收集,輸入目標(biāo)網(wǎng)站的地址或標(biāo)題頁面地址,軟件將自動(dòng)學(xué)習(xí)網(wǎng)站的風(fēng)格,自動(dòng)提取網(wǎng)站上的信息,無需配置模板,目標(biāo)網(wǎng)站的風(fēng)格發(fā)生變化,軟件將自動(dòng)學(xué)習(xí)。維護(hù)人員只需進(jìn)行一些培訓(xùn),即可通過提供有關(guān)數(shù)據(jù)收集軟件的直觀站點(diǎn)配置向?qū)砼渲盟行畔⑹占?。?duì)于復(fù)雜的收集流程,可以通過一個(gè)收集卡腳本自動(dòng)收集和監(jiān)控信息。圖:輸入網(wǎng)址以完成配置任務(wù)圖:支持關(guān)鍵字收集,直接輸入關(guān)鍵字,在一個(gè)步驟中設(shè)置“關(guān)鍵字”輸入,完成配置任務(wù)(4)一獲得,就可以看到收獲。(圖:得到的就是得到的,得到的就是看到的(5),增量收集和自動(dòng)更新收集增量:軟件助手支持對(duì)原始收集目標(biāo)站點(diǎn)進(jìn)行完全收集。支持收集的站點(diǎn)的增量收集。自動(dòng)更新支持:自動(dòng)檢測(cè)站點(diǎn)是否發(fā)生了更新,并確保沒有遺漏任何重要信息。(6),收集結(jié)果自動(dòng)減肥不是利用簡(jiǎn)單的規(guī)則判斷,而是利用內(nèi)容的相似性進(jìn)行重復(fù)判斷,準(zhǔn)確性高,不會(huì)因標(biāo)題或內(nèi)容的一些變化而發(fā)生泄漏,即使修改標(biāo)題后,系統(tǒng)也能正確判斷。(7),內(nèi)置強(qiáng)大的信息監(jiān)控功能用一個(gè)關(guān)鍵詞可以廣域監(jiān)視網(wǎng)絡(luò)上某個(gè)網(wǎng)站的相關(guān)信息。您還可以設(shè)置監(jiān)視通道,以便所有站點(diǎn)監(jiān)視包含關(guān)鍵字的信息。對(duì)于數(shù)字字段,可以設(shè)置監(jiān)視錯(cuò)誤監(jiān)視數(shù)值在一定范圍內(nèi)顯示的信息。信息監(jiān)視已達(dá)到字段級(jí)別??勺屇O(shè)定所有收集目標(biāo)網(wǎng)站的監(jiān)督特性(秒)。更改的信息可以在短時(shí)間內(nèi)本地收集。圖:獨(dú)特的監(jiān)視功能,用于進(jìn)一步監(jiān)視和過濾收集的結(jié)果強(qiáng)大的站點(diǎn)管理工具可對(duì)所有收集對(duì)象執(zhí)行集中管理和各種操作圖:所有收集對(duì)象的集中管理和各種操作圖:根據(jù)需要自定義導(dǎo)航和分類圖:配置完整選項(xiàng)以提高收集性能圖:可以立即修改和編輯收集的結(jié)果(8),支持多種編碼支持來自各種網(wǎng)站的信息的編碼、GBK、BIG5、unicode、UTF8和軟件自動(dòng)轉(zhuǎn)換為GBK代碼,并進(jìn)行統(tǒng)一處理。軟件自動(dòng)識(shí)別站點(diǎn)的組織結(jié)構(gòu),并自動(dòng)識(shí)別站點(diǎn)的代碼。管理表單、根據(jù)需要自定義表單,以便輕松收集各種內(nèi)容,例如收集軟件的單獨(dú)表單、照片收集的圖片表單等。(9),信息導(dǎo)入按需要導(dǎo)出提供信息導(dǎo)入導(dǎo)出器,以便與其他軟件(如CRM OA)無縫連接軟件提供了強(qiáng)大的信息記錄導(dǎo)入導(dǎo)出功能,可以導(dǎo)入和導(dǎo)出所有通道、一條記錄??梢詫?dǎo)入(例如Excel/Access),或直接導(dǎo)航到指定的數(shù)據(jù)庫(kù)。與信息發(fā)布服務(wù)器一起使用時(shí),可以將信息發(fā)布到任何位置。(10),支持模板讀取任何類型的信息,軟件都會(huì)自動(dòng)創(chuàng)建讀取模板,以便快速讀取。所有信息任何信息表格都可以自定義美麗的閱讀模板,或在任何通道上設(shè)置不同的閱讀模板。(11),支持多頁內(nèi)容重組如果目標(biāo)數(shù)據(jù)源的文章在目標(biāo)網(wǎng)站上分頁顯示,系統(tǒng)可以自動(dòng)重新配置。軟件運(yùn)行可靠性高,收集速度快,系統(tǒng)資源占用少多次改造的軟件收集基本模塊穩(wěn)定、收集速度快、系統(tǒng)資源少??赏瑫r(shí)以多線程運(yùn)行,而不占用大量系統(tǒng)資源。采集速度快到了原地。軟件可以完全執(zhí)行無人值守的信息收集,而不會(huì)造成7*24小時(shí)的中斷。使用時(shí)體驗(yàn)更多詳細(xì)功能。(12),其他特性列表:1、支持多種語言:支持多種語言,包括簡(jiǎn)體中文、繁體中文、英語、日語、韓語支持多種站點(diǎn)類型,包括2、html和RSS3、登錄、驗(yàn)證后收集支持4、收集需要軟件支持登錄和授權(quán)碼的網(wǎng)站信息,完全模仿收集過程。5、附件收集支持收集照片附件、收集多媒體附件、收集音頻和視頻附件、自動(dòng)映射和關(guān)聯(lián)附件和正文6、完全結(jié)構(gòu)化提取將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)提取為特定的結(jié)構(gòu)化信息數(shù)據(jù)。web搜索以web頁面為最小單位,基于可視化的web塊分析以web頁面塊為最小單位,垂直搜索以結(jié)構(gòu)化數(shù)據(jù)為最小單位。然后,將該數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,以進(jìn)一步處理(例如,解碼、分類等)、最終分詞、索引和搜索方式滿足用戶的需要。在此過程中,數(shù)據(jù)從非結(jié)構(gòu)化數(shù)據(jù)提取為結(jié)構(gòu)化數(shù)據(jù),經(jīng)過深入加工,然后以非結(jié)構(gòu)化和結(jié)構(gòu)化的方式返回給用戶。7、數(shù)據(jù)存儲(chǔ)在本地,可以隨時(shí)查看信息。收集的信息自動(dòng)存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)中,因此您可以隨時(shí)查看信息。8、多行圖層,多任務(wù)9、批量數(shù)據(jù)收集支持10、軟件實(shí)用、易用、功能強(qiáng)大11、可移植、可擴(kuò)展、可自定義1.6系統(tǒng)配置要求需要WindowsNT4/Windows 2000 Server或更新的操作系統(tǒng)。需要Microsoft SQL Server 7/2000或其他ODBC界面硬件平臺(tái):英特爾至強(qiáng)1G或更高版本的CPU,1000M或更高RAM,40GM或更高硬盤空間1.7系統(tǒng)性能l支持多線程收集。l數(shù)據(jù)收集級(jí)別g或更高的單機(jī)。l數(shù)據(jù)和數(shù)據(jù)源同步更新小于10秒。l數(shù)據(jù)同步發(fā)布小于10秒。第二章:用戶指南2.1綜合設(shè)置2.1.1管理數(shù)據(jù)庫(kù)新建數(shù)據(jù)庫(kù)通過“系統(tǒng)(s)”主菜單下的“新建數(shù)據(jù)庫(kù)功能”菜單,您可以創(chuàng)建全新的信息收集和管理數(shù)據(jù)庫(kù)。默認(rèn)情況下,新數(shù)據(jù)庫(kù)會(huì)創(chuàng)建用于管理信息(如文章和新聞)的“新聞表格”,不能刪除此表格。創(chuàng)建新數(shù)據(jù)庫(kù)時(shí),建議將數(shù)據(jù)庫(kù)文件存儲(chǔ)在與操作系統(tǒng)不同的驅(qū)動(dòng)器上。這樣可以更安全地維護(hù)數(shù)據(jù)庫(kù)中的信息內(nèi)容。備份數(shù)據(jù)庫(kù)備份數(shù)據(jù)庫(kù)的功能允許您壓縮當(dāng)前使用的數(shù)據(jù)庫(kù),并將其備份到其他目錄。供將來使用。壓縮數(shù)據(jù)庫(kù)desktop的軟件版本使用Microsoft ACCESS數(shù)據(jù)庫(kù),因此刪除記錄時(shí)不會(huì)自動(dòng)釋放刪除記錄占用的空間。因此,必須定期壓縮當(dāng)前使用的數(shù)據(jù)庫(kù),以減少數(shù)據(jù)庫(kù)占用硬盤資源的空間。SQL Server版本軟件不需要使用壓縮數(shù)據(jù)庫(kù)的功能。軟件也屏蔽了此功能。2.1.2管理表單塑形的概念互聯(lián)網(wǎng)信息采編發(fā)系統(tǒng)中的表格與數(shù)據(jù)庫(kù)中的表格相同。通常,必須為每種信息類型創(chuàng)建一個(gè)存儲(chǔ)空間。不同之處在于,必須在每個(gè)表格中預(yù)設(shè)一些字段,以便統(tǒng)一管理數(shù)據(jù)庫(kù)中的所有表格記錄。通常,這些字段包含以下部分:顯示控制信息字段:密碼字段、字符顏色字段、字符背景顏色字段、圖標(biāo)字段顯示后續(xù)追蹤資訊欄位:資訊來源地址欄位通道信息字段:通道信息,監(jiān)視器通道信息填寫表格下面以創(chuàng)建圖書館管理表格為例,逐步說明如何創(chuàng)建自己的管理表格。在主菜單欄上,找到“工具”=“管理系統(tǒng)表單”菜單,然后單擊彈出菜單上的“新建表單”按鈕。在表單標(biāo)題編輯框中輸入“書籍表單”,然后在表單名稱編輯框中輸入“tblBookSheet”。注意:如果表單名稱或表單標(biāo)題為空,則無法成功生成表單。單擊“存儲(chǔ)”按鈕后,將顯示一條消息,說明您已成功填寫了名為“書表單”的表單,書表單下有三個(gè)字段:“記錄號(hào)”、“通道名”和“源文字地址”。這三個(gè)字段是軟件管理一個(gè)表格中的記錄之一所需的字段。不能刪除或更改名稱或?qū)傩?。記錄?hào)用于標(biāo)識(shí)表格中所有記錄的唯一id。通道名稱用于標(biāo)識(shí)記錄所屬的通道。源地址用于標(biāo)識(shí)信息來自哪里。表單標(biāo)題此字段用于輕松標(biāo)記表單。“必須輸入”,建議表單標(biāo)題在整個(gè)數(shù)據(jù)庫(kù)中是唯一的。表單名稱此字段用于在數(shù)據(jù)庫(kù)中創(chuàng)建表格的名稱,其值不能與數(shù)據(jù)庫(kù)中的其他表格名稱重復(fù)。“在數(shù)據(jù)庫(kù)中必須唯一”。字段值的長(zhǎng)度不能超過20個(gè)字符(40個(gè)字母字符),命名約定與Windows中的文件命名約定相同??梢允褂门c表單標(biāo)題相同的名稱,但建議使用tblXXXSheet作為命名規(guī)范。讀取模板此字段用于標(biāo)識(shí)表格的信息內(nèi)容讀取模板的路徑,可以是文件路徑名(如e : quick reader readt model tblbooksheet . html),也可以是網(wǎng)絡(luò)的路徑名(如33636363http:/www . xww . xbooksheet . html)也可以是相對(duì)路徑,例如: ready model TBL booksheet . html(如果在: c programname files collection software quick reader中安裝程序,則此相對(duì)路徑為c program name如果沒有該表格的讀取模板,則可以不在“讀取模板”字段中輸入值。上次創(chuàng)建此表格中的所有字段后,使用軟件提供的“創(chuàng)建模板”創(chuàng)建這些字段。添加字段例如,假定您要填寫圖書信息管理表格,則管理圖表需要以下字段:字段標(biāo)題字段名稱說明屬性書名fldBookName用于存儲(chǔ)書的名稱字符型、長(zhǎng)度40、Jacky和主題密鑰作者fldBookAuthor書作者字符類型,長(zhǎng)度30購(gòu)買日期您可以使用fldPurchaseDate控制或統(tǒng)計(jì)日期類型圖書價(jià)格fldBookPrice價(jià)格浮點(diǎn)類型借款人fldUserName當(dāng)前貸款用戶名文字,長(zhǎng)度40貸款日期fldBrowDate貸款日期類型圖書簡(jiǎn)介fldBookMemo該書的說明注釋類型如果選擇了剛剛創(chuàng)建的“書籍表格”,然后單擊“新字段”按鈕,節(jié)點(diǎn)將添加到“書籍表格”下,編輯框中將預(yù)輸入“新字段”,您可以輸入字段標(biāo)題,也可以在列表的“字段標(biāo)題”下輸入。現(xiàn)在,在“編輯節(jié)點(diǎn)”中輸入書本名稱,然后單擊列表中的字段名,在編輯框中輸入fldBookName。選擇“文字”作為字段類型,選擇“長(zhǎng)度=40”,選擇“設(shè)置Jackie=是,允許空值”作為“否”。單擊“保存”按鈕。如果沒有任何錯(cuò)誤,就是說系統(tǒng)成功地在圖書表格中添加了圖書名稱字段。根據(jù)這個(gè)圖書館里的需求樣式,可以完成圖書表格的制作。表格中的每個(gè)屬性將在下面詳細(xì)介紹。字段標(biāo)題此字段用于顯式標(biāo)記字段的名稱,在同一表格中字段名不能重復(fù)。最大長(zhǎng)度不能超過50字節(jié)。字段名稱此字段用于在表單中隱式顯示字段名,同一表單中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆昌吉市教育共同體2025年中考模擬最后十套:生物試題(八)考前提分仿真卷含解析
- 2025年中國(guó)機(jī)箱前面板數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025-2030年中國(guó)二手汽車行業(yè)風(fēng)險(xiǎn)評(píng)估及市場(chǎng)運(yùn)行形勢(shì)預(yù)測(cè)研究報(bào)告
- 2025年中國(guó)木塑柄雙夾油灰刀數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 2025年中國(guó)木制托板數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 2025年中國(guó)方型氣壓夾盤市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國(guó)數(shù)據(jù)采集處理信息系統(tǒng)數(shù)據(jù)監(jiān)測(cè)報(bào)告
- 2025-2030年中國(guó)二氧化碳行業(yè)發(fā)展前景及投資戰(zhàn)略規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)不銹鋼絲市場(chǎng)現(xiàn)狀分析及投資可行性預(yù)測(cè)報(bào)告
- 肇慶市實(shí)驗(yàn)中學(xué)高中生物三:免疫調(diào)節(jié)導(dǎo)學(xué)案(第課時(shí))
- 鑰匙移交清單
- DB11-T211-2017園林綠化用植物材料木本苗
- 豬肉品質(zhì)及其營(yíng)養(yǎng)調(diào)控
- 關(guān)于完善和落實(shí)罪犯互監(jiān)制度的思考
- 四川大學(xué)-劉龍飛-畢業(yè)答辯PPT模板
- GB∕T 40501-2021 輕型汽車操縱穩(wěn)定性試驗(yàn)通用條件
- 認(rèn)識(shí)浮力+阿基米德原理
- 防止電力生產(chǎn)重大事故地二十五項(xiàng)反措
- 蘇教版五年級(jí)數(shù)學(xué)下冊(cè)第三單元測(cè)試題及答案一
- 變電站第二種工作票(范本)
- 抗滑樁設(shè)計(jì)計(jì)算(驗(yàn)算)Word版
評(píng)論
0/150
提交評(píng)論