科技政策庫的系統(tǒng)集成與建設(shè)

上傳人：s*** IP屬地：天津上傳時間：2023-01-01 格式：DOCX 頁數(shù)：11 大小：25.37KB 積分：18 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

科技庫的系統(tǒng)集成與建設(shè)WUHong;YANGBao-Long;DUZhi-Gao;LIHan-Lu【摘要】為了滿足科技政策研究需要，中國科協(xié)設(shè)計并實現(xiàn)了一種科技政策庫系統(tǒng).本文首先介紹了科技政策庫的總體設(shè)計方案、系統(tǒng)工作流程;然后詳細(xì)介紹了系統(tǒng)組成,整個系統(tǒng)由數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)清洗子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)3個子系統(tǒng)組成.數(shù)據(jù)采集子系統(tǒng)基于網(wǎng)絡(luò)爬蟲框架Scrapy軟件針對大量異構(gòu)站點設(shè)計了可管理的網(wǎng)絡(luò)爬蟲，并基于ABBYYFineReader軟件（俄羅斯軟件公司ABBYY發(fā)行的一款文檔識別軟件）實現(xiàn)了歷史文獻OCR識別（OpticalCharacterRecognition,光學(xué)字符識別）和入庫.數(shù)據(jù)清洗子系統(tǒng)基于機器學(xué)習(xí)算法實現(xiàn)了數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等功能.數(shù)據(jù)分析子系統(tǒng)則對有效入庫的科技政策進一步進行了文本分類、關(guān)聯(lián)關(guān)系分析、全文檢索.從2018年10月上線以來，該系統(tǒng)從226個數(shù)據(jù)源采集564749條數(shù)據(jù)，經(jīng)過數(shù)據(jù)清洗之后入庫404083條數(shù)據(jù)，能夠有力地支撐科技政策研究工作.【期刊名稱】《計算機系統(tǒng)應(yīng)用》【年（卷），期】2019（028）007【總頁數(shù)】7頁（P58-64）【關(guān)鍵詞】科技政策庫;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)清洗;機器學(xué)習(xí);自然語言處理【作者】WUHong;YANGBao-Long;DUZhi-Gao;LIHan-Lu【作者單位】【正文語種】中文科技政策是國家為實現(xiàn)一定歷史時期的科技任務(wù)而規(guī)定的基本行動準(zhǔn)則，是確定科技事業(yè)發(fā)展方向，指導(dǎo)整個科技事業(yè)的戰(zhàn)略和策略原則.科技政策是否高效合理，對科學(xué)技術(shù)能否快速發(fā)展具有重要的影響.為了提升科技政策制定過程的系統(tǒng)性和科學(xué)性2005年美國提出了〃科學(xué)政策學(xué)”(ScienceofSciencePolicy,SoSP)，把科技政策研究作為一門“科學(xué)”[1],并將SoSP作為建立美國政府〃基于證據(jù)的決策系統(tǒng)”的重要舉措[2].2008年國家科學(xué)技術(shù)委員會(NSTC)和白宮科技政策辦公室(OSTP)聯(lián)合發(fā)布了《科技政策學(xué):聯(lián)邦研究路線圖》，指導(dǎo)國家科技政策學(xué)的發(fā)展[3].2009年日本科學(xué)技術(shù)振興機構(gòu)(JST)在日本發(fā)起科技政策學(xué)的研究與梳理工作,加強日本科技政策的證據(jù)基礎(chǔ)，推進科技政策科學(xué)的發(fā)展[4].2010年,歐盟與美國聯(lián)合舉辦了歐美科技政策學(xué)討論會，以推進歐洲科技政策學(xué)的規(guī)范化研究[5].自此，世界科技政策研究邁入了科技政策科學(xué)的新階段[6],并形成了大量高水平的研究成果.近年來，科技政策研究在國內(nèi)也得到了越來越多的關(guān)注[7,8].作為科技政策研究的主體，國內(nèi)外的歷史科技政策種類繁多、數(shù)量龐大，近些年的歷史政策散落在互聯(lián)網(wǎng)各處,2000年以前的歷史政策則一般只有紙版文檔,這些政策文獻很難得到有效的收集整理,對科技政策研究帶來了不便和障礙.隨著網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展,利用信息技術(shù)從互聯(lián)網(wǎng)收集歷史科技政策文獻成為了可能；而自然語言處理、大數(shù)據(jù)、機器學(xué)習(xí)等技術(shù)的發(fā)展,則為科技政策研究提供了新的技術(shù)手段[9].部分科技政策研究單位已經(jīng)開始收錄和整理科技政策文獻，但是這項研究整體上仍然處于起步階段.部分現(xiàn)有科技政策數(shù)據(jù)庫僅采集國內(nèi)政策，缺乏對國際先進經(jīng)驗的整理；或者僅限于科技政策收集，對政策解讀、領(lǐng)導(dǎo)講話、政策研究等相關(guān)文獻缺乏關(guān)注；還有部分政策庫采集了政府部門制定的所有政策，對科技政策研究而言針對性不強.另外，現(xiàn)有科技政策庫建設(shè)的關(guān)注焦點仍集中在數(shù)據(jù)采集方面,對數(shù)據(jù)清洗,以及統(tǒng)計分析等研究支持能力缺乏深入研究.本文基于Scrapy爬蟲框架［10］設(shè)計和實現(xiàn)了可管理的網(wǎng)絡(luò)爬蟲，從225個互聯(lián)網(wǎng)站點采集國內(nèi)外科技政策文獻；并進一步對原始政策數(shù)據(jù)進行結(jié)構(gòu)化信息提取、數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗等數(shù)據(jù)清洗操作，構(gòu)建了完整和統(tǒng)一的科技政策庫；在政策庫的基礎(chǔ)上實現(xiàn)文本分類、關(guān)聯(lián)分析、全文檢索、統(tǒng)計分析功能,為科技政策的研究與制定提供了參考和依據(jù).1系統(tǒng)總體設(shè)計方案1.1系統(tǒng)功能目標(biāo)面向225個國內(nèi)國外、結(jié)構(gòu)不一、安全策略各異的互聯(lián)網(wǎng)站點,設(shè)計可配置、可管理的網(wǎng)絡(luò)爬蟲，采集科技政策相關(guān)的數(shù)據(jù)，實現(xiàn)數(shù)據(jù)的增量更新.利用OCR技術(shù)識別歷史文獻圖書，提取文獻的結(jié)構(gòu)化信息，實現(xiàn)歷史文獻的批量入庫.采用機器學(xué)習(xí)、自然語言處理等技術(shù)，對從互聯(lián)網(wǎng)采集的56萬條科技政策相關(guān)網(wǎng)頁進行數(shù)據(jù)清洗,通過數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等一系列操作,去除噪音數(shù)據(jù)，提升數(shù)據(jù)質(zhì)量.在數(shù)據(jù)清洗基礎(chǔ)上實現(xiàn)科技政策庫文獻的分類、關(guān)聯(lián)關(guān)系分析、全文索引，并向用戶提供文獻檢索、查閱和下載功能；針對有效入庫的文獻實現(xiàn)時域分析、地域分析等功能.1.2系統(tǒng)流程設(shè)計科技政策庫系統(tǒng)通過網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)上的政策數(shù)據(jù),對紙版歷史文獻進行OCR識別；這兩類原始數(shù)據(jù)在采集之后被寫入消息隊列；數(shù)據(jù)清洗子系統(tǒng)作為消息隊列消費者，對原始數(shù)據(jù)進行數(shù)據(jù)清洗，并將有效數(shù)據(jù)寫入文獻存儲子系統(tǒng)；數(shù)據(jù)分析子系統(tǒng)則對文獻存儲子系統(tǒng)內(nèi)的文獻進行全文索引、文本分類、關(guān)聯(lián)分析，并向管理員和研究人員提供文獻檢索、查閱、下載、統(tǒng)計分析接口.系統(tǒng)的具體流程見圖1.數(shù)據(jù)采集子系統(tǒng)包括網(wǎng)絡(luò)爬蟲、增量爬取調(diào)度器、數(shù)據(jù)屬性識別、爬蟲配置、爬蟲異常管理等組件.對225個國內(nèi)外站點按照網(wǎng)站結(jié)構(gòu)、安全策略等特點進行分類，基于Scrapy爬蟲框架設(shè)計一系列爬蟲，每個爬蟲負(fù)責(zé)一類站點的數(shù)據(jù)采集.OCR子系統(tǒng)基于ABBYYFineReader軟件實現(xiàn)歷史文獻的電子化，并進一步提取電子文獻的結(jié)構(gòu)化數(shù)據(jù)，批量導(dǎo)入消息隊列.采用Redis軟件實現(xiàn)消息隊列.本系統(tǒng)采集的文獻可以分為核心政策、領(lǐng)導(dǎo)講話、政策解讀、科技政策相關(guān)新聞、科技政策研究論文、科技政策研究項目等10類.不同類型文獻的數(shù)據(jù)屬性存在較大差異，通常來自同一站點欄目或者搜索結(jié)果列表的文獻結(jié)構(gòu)化信息類似.因此，基于文獻來源在消息隊列中劃分消息主題,同一消息主題下的文獻具有相同的數(shù)據(jù)結(jié)構(gòu).⑷數(shù)據(jù)清洗子系統(tǒng)包括數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等組件，清除原始數(shù)據(jù)中的臟數(shù)據(jù).文獻存儲子系統(tǒng)包括:Mysql數(shù)據(jù)庫，存儲文獻的數(shù)據(jù)屬性信息；文件系統(tǒng)，存儲原始html、txt、pdf、doc等各種格式的政策文本；Solr,存儲文本和部分結(jié)構(gòu)化信息，實現(xiàn)全文索引.圖1系統(tǒng)流程示意圖數(shù)據(jù)分析子系統(tǒng)包括文本分類，文本關(guān)聯(lián)關(guān)系分析，文獻檢索、查閱、下載，文獻統(tǒng)計分析等組件.⑺系統(tǒng)包括管理員和研究人員兩類用戶,管理員具有爬蟲配置、異常處理、文獻增刪改查等系統(tǒng)管理權(quán)限,研究人員則可以從系統(tǒng)檢索、查閱、下載文獻，進行文獻的統(tǒng)計分析和結(jié)果可視化查看.2系統(tǒng)組成2.1數(shù)據(jù)采集子系統(tǒng)科技政策庫系統(tǒng)的采集源共225個站點，其中中央政府和部委站點80個，地方政府站點50個，第三方門戶和垂直資訊站點9個，政策研究機構(gòu)站點13個，美國政府站點18個，印度政府站點48個，芬蘭政府站點7個.由于源站點范圍廣、種類多，數(shù)據(jù)采集子系統(tǒng)的設(shè)計面臨諸多挑戰(zhàn).首先，這些網(wǎng)站的結(jié)構(gòu)差異明顯，部分站點科技政策相關(guān)的數(shù)據(jù)集中在某個欄目，其他站點則需要通過檢索接口查詢獲?。桓髡军c的政策列表頁面翻頁機制不盡相同；部分站點的內(nèi)容由Javascript代碼動態(tài)生成.其次，各站點的政策列表和政策詳情網(wǎng)頁結(jié)構(gòu)差異較大，無法開發(fā)一致的數(shù)據(jù)屬性識別策略.最后，各站點的數(shù)據(jù)保護策略不盡相同，常見的策略包括監(jiān)控訪問頻度、賬號認(rèn)證、動態(tài)URL(UniformResourceLocator)等.2.1.1基于Scrapy框架的爬蟲設(shè)計本文基于Scrapy框架和Splash實現(xiàn)網(wǎng)絡(luò)爬蟲.Scrapy是Python開發(fā)的一個快速Web抓取框架，用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù).Scrapy是目前廣泛應(yīng)用的爬蟲框架，非常適合特定站點和欄目的定向爬取.Splash是一個實現(xiàn)了HTTPAPI的輕量級瀏覽器，支持Javascript渲染Scrapy框架通過Scrapy-Splash模塊引入Splash軟件，彌補了Scrapy無法抓取網(wǎng)頁動態(tài)內(nèi)容的缺陷.根據(jù)網(wǎng)站結(jié)構(gòu)和網(wǎng)頁結(jié)構(gòu)對源站點進行分組，比如大部分部委的網(wǎng)站結(jié)構(gòu)相似，可以分成一個組.針對每組站點設(shè)計單獨的爬蟲,實現(xiàn)站點數(shù)據(jù)的爬取和結(jié)構(gòu)化信息提取.2.1.2基于XPath的數(shù)據(jù)屬性識別本文基于XPath實現(xiàn)網(wǎng)頁的數(shù)據(jù)屬性識別.XPath使用路徑表達式來選取XML文檔中的節(jié)點或者節(jié)點集，由于HTML和XML結(jié)構(gòu)基本一致，因此XPath非常適合從網(wǎng)頁中提取結(jié)構(gòu)化信息.例如XPath表達式"http://*[@id='article_author']/text()n在網(wǎng)頁中查找所"article_author"標(biāo)簽,提取列表中各篇文章的作者姓名.2.1.3反爬設(shè)計為了應(yīng)對各站點的數(shù)據(jù)保護措施，本文采取了3種反爬方法.首先，在爬蟲工作時，設(shè)置了最小訪問時間間隔，并動態(tài)調(diào)整頁面請求時間間隔.第二種方法是采用動態(tài)UserAgent,部分站點會根據(jù)UserAgent判斷用戶的訪問是否合理，為了避免誤判，使用Python的fake_useragent插件動態(tài)模擬UserAgent.第三種反爬方法是動態(tài)代理IP,部分站點會對頻繁訪問的IP暫時或永久的禁止，針對這些站點爬蟲維護一個可用的代理IP庫,每次請求隨機從該庫中選擇一個IP訪問.2.1.4爬蟲配置和管理網(wǎng)絡(luò)爬蟲必須適應(yīng)網(wǎng)站改版、站點安全策略的變化，因此本文支持對爬蟲的行為進行配置，包括初始URL、搜索關(guān)鍵字、最大失敗重試次數(shù)、結(jié)構(gòu)化信息的XPath表達式配置等.對于爬蟲采集數(shù)據(jù)中發(fā)生的各種錯誤，例如404、502、Timeout等錯誤，系統(tǒng)進行記錄、報警，并提供了錯誤查詢接口.為了實現(xiàn)科技政策數(shù)據(jù)的增量更新，實現(xiàn)了爬蟲調(diào)度器，定期啟動爬蟲對源站點進行新的數(shù)據(jù)采集操作.為了多次采集造成數(shù)據(jù)重復(fù)，將曾經(jīng)爬取的網(wǎng)頁URL保存在Redis中,每次采集時進行比對過濾.2.2數(shù)據(jù)清洗子系統(tǒng)數(shù)據(jù)采集子系統(tǒng)從互聯(lián)網(wǎng)上收集的原始數(shù)據(jù)質(zhì)量無法保證，首先，雖然數(shù)據(jù)采集子系統(tǒng)避免了相同URL網(wǎng)頁的重復(fù)采集,但是很多文獻在不同站點反復(fù)出現(xiàn)，導(dǎo)致了原始數(shù)據(jù)集存在大量數(shù)據(jù)重復(fù).第二,由于大部分站點的數(shù)據(jù)是通過其檢索接口采集的，因此爬蟲程序采集了大量與科技政策無關(guān)的數(shù)據(jù).第三，部分?jǐn)?shù)據(jù)存在關(guān)鍵屬性缺失、屬性錯誤、屬性值格式不統(tǒng)一等缺陷.原始數(shù)據(jù)中夾雜的臟數(shù)據(jù)會誤導(dǎo)科技政策的研究,因此必須予以清除.2.2.1基于Simhash的數(shù)據(jù)去重Simhash是一種LSH算法（Locality-SensitiveHashing,局部敏感哈希）[11],是目前最好的海量文本去重算法.Simhash算法對文本經(jīng)過分詞、散列、加權(quán)、合并、降維等一系列計算，最終為文本生成64-bit的信息指紋.判斷兩個文本相似度的方法是對其Simhash值進行異或操作：其中,hammingDist為計算兩個整數(shù)海明距離的函數(shù)，即為兩個整數(shù)二進制編碼中不同的位數(shù),K是最大容忍的不同位數(shù)，取值3.本文采用Jieba分詞軟件對文本進行分詞,基于詞表去除停用詞，采用TF-IDF(TermFrequency-InverseDocumentFrequency)［12］算法進行權(quán)重計算并降維，將文本表示為特征向量；之后為每篇文獻進行Simhash計算；最后逐篇文本進行Simhash計算，比較去重.為了降低計算次數(shù)，將文本的64位Simhash值均分為4份，并建立16bit索引進行存儲.分析可知，這種方案的存儲開銷變?yōu)樵瓉淼?倍，但是單個文本的相似度計算次數(shù)降為:4x4n/216，其中n為文獻總量.常規(guī)的兩兩比較計算次數(shù)整體為:nx(n-1)/2,因此整體計算次數(shù)約降為原來的1/基于機器學(xué)習(xí)的非相關(guān)數(shù)據(jù)清洗本文采用邏輯回歸算法［13］將爬蟲采集的原始數(shù)據(jù)分為科技政策相關(guān)、非科技政策相關(guān)兩類，從而實現(xiàn)對非相關(guān)數(shù)據(jù)的清洗.邏輯回歸模型作為廣義線性模型類別，屬于概率性回歸,主要用來推斷兩分類或者多分類應(yīng)變量與多維解釋變量的關(guān)系.使用邏輯回歸算法進行科技政策文本分類的流程：構(gòu)建訓(xùn)練集.從爬蟲采集的原始數(shù)據(jù)中選擇1000篇科技政策相關(guān)的數(shù)據(jù),政策類型覆蓋核心政策、政策解讀、政策研究等各種類型；并選擇1000篇非科技政策相關(guān)的數(shù)據(jù).文本預(yù)處理.對訓(xùn)練集文本使用Jieba分詞軟件分詞，根據(jù)詞表去除停用詞.特征提取.使用TF-IDF算法構(gòu)建文本的特征向量，并降維.訓(xùn)練模型.從2000篇標(biāo)注的文本中隨機選擇1000篇進行模型訓(xùn)練，并利用其他1000篇驗證模型分類概率.不斷調(diào)整梯度下降等算法參數(shù)，以達到理想的分類效果.使用訓(xùn)練好的模型對爬蟲采集的數(shù)據(jù)進行分類，并清除非科技政策相關(guān)數(shù)據(jù).2.2.3數(shù)據(jù)屬性缺陷處理對爬蟲提取的結(jié)構(gòu)化信息進行分析,常見的屬性缺陷可以分成四類:第一類缺陷是數(shù)據(jù)屬性值缺失，例如文獻沒有標(biāo)題；第二類缺陷是數(shù)據(jù)屬性錯誤，例如日期屬性的值為一段描述文字；第三類缺陷是多個屬性之間違反完整性約束,例如政策的發(fā)布日期、生效日期、失效日期違反了先后順序；第四類缺陷是不同文獻的統(tǒng)一屬性格式不統(tǒng)一，例如日期格式五花八門，對后續(xù)的統(tǒng)計分析造成障礙.本文采取基于規(guī)則的方法結(jié)合人工參與,來識別和校正數(shù)據(jù)屬性錯誤.對于前三類類缺陷,系統(tǒng)定義一系列規(guī)則去識別缺陷；如果標(biāo)題和正文等關(guān)鍵信息缺失或者錯誤，則丟棄改文獻；如果非關(guān)鍵屬性缺失，則依賴人工補充.對于第四類缺陷，系統(tǒng)采用正則表達式實現(xiàn)數(shù)據(jù)屬性的規(guī)格化，首先針對每個數(shù)據(jù)屬性，枚舉所有格式的正則表達式，例如日期格式的[0-9]{4}[-./年][0-9]{2}[-./月][0-9]{2}或者[0-9]{2}[/][0-9]{2}[/][0-9]{4}等；然后針對每個文獻的屬性值，與這些正則表達式進行模式匹配;不同的格式采用不同的轉(zhuǎn)換方式,最終全部轉(zhuǎn)換為標(biāo)準(zhǔn)格式.系統(tǒng)對于數(shù)據(jù)屬性錯誤標(biāo)識、審閱修正保留了記錄，方便后續(xù)對這些操作進行跟蹤評估.2.3數(shù)據(jù)分析子系統(tǒng)2.3.1基于規(guī)則的政策分類科技政策研究需要對文獻進行多種維度的分類:按照國別和地區(qū)分類；按照政策性質(zhì)分成核心政策、政策解讀、領(lǐng)導(dǎo)講話、政策研究論文、政策法案、政策研究課題等類別；按照政策手段可以分成財稅政策、人才政策等類別；按照政策層次可以分成中長期規(guī)劃、具體政策等類別.系統(tǒng)依據(jù)數(shù)據(jù)來源和文本特點實現(xiàn)了國別和地區(qū)、政策性質(zhì)的分類.政策的采集來源可以作為重要的分類依據(jù),例如不同國家、不同地方政府發(fā)布的政策采集來源是非常明確的；政策研究課題信息則來源于政策研究機構(gòu)；政策研究論文則來自于科研論文數(shù)據(jù)庫等.另外核心政策具有很多明確的特點:發(fā)文機構(gòu)有確定的范圍，政策具有發(fā)文字號，標(biāo)題中一般包含決議、決定、命令(令)、公報、公告、通告、意見、通知、通報、報告、請示、批復(fù)、議案、函、紀(jì)要等字眼2.3.2基于Apriori算法的關(guān)聯(lián)分析科技政策之間存在替代、合并、規(guī)劃與落實等許多關(guān)聯(lián)關(guān)系,如果能夠發(fā)現(xiàn)這些關(guān)聯(lián)關(guān)系，并在用戶瀏覽政策時以推薦、可視化圖譜的形式進行展示，對科技政策研究具有重要意義.Apriori算法[14,15],是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法，其核心是基于兩階段頻集思想的遞推算法.本文基于Apriori算法,以政策文本中所包含的關(guān)鍵詞作為政策的特征描述，并結(jié)合政策發(fā)布的時效性特點,計算政策之間的關(guān)聯(lián)關(guān)系.具體的分析流程：所有政策數(shù)據(jù)集合為D(Data),通過預(yù)設(shè)以及關(guān)鍵詞提取得到的關(guān)鍵詞庫集合為K(Keyword),單個政策文本數(shù)據(jù)為P(Policy),三者可以抽象表示為：定義一個政策特征變量S,可表示為一組關(guān)鍵詞的集合S={K1,K2,...,Ks},需要注意S與P的區(qū)別:P是某個政策文本中提取出的關(guān)鍵詞的集合，而S是所有關(guān)鍵詞組成的集合.如果ScP,則說明政策P包含政策特征S,政策與政策特征的包含關(guān)系表明S中的各關(guān)鍵詞是相互關(guān)聯(lián)的.政策數(shù)據(jù)集合D中包含特征S的政策文本數(shù)據(jù)P的數(shù)量為該特征政策的支持?jǐn)?shù)os,則該政策特征的支持度support(S)為：其中,D為所有政策數(shù)據(jù)的數(shù)量，若support(S)小于系統(tǒng)規(guī)定的最小支持度，則S為不頻繁政策特征集；若S大于等于最小支持度，則S為頻繁特征集.在本系統(tǒng)中，除了統(tǒng)計計算得到的頻繁特征集外，還可以預(yù)設(shè)頻繁特征集.若有兩個互不包含的政策特征SA,SB,SAnSB記為特征關(guān)聯(lián)關(guān)系，這個關(guān)聯(lián)關(guān)系的可信度為在D中包含了政策特征SA的政策文本同時又包含了政策特征SB的數(shù)量百分比，特征關(guān)聯(lián)可信度confidence(SAnSB)為：如果confidence(SAnSB)小于系統(tǒng)規(guī)定的最小可信度，則它們?yōu)槿蹶P(guān)聯(lián)關(guān)系，否則為強關(guān)聯(lián)關(guān)系.系統(tǒng)在得到頻繁特征集集合和強可信關(guān)聯(lián)關(guān)系集合后，根據(jù)每個集合中的政策文本的發(fā)文時間以及發(fā)布機構(gòu)字段來確定同一集合內(nèi)的政策間的追溯關(guān)系.2.3.3統(tǒng)計分析系統(tǒng)在數(shù)據(jù)采集和數(shù)據(jù)清洗的基礎(chǔ)上實現(xiàn)了初步的統(tǒng)計分析功能.系統(tǒng)支持統(tǒng)計每個省、每年發(fā)布的科技政策數(shù)量，以此為基礎(chǔ)支持從時域、地域兩個維度進行統(tǒng)計分析.支持分析指定區(qū)域發(fā)布科技政策數(shù)量隨時間的變化趨勢；支持分析在一定時間范圍內(nèi)，各地區(qū)發(fā)布的科技政策總量的對比.3成果應(yīng)用從2018年10月在中國科協(xié)正式上線應(yīng)用以來，科技政策庫系統(tǒng)對225個互聯(lián)網(wǎng)站點進行了數(shù)據(jù)采集；并實現(xiàn)了一套圖書的OCR識別入庫，即《中共中央文件選集:1949年10月-1966年5月(全五十冊)》；共計獲取564749條科技政策相關(guān)的原始數(shù)據(jù)；經(jīng)過數(shù)據(jù)清洗，有效入庫數(shù)據(jù)404083條.3.1數(shù)據(jù)清洗統(tǒng)計通過基于Simhash算法的去重清洗了重復(fù)數(shù)據(jù)62336條，通過基于邏輯回歸分類方法清洗了非科技政策相關(guān)數(shù)據(jù)94706條，清洗標(biāo)題和文本等關(guān)鍵屬性缺失的數(shù)據(jù)3624條.經(jīng)過數(shù)據(jù)清洗之后，有效入庫數(shù)據(jù)404083條.為了驗證數(shù)據(jù)清洗的效果，本文從有效入庫的文獻中隨機抽取1000篇文獻，進行人工的重復(fù)、非相關(guān)文獻統(tǒng)計.經(jīng)過10次試驗求平均值可知數(shù)據(jù)清洗之后，數(shù)據(jù)重復(fù)率約為0.07%,非相關(guān)文獻數(shù)量比率約為0.6%.表1科技政策庫數(shù)據(jù)清洗效果清洗操作清洗數(shù)量數(shù)據(jù)總量564749基于Simhash的數(shù)據(jù)去重62336基于邏輯回歸的非相關(guān)數(shù)據(jù)清洗94706關(guān)鍵屬性缺失清洗3624非關(guān)鍵屬性缺失或錯誤8742有效入庫數(shù)據(jù)量4040833.2有效入庫統(tǒng)計對于有效入庫的404083條數(shù)據(jù)按照國別和政策性質(zhì)兩個維度進行了統(tǒng)計,結(jié)果見表2和表3.表3中的177423篇核心政策中，包括中共中央文件選集4248篇美國科技政策法案8157篇.相關(guān)數(shù)據(jù)包括科技政策相關(guān)的領(lǐng)導(dǎo)講話、科技政策解讀、科技政策新聞等相關(guān)文獻.表2有效入庫數(shù)據(jù)按國別分類統(tǒng)計國別政策數(shù)量中國376592美國15232印度9375芬蘭2884表3有效入庫數(shù)據(jù)按政策性質(zhì)統(tǒng)計政策性質(zhì)政策數(shù)量核心政策177423相關(guān)數(shù)據(jù)211854政策研究論文5815政策研究課題52政策研究報告89393.3關(guān)鍵UI頁面系統(tǒng)基于SpringBoot和Javascript、Vue（一種JavaScrip前端開發(fā)框架）等技術(shù)實現(xiàn)了B/S架構(gòu)的管理功能和UI,圖2-圖4展示了科技政策庫系統(tǒng)的部分界面.圖2政策檢索結(jié)果列表圖3政策在線閱讀圖4政策發(fā)布趨勢分析圖5政策發(fā)布地區(qū)對比4結(jié)論與展望科技政策庫系統(tǒng)基于Scrapy框架針對大量異構(gòu)站點設(shè)計了可管理的網(wǎng)絡(luò)爬蟲，基于機器學(xué)習(xí)算法實現(xiàn)了數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等數(shù)據(jù)清洗功能，對有效入庫的科技政策進一步進行了文本分類、關(guān)聯(lián)關(guān)系分析，系統(tǒng)基于B/S架構(gòu)向用戶提供了政策檢索、在線閱讀、統(tǒng)計分析等功能.系統(tǒng)上線之后總計采集科技政策相關(guān)數(shù)據(jù)564749條，數(shù)據(jù)清洗之后有效入庫404083條數(shù)據(jù)，為科技政策研究工作提供了堅實的基礎(chǔ).下一步需要從國內(nèi)外、歷史文件等方面擴大數(shù)據(jù)采集范圍，引入眾包等最新方法進一步提升數(shù)據(jù)清洗能力從自定義分析、數(shù)據(jù)可視化等方面豐富系統(tǒng)的統(tǒng)計分析手段，以便更好地為科技政策研究提供支持.參考文獻【相關(guān)文獻】1樊春良，馬小亮.美國科技政策科學(xué)的發(fā)展及其對中國的啟示.中國軟科學(xué),2013,(10):168-181.[doi:10.3969/j.issn.1002-9753.2013.10.016]2肖小溪,楊國梁，李曉軒.美國科技政策方法學(xué)(SoSP)及其對我國的啟示.科學(xué)學(xué)研究2011,29(7):961-964.3NSTC&OSTP.Thescienceofsciencepolicy:Afederalresearchroadmap.Washington:TheWhiteHouse,2008.4樊春良.科技政策科學(xué)的思想與實踐.科學(xué)學(xué)研究,2014,32(11):1601-1607.[doi:10.3969/j.issn.1003-2053.2014.11.001]5陳光，方新.關(guān)于科技政策學(xué)方法論研究.科學(xué)學(xué)研究,2014,32(3):321-326.[doi:10.3969/j.issn.1003-2053.2014.03.001]6樊春良.科技政策學(xué)的知識

人人文庫> 全部分類> 行業(yè)資料 > 機電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

科技政策庫的系統(tǒng)集成與建設(shè)

文檔簡介

溫馨提示

最新文檔

評論

科技政策庫的系統(tǒng)集成與建設(shè)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔