科技政策庫的系統(tǒng)集成與建設(shè)_第1頁
科技政策庫的系統(tǒng)集成與建設(shè)_第2頁
科技政策庫的系統(tǒng)集成與建設(shè)_第3頁
科技政策庫的系統(tǒng)集成與建設(shè)_第4頁
科技政策庫的系統(tǒng)集成與建設(shè)_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

科技庫的系統(tǒng)集成與建設(shè)WUHong;YANGBao-Long;DUZhi-Gao;LIHan-Lu【摘要】為了滿足科技政策研究需要,中國科協(xié)設(shè)計并實現(xiàn)了一種科技政策庫系統(tǒng).本文首先介紹了科技政策庫的總體設(shè)計方案、系統(tǒng)工作流程;然后詳細(xì)介紹了系統(tǒng)組成,整個系統(tǒng)由數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)清洗子系統(tǒng)、數(shù)據(jù)分析子系統(tǒng)3個子系統(tǒng)組成.數(shù)據(jù)采集子系統(tǒng)基于網(wǎng)絡(luò)爬蟲框架Scrapy軟件針對大量異構(gòu)站點設(shè)計了可管理的網(wǎng)絡(luò)爬蟲,并基于ABBYYFineReader軟件(俄羅斯軟件公司ABBYY發(fā)行的一款文檔識別軟件)實現(xiàn)了歷史文獻OCR識別(OpticalCharacterRecognition,光學(xué)字符識別)和入庫.數(shù)據(jù)清洗子系統(tǒng)基于機器學(xué)習(xí)算法實現(xiàn)了數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等功能.數(shù)據(jù)分析子系統(tǒng)則對有效入庫的科技政策進一步進行了文本分類、關(guān)聯(lián)關(guān)系分析、全文檢索.從2018年10月上線以來,該系統(tǒng)從226個數(shù)據(jù)源采集564749條數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗之后入庫404083條數(shù)據(jù),能夠有力地支撐科技政策研究工作.【期刊名稱】《計算機系統(tǒng)應(yīng)用》【年(卷),期】2019(028)007【總頁數(shù)】7頁(P58-64)【關(guān)鍵詞】科技政策庫;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)清洗;機器學(xué)習(xí);自然語言處理【作者】WUHong;YANGBao-Long;DUZhi-Gao;LIHan-Lu【作者單位】【正文語種】中文科技政策是國家為實現(xiàn)一定歷史時期的科技任務(wù)而規(guī)定的基本行動準(zhǔn)則,是確定科技事業(yè)發(fā)展方向,指導(dǎo)整個科技事業(yè)的戰(zhàn)略和策略原則.科技政策是否高效合理,對科學(xué)技術(shù)能否快速發(fā)展具有重要的影響.為了提升科技政策制定過程的系統(tǒng)性和科學(xué)性2005年美國提出了〃科學(xué)政策學(xué)”(ScienceofSciencePolicy,SoSP),把科技政策研究作為一門“科學(xué)”[1],并將SoSP作為建立美國政府〃基于證據(jù)的決策系統(tǒng)”的重要舉措[2].2008年國家科學(xué)技術(shù)委員會(NSTC)和白宮科技政策辦公室(OSTP)聯(lián)合發(fā)布了《科技政策學(xué):聯(lián)邦研究路線圖》,指導(dǎo)國家科技政策學(xué)的發(fā)展[3].2009年日本科學(xué)技術(shù)振興機構(gòu)(JST)在日本發(fā)起科技政策學(xué)的研究與梳理工作,加強日本科技政策的證據(jù)基礎(chǔ),推進科技政策科學(xué)的發(fā)展[4].2010年,歐盟與美國聯(lián)合舉辦了歐美科技政策學(xué)討論會,以推進歐洲科技政策學(xué)的規(guī)范化研究[5].自此,世界科技政策研究邁入了科技政策科學(xué)的新階段[6],并形成了大量高水平的研究成果.近年來,科技政策研究在國內(nèi)也得到了越來越多的關(guān)注[7,8].作為科技政策研究的主體,國內(nèi)外的歷史科技政策種類繁多、數(shù)量龐大,近些年的歷史政策散落在互聯(lián)網(wǎng)各處,2000年以前的歷史政策則一般只有紙版文檔,這些政策文獻很難得到有效的收集整理,對科技政策研究帶來了不便和障礙.隨著網(wǎng)絡(luò)爬蟲技術(shù)的發(fā)展,利用信息技術(shù)從互聯(lián)網(wǎng)收集歷史科技政策文獻成為了可能;而自然語言處理、大數(shù)據(jù)、機器學(xué)習(xí)等技術(shù)的發(fā)展,則為科技政策研究提供了新的技術(shù)手段[9].部分科技政策研究單位已經(jīng)開始收錄和整理科技政策文獻,但是這項研究整體上仍然處于起步階段.部分現(xiàn)有科技政策數(shù)據(jù)庫僅采集國內(nèi)政策,缺乏對國際先進經(jīng)驗的整理;或者僅限于科技政策收集,對政策解讀、領(lǐng)導(dǎo)講話、政策研究等相關(guān)文獻缺乏關(guān)注;還有部分政策庫采集了政府部門制定的所有政策,對科技政策研究而言針對性不強.另外,現(xiàn)有科技政策庫建設(shè)的關(guān)注焦點仍集中在數(shù)據(jù)采集方面,對數(shù)據(jù)清洗,以及統(tǒng)計分析等研究支持能力缺乏深入研究.本文基于Scrapy爬蟲框架[10]設(shè)計和實現(xiàn)了可管理的網(wǎng)絡(luò)爬蟲,從225個互聯(lián)網(wǎng)站點采集國內(nèi)外科技政策文獻;并進一步對原始政策數(shù)據(jù)進行結(jié)構(gòu)化信息提取、數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗等數(shù)據(jù)清洗操作,構(gòu)建了完整和統(tǒng)一的科技政策庫;在政策庫的基礎(chǔ)上實現(xiàn)文本分類、關(guān)聯(lián)分析、全文檢索、統(tǒng)計分析功能,為科技政策的研究與制定提供了參考和依據(jù).1系統(tǒng)總體設(shè)計方案1.1系統(tǒng)功能目標(biāo)面向225個國內(nèi)國外、結(jié)構(gòu)不一、安全策略各異的互聯(lián)網(wǎng)站點,設(shè)計可配置、可管理的網(wǎng)絡(luò)爬蟲,采集科技政策相關(guān)的數(shù)據(jù),實現(xiàn)數(shù)據(jù)的增量更新.利用OCR技術(shù)識別歷史文獻圖書,提取文獻的結(jié)構(gòu)化信息,實現(xiàn)歷史文獻的批量入庫.采用機器學(xué)習(xí)、自然語言處理等技術(shù),對從互聯(lián)網(wǎng)采集的56萬條科技政策相關(guān)網(wǎng)頁進行數(shù)據(jù)清洗,通過數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等一系列操作,去除噪音數(shù)據(jù),提升數(shù)據(jù)質(zhì)量.在數(shù)據(jù)清洗基礎(chǔ)上實現(xiàn)科技政策庫文獻的分類、關(guān)聯(lián)關(guān)系分析、全文索引,并向用戶提供文獻檢索、查閱和下載功能;針對有效入庫的文獻實現(xiàn)時域分析、地域分析等功能.1.2系統(tǒng)流程設(shè)計科技政策庫系統(tǒng)通過網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)上的政策數(shù)據(jù),對紙版歷史文獻進行OCR識別;這兩類原始數(shù)據(jù)在采集之后被寫入消息隊列;數(shù)據(jù)清洗子系統(tǒng)作為消息隊列消費者,對原始數(shù)據(jù)進行數(shù)據(jù)清洗,并將有效數(shù)據(jù)寫入文獻存儲子系統(tǒng);數(shù)據(jù)分析子系統(tǒng)則對文獻存儲子系統(tǒng)內(nèi)的文獻進行全文索引、文本分類、關(guān)聯(lián)分析,并向管理員和研究人員提供文獻檢索、查閱、下載、統(tǒng)計分析接口.系統(tǒng)的具體流程見圖1.數(shù)據(jù)采集子系統(tǒng)包括網(wǎng)絡(luò)爬蟲、增量爬取調(diào)度器、數(shù)據(jù)屬性識別、爬蟲配置、爬蟲異常管理等組件.對225個國內(nèi)外站點按照網(wǎng)站結(jié)構(gòu)、安全策略等特點進行分類,基于Scrapy爬蟲框架設(shè)計一系列爬蟲,每個爬蟲負(fù)責(zé)一類站點的數(shù)據(jù)采集.OCR子系統(tǒng)基于ABBYYFineReader軟件實現(xiàn)歷史文獻的電子化,并進一步提取電子文獻的結(jié)構(gòu)化數(shù)據(jù),批量導(dǎo)入消息隊列.采用Redis軟件實現(xiàn)消息隊列.本系統(tǒng)采集的文獻可以分為核心政策、領(lǐng)導(dǎo)講話、政策解讀、科技政策相關(guān)新聞、科技政策研究論文、科技政策研究項目等10類.不同類型文獻的數(shù)據(jù)屬性存在較大差異,通常來自同一站點欄目或者搜索結(jié)果列表的文獻結(jié)構(gòu)化信息類似.因此,基于文獻來源在消息隊列中劃分消息主題,同一消息主題下的文獻具有相同的數(shù)據(jù)結(jié)構(gòu).⑷數(shù)據(jù)清洗子系統(tǒng)包括數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)清洗、數(shù)據(jù)屬性缺陷處理等組件,清除原始數(shù)據(jù)中的臟數(shù)據(jù).文獻存儲子系統(tǒng)包括:Mysql數(shù)據(jù)庫,存儲文獻的數(shù)據(jù)屬性信息;文件系統(tǒng),存儲原始html、txt、pdf、doc等各種格式的政策文本;Solr,存儲文本和部分結(jié)構(gòu)化信息,實現(xiàn)全文索引.圖1系統(tǒng)流程示意圖數(shù)據(jù)分析子系統(tǒng)包括文本分類,文本關(guān)聯(lián)關(guān)系分析,文獻檢索、查閱、下載,文獻統(tǒng)計分析等組件.⑺系統(tǒng)包括管理員和研究人員兩類用戶,管理員具有爬蟲配置、異常處理、文獻增刪改查等系統(tǒng)管理權(quán)限,研究人員則可以從系統(tǒng)檢索、查閱、下載文獻,進行文獻的統(tǒng)計分析和結(jié)果可視化查看.2系統(tǒng)組成2.1數(shù)據(jù)采集子系統(tǒng)科技政策庫系統(tǒng)的采集源共225個站點,其中中央政府和部委站點80個,地方政府站點50個,第三方門戶和垂直資訊站點9個,政策研究機構(gòu)站點13個,美國政府站點18個,印度政府站點48個,芬蘭政府站點7個.由于源站點范圍廣、種類多,數(shù)據(jù)采集子系統(tǒng)的設(shè)計面臨諸多挑戰(zhàn).首先,這些網(wǎng)站的結(jié)構(gòu)差異明顯,部分站點科技政策相關(guān)的數(shù)據(jù)集中在某個欄目,其他站點則需要通過檢索接口查詢獲?。桓髡军c的政策列表頁面翻頁機制不盡相同;部分站點的內(nèi)容由Javascript代碼動態(tài)生成.其次,各站點的政策列表和政策詳情網(wǎng)頁結(jié)構(gòu)差異較大,無法開發(fā)一致的數(shù)據(jù)屬性識別策略.最后,各站點的數(shù)據(jù)保護策略不盡相同,常見的策略包括監(jiān)控訪問頻度、賬號認(rèn)證、動態(tài)URL(UniformResourceLocator)等.2.1.1基于Scrapy框架的爬蟲設(shè)計本文基于Scrapy框架和Splash實現(xiàn)網(wǎng)絡(luò)爬蟲.Scrapy是Python開發(fā)的一個快速Web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù).Scrapy是目前廣泛應(yīng)用的爬蟲框架,非常適合特定站點和欄目的定向爬取.Splash是一個實現(xiàn)了HTTPAPI的輕量級瀏覽器,支持Javascript渲染Scrapy框架通過Scrapy-Splash模塊引入Splash軟件,彌補了Scrapy無法抓取網(wǎng)頁動態(tài)內(nèi)容的缺陷.根據(jù)網(wǎng)站結(jié)構(gòu)和網(wǎng)頁結(jié)構(gòu)對源站點進行分組,比如大部分部委的網(wǎng)站結(jié)構(gòu)相似,可以分成一個組.針對每組站點設(shè)計單獨的爬蟲,實現(xiàn)站點數(shù)據(jù)的爬取和結(jié)構(gòu)化信息提取.2.1.2基于XPath的數(shù)據(jù)屬性識別本文基于XPath實現(xiàn)網(wǎng)頁的數(shù)據(jù)屬性識別.XPath使用路徑表達式來選取XML文檔中的節(jié)點或者節(jié)點集,由于HTML和XML結(jié)構(gòu)基本一致,因此XPath非常適合從網(wǎng)頁中提取結(jié)構(gòu)化信息.例如XPath表達式"http://*[@id='article_author']/text()n在網(wǎng)頁中查找所"article_author"標(biāo)簽,提取列表中各篇文章的作者姓名.2.1.3反爬設(shè)計為了應(yīng)對各站點的數(shù)據(jù)保護措施,本文采取了3種反爬方法.首先,在爬蟲工作時,設(shè)置了最小訪問時間間隔,并動態(tài)調(diào)整頁面請求時間間隔.第二種方法是采用動態(tài)UserAgent,部分站點會根據(jù)UserAgent判斷用戶的訪問是否合理,為了避免誤判,使用Python的fake_useragent插件動態(tài)模擬UserAgent.第三種反爬方法是動態(tài)代理IP,部分站點會對頻繁訪問的IP暫時或永久的禁止,針對這些站點爬蟲維護一個可用的代理IP庫,每次請求隨機從該庫中選擇一個IP訪問.2.1.4爬蟲配置和管理網(wǎng)絡(luò)爬蟲必須適應(yīng)網(wǎng)站改版、站點安全策略的變化,因此本文支持對爬蟲的行為進行配置,包括初始URL、搜索關(guān)鍵字、最大失敗重試次數(shù)、結(jié)構(gòu)化信息的XPath表達式配置等.對于爬蟲采集數(shù)據(jù)中發(fā)生的各種錯誤,例如404、502、Timeout等錯誤,系統(tǒng)進行記錄、報警,并提供了錯誤查詢接口.為了實現(xiàn)科技政策數(shù)據(jù)的增量更新,實現(xiàn)了爬蟲調(diào)度器,定期啟動爬蟲對源站點進行新的數(shù)據(jù)采集操作.為了多次采集造成數(shù)據(jù)重復(fù),將曾經(jīng)爬取的網(wǎng)頁URL保存在Redis中,每次采集時進行比對過濾.2.2數(shù)據(jù)清洗子系統(tǒng)數(shù)據(jù)采集子系統(tǒng)從互聯(lián)網(wǎng)上收集的原始數(shù)據(jù)質(zhì)量無法保證,首先,雖然數(shù)據(jù)采集子系統(tǒng)避免了相同URL網(wǎng)頁的重復(fù)采集,但是很多文獻在不同站點反復(fù)出現(xiàn),導(dǎo)致了原始數(shù)據(jù)集存在大量數(shù)據(jù)重復(fù).第二,由于大部分站點的數(shù)據(jù)是通過其檢索接口采集的,因此爬蟲程序采集了大量與科技政策無關(guān)的數(shù)據(jù).第三,部分?jǐn)?shù)據(jù)存在關(guān)鍵屬性缺失、屬性錯誤、屬性值格式不統(tǒng)一等缺陷.原始數(shù)據(jù)中夾雜的臟數(shù)據(jù)會誤導(dǎo)科技政策的研究,因此必須予以清除.2.2.1基于Simhash的數(shù)據(jù)去重Simhash是一種LSH算法(Locality-SensitiveHashing,局部敏感哈希)[11],是目前最好的海量文本去重算法.Simhash算法對文本經(jīng)過分詞、散列、加權(quán)、合并、降維等一系列計算,最終為文本生成64-bit的信息指紋.判斷兩個文本相似度的方法是對其Simhash值進行異或操作:其中,hammingDist為計算兩個整數(shù)海明距離的函數(shù),即為兩個整數(shù)二進制編碼中不同的位數(shù),K是最大容忍的不同位數(shù),取值3.本文采用Jieba分詞軟件對文本進行分詞,基于詞表去除停用詞,采用TF-IDF(TermFrequency-InverseDocumentFrequency)[12]算法進行權(quán)重計算并降維,將文本表示為特征向量;之后為每篇文獻進行Simhash計算;最后逐篇文本進行Simhash計算,比較去重.為了降低計算次數(shù),將文本的64位Simhash值均分為4份,并建立16bit索引進行存儲.分析可知,這種方案的存儲開銷變?yōu)樵瓉淼?倍,但是單個文本的相似度計算次數(shù)降為:4x4n/216,其中n為文獻總量.常規(guī)的兩兩比較計算次數(shù)整體為:nx(n-1)/2,因此整體計算次數(shù)約降為原來的1/基于機器學(xué)習(xí)的非相關(guān)數(shù)據(jù)清洗本文采用邏輯回歸算法[13]將爬蟲采集的原始數(shù)據(jù)分為科技政策相關(guān)、非科技政策相關(guān)兩類,從而實現(xiàn)對非相關(guān)數(shù)據(jù)的清洗.邏輯回歸模型作為廣義線性模型類別,屬于概率性回歸,主要用來推斷兩分類或者多分類應(yīng)變量與多維解釋變量的關(guān)系.使用邏輯回歸算法進行科技政策文本分類的流程:構(gòu)建訓(xùn)練集.從爬蟲采集的原始數(shù)據(jù)中選擇1000篇科技政策相關(guān)的數(shù)據(jù),政策類型覆蓋核心政策、政策解讀、政策研究等各種類型;并選擇1000篇非科技政策相關(guān)的數(shù)據(jù).文本預(yù)處理.對訓(xùn)練集文本使用Jieba分詞軟件分詞,根據(jù)詞表去除停用詞.特征提取.使用TF-IDF算法構(gòu)建文本的特征向量,并降維.訓(xùn)練模型.從2000篇標(biāo)注的文本中隨機選擇1000篇進行模型訓(xùn)練,并利用其他1000篇驗證模型分類概率.不斷調(diào)整梯度下降等算法參數(shù),以達到理想的分類效果.使用訓(xùn)練好的模型對爬蟲采集的數(shù)據(jù)進行分類,并清除非科技政策相關(guān)數(shù)據(jù).2.2.3數(shù)據(jù)屬性缺陷處理對爬蟲提取的結(jié)構(gòu)化信息進行分析,常見的屬性缺陷可以分成四類:第一類缺陷是數(shù)據(jù)屬性值缺失,例如文獻沒有標(biāo)題;第二類缺陷是數(shù)據(jù)屬性錯誤,例如日期屬性的值為一段描述文字;第三類缺陷是多個屬性之間違反完整性約束,例如政策的發(fā)布日期、生效日期、失效日期違反了先后順序;第四類缺陷是不同文獻的統(tǒng)一屬性格式不統(tǒng)一,例如日期格式五花八門,對后續(xù)的統(tǒng)計分析造成障礙.本文采取基于規(guī)則的方法結(jié)合人工參與,來識別和校正數(shù)據(jù)屬性錯誤.對于前三類類缺陷,系統(tǒng)定義一系列規(guī)則去識別缺陷;如果標(biāo)題和正文等關(guān)鍵信息缺失或者錯誤,則丟棄改文獻;如果非關(guān)鍵屬性缺失,則依賴人工補充.對于第四類缺陷,系統(tǒng)采用正則表達式實現(xiàn)數(shù)據(jù)屬性的規(guī)格化,首先針對每個數(shù)據(jù)屬性,枚舉所有格式的正則表達式,例如日期格式的[0-9]{4}[-./年][0-9]{2}[-./月][0-9]{2}或者[0-9]{2}[/][0-9]{2}[/][0-9]{4}等;然后針對每個文獻的屬性值,與這些正則表達式進行模式匹配;不同的格式采用不同的轉(zhuǎn)換方式,最終全部轉(zhuǎn)換為標(biāo)準(zhǔn)格式.系統(tǒng)對于數(shù)據(jù)屬性錯誤標(biāo)識、審閱修正保留了記錄,方便后續(xù)對這些操作進行跟蹤評估.2.3數(shù)據(jù)分析子系統(tǒng)2.3.1基于規(guī)則的政策分類科技政策研究需要對文獻進行多種維度的分類:按照國別和地區(qū)分類;按照政策性質(zhì)分成核心政策、政策解讀、領(lǐng)導(dǎo)講話、政策研究論文、政策法案、政策研究課題等類別;按照政策手段可以分成財稅政策、人才政策等類別;按照政策層次可以分成中長期規(guī)劃、具體政策等類別.系統(tǒng)依據(jù)數(shù)據(jù)來源和文本特點實現(xiàn)了國別和地區(qū)、政策性質(zhì)的分類.政策的采集來源可以作為重要的分類依據(jù),例如不同國家、不同地方政府發(fā)布的政策采集來源是非常明確的;政策研究課題信息則來源于政策研究機構(gòu);政策研究論文則來自于科研論文數(shù)據(jù)庫等.另外核心政策具有很多明確的特點:發(fā)文機構(gòu)有確定的范圍,政策具有發(fā)文字號,標(biāo)題中一般包含決議、決定、命令(令)、公報、公告、通告、意見、通知、通報、報告、請示、批復(fù)、議案、函、紀(jì)要等字眼2.3.2基于Apriori算法的關(guān)聯(lián)分析科技政策之間存在替代、合并、規(guī)劃與落實等許多關(guān)聯(lián)關(guān)系,如果能夠發(fā)現(xiàn)這些關(guān)聯(lián)關(guān)系,并在用戶瀏覽政策時以推薦、可視化圖譜的形式進行展示,對科技政策研究具有重要意義.Apriori算法[14,15],是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,其核心是基于兩階段頻集思想的遞推算法.本文基于Apriori算法,以政策文本中所包含的關(guān)鍵詞作為政策的特征描述,并結(jié)合政策發(fā)布的時效性特點,計算政策之間的關(guān)聯(lián)關(guān)系.具體的分析流程:所有政策數(shù)據(jù)集合為D(Data),通過預(yù)設(shè)以及關(guān)鍵詞提取得到的關(guān)鍵詞庫集合為K(Keyword),單個政策文本數(shù)據(jù)為P(Policy),三者可以抽象表示為:定義一個政策特征變量S,可表示為一組關(guān)鍵詞的集合S={K1,K2,...,Ks},需要注意S與P的區(qū)別:P是某個政策文本中提取出的關(guān)鍵詞的集合,而S是所有關(guān)鍵詞組成的集合.如果ScP,則說明政策P包含政策特征S,政策與政策特征的包含關(guān)系表明S中的各關(guān)鍵詞是相互關(guān)聯(lián)的.政策數(shù)據(jù)集合D中包含特征S的政策文本數(shù)據(jù)P的數(shù)量為該特征政策的支持?jǐn)?shù)os,則該政策特征的支持度support(S)為:其中,D為所有政策數(shù)據(jù)的數(shù)量,若support(S)小于系統(tǒng)規(guī)定的最小支持度,則S為不頻繁政策特征集;若S大于等于最小支持度,則S為頻繁特征集.在本系統(tǒng)中,除了統(tǒng)計計算得到的頻繁特征集外,還可以預(yù)設(shè)頻繁特征集.若有兩個互不包含的政策特征SA,SB,SAnSB記為特征關(guān)聯(lián)關(guān)系,這個關(guān)聯(lián)關(guān)系的可信度為在D中包含了政策特征SA的政策文本同時又包含了政策特征SB的數(shù)量百分比,特征關(guān)聯(lián)可信度confidence(SAnSB)為:如果confidence(SAnSB)小于系統(tǒng)規(guī)定的最小可信度,則它們?yōu)槿蹶P(guān)聯(lián)關(guān)系,否則為強關(guān)聯(lián)關(guān)系.系統(tǒng)在得到頻繁特征集集合和強可信關(guān)聯(lián)關(guān)系集合后,根據(jù)每個集合中的政策文本的發(fā)文時間以及發(fā)布機構(gòu)字段來確定同一集合內(nèi)的政策間的追溯關(guān)系.2.3.3統(tǒng)計分析系統(tǒng)在數(shù)據(jù)采集和數(shù)據(jù)清洗的基礎(chǔ)上實現(xiàn)了初步的統(tǒng)計分析功能.系統(tǒng)支持統(tǒng)計每個省、每年發(fā)布的科技政策數(shù)量,以此為基礎(chǔ)支持從時域、地域兩個維度進行統(tǒng)計分析.支持分析指定區(qū)域發(fā)布科技政策數(shù)量隨時間的變化趨勢;支持分析在一定時間范圍內(nèi),各地區(qū)發(fā)布的科技政策總量的對比.3成果應(yīng)用從2018年10月在中國科協(xié)正式上線應(yīng)用以來,科技政策庫系統(tǒng)對225個互聯(lián)網(wǎng)站點進行了數(shù)據(jù)采集;并實現(xiàn)了一套圖書的OCR識別入庫,即《中共中央文件選集:1949年10月-1966年5月(全五十冊)》;共計獲取564749條科技政策相關(guān)的原始數(shù)據(jù);經(jīng)過數(shù)據(jù)清洗,有效入庫數(shù)據(jù)404083條.3.1數(shù)據(jù)清洗統(tǒng)計通過基于Simhash算法的去重清洗了重復(fù)數(shù)據(jù)62336條,通過基于邏輯回歸分類方法清洗了非科技政策相關(guān)數(shù)據(jù)94706條,清洗標(biāo)題和文本等關(guān)鍵屬性缺失的數(shù)據(jù)3624條.經(jīng)過數(shù)據(jù)清洗之后,有效入庫數(shù)據(jù)404083條.為了驗證數(shù)據(jù)清洗的效果,本文從有效入庫的文獻中隨機抽取1000篇文獻,進行人工的重復(fù)、非相關(guān)文獻統(tǒng)計.經(jīng)過10次試驗求平均值可知數(shù)據(jù)清洗之后,數(shù)據(jù)重復(fù)率約為0.07%,非相關(guān)文獻數(shù)量比率約為0.6%.表1科技政策庫數(shù)據(jù)清洗效果清洗操作清洗數(shù)量數(shù)據(jù)總量564749基于Simhash的數(shù)據(jù)去重62336基于邏輯回歸的非相關(guān)數(shù)據(jù)清洗94706關(guān)鍵屬性缺失清洗3624非關(guān)鍵屬性缺失或錯誤8742有效入庫數(shù)據(jù)量4040833.2有效入庫統(tǒng)計對于有效入庫的404083條數(shù)據(jù)按照國別和政策性質(zhì)兩個維度進行了統(tǒng)計,結(jié)果見表2和表3.表3中的177423篇核心政策中,包括中共中央文件選集4248篇美國科技政策法案8157篇.相關(guān)數(shù)據(jù)包括科技政策相關(guān)的領(lǐng)導(dǎo)講話、科技政策解讀、科技政策新聞等相關(guān)文獻.表2有效入庫數(shù)據(jù)按國別分類統(tǒng)計國別政策數(shù)量中國376592美國15232印度9375芬蘭2884表3有效入庫數(shù)據(jù)按政策性質(zhì)統(tǒng)計政策性質(zhì)政策數(shù)量核心政策177423相關(guān)數(shù)據(jù)211854政策研究論文5815政策研究課題52政策研究報告89393.3關(guān)鍵UI頁面系統(tǒng)基于SpringBoot和Javascript、Vue(一種JavaScrip前端開發(fā)框架)等技術(shù)實現(xiàn)了B/S架構(gòu)的管理功能和UI,圖2-圖4展示了科技政策庫系統(tǒng)的部分界面.圖2政策檢索結(jié)果列表圖3政策在線閱讀圖4政策發(fā)布趨勢分析圖5政策發(fā)布地區(qū)對比4結(jié)論與展望科技政策庫系統(tǒng)基于Scrapy框架針對大量異構(gòu)站點設(shè)計了可管理的網(wǎng)絡(luò)爬蟲,基于機器學(xué)習(xí)算法實現(xiàn)了數(shù)據(jù)去重、非相關(guān)數(shù)據(jù)識別、數(shù)據(jù)屬性缺陷識別等數(shù)據(jù)清洗功能,對有效入庫的科技政策進一步進行了文本分類、關(guān)聯(lián)關(guān)系分析,系統(tǒng)基于B/S架構(gòu)向用戶提供了政策檢索、在線閱讀、統(tǒng)計分析等功能.系統(tǒng)上線之后總計采集科技政策相關(guān)數(shù)據(jù)564749條,數(shù)據(jù)清洗之后有效入庫404083條數(shù)據(jù),為科技政策研究工作提供了堅實的基礎(chǔ).下一步需要從國內(nèi)外、歷史文件等方面擴大數(shù)據(jù)采集范圍,引入眾包等最新方法進一步提升數(shù)據(jù)清洗能力從自定義分析、數(shù)據(jù)可視化等方面豐富系統(tǒng)的統(tǒng)計分析手段,以便更好地為科技政策研究提供支持.參考文獻【相關(guān)文獻】1樊春良,馬小亮.美國科技政策科學(xué)的發(fā)展及其對中國的啟示.中國軟科學(xué),2013,(10):168-181.[doi:10.3969/j.issn.1002-9753.2013.10.016]2肖小溪,楊國梁,李曉軒.美國科技政策方法學(xué)(SoSP)及其對我國的啟示.科學(xué)學(xué)研究2011,29(7):961-964.3NSTC&OSTP.Thescienceofsciencepolicy:Afederalresearchroadmap.Washington:TheWhiteHouse,2008.4樊春良.科技政策科學(xué)的思想與實踐.科學(xué)學(xué)研究,2014,32(11):1601-1607.[doi:10.3969/j.issn.1003-2053.2014.11.001]5陳光,方新.關(guān)于科技政策學(xué)方法論研究.科學(xué)學(xué)研究,2014,32(3):321-326.[doi:10.3969/j.issn.1003-2053.2014.03.001]6樊春良.科技政策學(xué)的知識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論