中醫(yī)科研中互聯網數據采集技術的應用研究論文設計_第1頁
中醫(yī)科研中互聯網數據采集技術的應用研究論文設計_第2頁
中醫(yī)科研中互聯網數據采集技術的應用研究論文設計_第3頁
中醫(yī)科研中互聯網數據采集技術的應用研究論文設計_第4頁
中醫(yī)科研中互聯網數據采集技術的應用研究論文設計_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

I摘要互聯網數據采集技術在中醫(yī)科研工作中起著非常關鍵的作用。互聯網數據采集技術將是構建中醫(yī)健康數據平臺必不可少的一環(huán),清楚的了解和熟練的使用互聯網數據采集技術,將極大的推動中醫(yī)科研工作的發(fā)展,互聯網數據采集技術在中醫(yī)科研中的使用會是一種必然的趨勢。不管是在國內還是國外,都對中醫(yī)藥的數據挖掘具有極高的重視。隨著中醫(yī)醫(yī)療數據化的發(fā)展,會不斷產生大量的數據,這些數據里面包含各種各樣的信息,都有很大的價值。這些數據只有經過專業(yè)化的采集和處理,才可以充分發(fā)揮它們的應用價值。處理中醫(yī)藥數據要使用互聯網數據采集技術,然而當前的互聯網數據采集技術并沒有達到能夠改變中醫(yī)藥數據處理起來困難的現狀,只有把數據采集技術充分的作用充分展現出來,才會將中醫(yī)藥數據挖掘的能力提高至更完美的水平。當前在中醫(yī)科研工作中互聯網數據采集技術應用十分廣泛,也有很多成功的案例,然而互聯網數據采集技術還不成熟,也面臨著很多挑戰(zhàn),這是中醫(yī)科研工作中首先要想辦法解決的事情。關鍵詞:大數據;中醫(yī)藥發(fā)展;互聯網;數據采集技術

AbstractBigdatainformationoftraditionalChinesemedicinehasgreatvalueinthefuturedevelopmentoftraditionalChinesemedicine.DatacollectiontechnologyisthefoundationofTCMhealthbigdataplatform.UnderstandingandusingdatacollectiontechnologyeffectivelyplaysavitalroleinTCMresearch.TheapplicationofdatabasecollectiontechnologyinTCMresearchwillleadthetrend.Bothathomeandabroad,theyattachgreatimportancetodataminingoftraditionalChinesemedicine.DataminingtechnologyshouldbeusedtoprocessTCMdata,butthecurrentdataminingtechnologyhasnoabilitytochangethecurrentsituationofTCMdatadifficulttoprocess.Onlywhenthedataminingtechnologyisfullydemonstrated,cantheabilityofTCMdatatechnologyberaisedtoamoreperfectlevel.Atpresent,therearesomeapplicationsandsomesuccessfulcasesofdatacollectiontechnologyinthescientificresearchoftraditionalChinesemedicine,butthedatacollectiontechnologystillfacescertainchallenges,whichbecomesanurgentproblemtobesolvedinthescientificresearchoftraditionalChinesemedicine.Keywords:Bigdata;developmentofChinesemedicine;Internet;Dataacquisitiontechnique

緒論數據采集技術在國內外研究現狀國外互聯網數據采集技術對比中國來說起步較早,發(fā)展較快,各方面條件都比較成熟,所以數據采集技術更加先進,如果把中國的數據采集技術和外國相比較,技術上還存在著很大的差距,不過隨著國內數據采集技術的不斷提高,這種技術差距在不斷的變小。就現在來說,互聯網數據采集技術蘊含著非常大的社會價值,掌握了這種技術可以節(jié)省大量的人力、物力和財力,達到事半功倍的效果,因為互聯網數據采集技術可以幫我們抓取關鍵的數據,從而更容易達到目的。所以當前很多國家政府都非常注重互聯網數據采集技術的研究與發(fā)展,都出臺了很多針對于互聯網數據采集技術優(yōu)先發(fā)展的政策,使得互聯網數據采集技術得到了飛速的發(fā)展,應用范圍越來越廣,與人們的生產生活聯系越來越密切?;ヂ摼W數據采集技術應用于中醫(yī)科研工作的目的和意義伴隨著大數據時代的來臨,醫(yī)療數據化成為醫(yī)學發(fā)展的必由之路,從西醫(yī)傳入中國開始,中醫(yī)與西醫(yī)之間的對比從未停止,一部分人甚至認為西方醫(yī)學遠遠超出了傳統(tǒng)的中醫(yī)。中醫(yī)傳承了幾千年,在這個過程中,不斷地取其精華、去其糟粕,留下很多寶貴的數據。中醫(yī)與西方醫(yī)學相比較優(yōu)勢在于蘊含的信息更加豐富多樣,但由于數據采集技術不是那么完善,所以很多寶貴的信息都沒有得到利用。現在,就中醫(yī)醫(yī)療體系的各個層面來講,都有共同的特征,由于數據缺乏營養(yǎng),導致出現萎縮,與西醫(yī)相比出現了差距、出現了危機,中醫(yī)向著現代化、數據化發(fā)展已經是迫在眉睫。中醫(yī)要想進一步發(fā)展,就得與時俱進,跟上時代的發(fā)展潮流,向著信息化、現代化的方向發(fā)展,只有這樣才能充分發(fā)揮出中醫(yī)所蘊含的價值,中國在十三五計劃期間曾出臺了《中醫(yī)藥發(fā)展“十三五”規(guī)劃》,這極大的推動了中醫(yī)向著信息化、數據化發(fā)展,加快了中醫(yī)現代化的腳步,“十三五”計劃指出要著重建立和完善中醫(yī)醫(yī)療健康信息系統(tǒng),中醫(yī)藥各個行業(yè)以及社會各界都在堅決貫徹落實這一偉大的方針,飛躍性的的提高了中醫(yī)藥行業(yè)信息化、數據化的水平,但是在中醫(yī)向著光明前進的道路并不是一帆風順的,仍然存在著這樣或那樣的問題,而想要解決這些的問題,這一切都與互聯網數據采集技術息息相關。目的是希望中醫(yī)科研工作應用互聯網數據采集技術收集準確數據以拓展中醫(yī)醫(yī)療服務空間和內容,建立起來一種中醫(yī)從未有過的集看病前、看病中、看病后于一體的中醫(yī)院網上系統(tǒng)與中醫(yī)院網下數據信息相結合的新型中醫(yī)醫(yī)療系統(tǒng),將線上醫(yī)療數據與線下醫(yī)療數據相融合,致力于加快互聯網數據采集技術應用到中醫(yī)科研工作中的進程,改善中醫(yī)治療效率低下的狀況,推動中醫(yī)現代化發(fā)展。建設中醫(yī)醫(yī)療健康系統(tǒng),建立健全“互聯網+醫(yī)療健康”體系,提升中醫(yī)院管理和服務水平,加強中醫(yī)醫(yī)療機構基礎設施的建設,制訂完善相關配套政策。加強行業(yè)監(jiān)管和安全保障。強化中醫(yī)醫(yī)療質量監(jiān)管。利用互聯網數據采集技術開展中醫(yī)臨床研究,從大規(guī)模數據中歸納獲得臨床有用或具備理論意義的知識,可以充分的挖掘除中醫(yī)文化中潛在的寶貴精華,可以為制定中醫(yī)相關的決策以及診療方案提供技術支持。推動中醫(yī)科研工作的進步?;ヂ摼W數據采集技術基本理論概述數據采集概念把指定的信息在各種各樣的的數據庫中提取出來,并且進行分析、整理、存儲的過程就叫數據采集。一提到數據采集我們就會想到是數據的爬取或者嫁接,其實一開始的數據采集就是人們把認為有價值的信息總結起來,進行歸納和整理。隨著互聯網時代的到來,數據采集也變得更加多種多樣,對有效信息的獲取越來越便捷?;ヂ摼W數據采集技術就是從各種各樣的數據信息中提取、分析及存儲的一個過程,互聯網數據采集技術就是把被調查對象的各種參行處理或存儲記錄的過程?;ヂ摼W數據采集技術目前已經被用到很多方面,各行各業(yè)都有涉及,數據采集工具也有很多。收取來的數據就是被轉變成了很多不同的量,就比如說速度、熱度、硬度、高度等,這些只能用數值來表示。被用來數據采集的方法大部分都是使用采樣方法,就是在固定的采樣時間里對同樣的一種數據進行很多遍的抓取,抓取來的數據大部分都是一瞬間的數值,還能夠是固定的一段時間內的一個特點數據?;ヂ摼W數據采集技術涵蓋了很多方面,就像電腦中的監(jiān)控設備、錄音設備所收集到數據以及后期對這些數據的處理都可以叫做數據采集技術?;ヂ摼W數據采集技術處理的對象是數字量,但是大部分的信息都是連續(xù)變化的物理量,就像壓力、速度、溫度、位移,要想把這些信息送進計算機里處理,就首先要把這些物理量離散化,就是要進行量化編碼,把他們變成數字量才可以實現。數據采集方法2.2.1離線采集對文件的數據采集,就像日志分析等,主要有Cloudera的Flume、ApacheChukwa和Facebook的Scribe等,大部分會用gzip等壓縮算法。如果想對數據庫表這樣的進行數據抓取,就要用到適用于表的數據采集技術。主要有以下幾種:迪思杰采集軟件、GoldenGate、IBM發(fā)明的CDC、MySQL的Binlog等等?;诒淼呐砍槿≤浖?,主要是Sqoop和其他ETL工具。2.2.2在線采集在線采集(基于新聞、基于流數據等)對于新聞的數據采集來說,就比如性能數據采集等,主要有以下幾種:Linkedin的Kafka以及開源的ActiveMQ、RabbitMQ等等。對于流數據采集,類似信令數據采集等,主要有TwitterStorm、IBMStreamBase等,這樣的會通過場景來選擇壓縮算法。2.2.3外部數據采集外部數據采集主要指的就是網絡上的數據獲取,常用的方法有兩種。第一種是開源技術,主要有Scrapy、ApacheNutch、WebMagic、Heritrix等網絡爬蟲框架,第二種是網絡爬蟲,就是按照一定的規(guī)則,抓取信息的程序框架,就像搜索引擎等,主要產品有Baidu、Google等,這種網絡搜索技術很成熟,然而不對外開放。數據采集發(fā)展階段數據采集有著很久遠的歷史,在幾千年前,那時候的人們就懂得用繩子打結來記錄事件。而在十九世紀八十年代,美國的一名叫霍爾曼的統(tǒng)計學家研究出了一臺電動的儀器,它可以計算卡板上的洞的數量,有了這個儀器之后,美國進行人口普查的時間由八年縮短到了一年。而到了二十世紀,數據采集變得越來越重要,美國總統(tǒng)羅斯福曾經統(tǒng)計了美國兩千萬的工人和二百萬資本家的信息,有了這些信息,有關社會的一系列的政策都可以很輕松的實施。在二十世紀六十年代左右,有許多發(fā)達國家研究出了一些數據采集裝置,大部分的產品都被應用于特定領域中。舉個例子,英國曾經制造出一個專門用于統(tǒng)計人口的系統(tǒng),這個系統(tǒng)有很多的優(yōu)點,它比較容易操作,比較省時省力,還可以自主規(guī)劃獲取信息,從而來完成統(tǒng)計任務。還可以做到一些用傳統(tǒng)的數據統(tǒng)計方法完不成的任務,受到了社會各界的關注。在二十世紀八十年代左右,開始有了計算機,因此也出現了一些數據獲取設備,一些先進的設備把部分硬件用軟件代替,極大的降低了成本,并且性能得到了很大的提高。為數據采集技術的發(fā)展提供了一個良好的環(huán)境。而二十世紀九十年代后,數據采集技術越來越多的被用到了很多重要領域,比如航天領域、軍工領域等,到后來隨著生產水平的提高,又制造出了更先進的數據采集系統(tǒng)DAS。值得一提的是DAS的分辨率達到了16位,采樣速度能夠達到每秒幾十萬次,大大推動了數據采集技術的發(fā)展。在二十一世紀,數據采集更是飛速發(fā)展,舉一個列子,印度曾經在2009的時候對全國人口進行了指紋、虹膜采集,還給每個印度人都規(guī)定了身份號碼,把這些數據都收集到了某個機構,這是數據采集非常經典的一個例子。隨著互聯網行業(yè)的快速發(fā)展,互聯網數據采集技術逐漸被應用于互聯網及分布式領域,數據采集領域逐漸發(fā)生了很大的變化。一方面是,應用于分布式領域的互聯網數據采集技術變得越來越成熟,技術水平越來越高,而另一個方面,能用于計算機的一些數據采集系統(tǒng)的數量也越來越多,這一系列因素都把互聯網數據采集技術的發(fā)展提升到了一個全新的水平。

研究方法文獻研究法文獻研究法就是在了解研究方向或者課題的數量后,然后憑借對文獻的調查來獲取數據的方法,文獻研究法利用查閱文獻來獲取信息,從而全面、正確地了解掌握所要研究問題。文獻研究法目前已經應用到了很多個學科里面。觀察法觀察法就是研究人員在充分了解本次的研究目標、研究大綱和觀察表后,利用人體的感官或者輔助性的設備直接去觀察研究事物,從而去獲取數據的方法之一。要注意科學觀察必須是還要是有目標的、有規(guī)劃的、系統(tǒng)的和可重復的。比較分析法比較分析也被叫做類推或類比。在研究中應用非常廣泛,比較分析法就是對事情或者問題來進行比較,從而來了解它們的不同、特征和內在,它是一種很常見的辯證的邏輯方法。

調查基本設計隨著中醫(yī)醫(yī)療系統(tǒng)信息化的普及,大大增加了醫(yī)療衛(wèi)生數據。在這一背景下,中醫(yī)醫(yī)療機構需要建立完整的健康檔案體系。健康記錄將伴隨人們的生活,特別是對分析疾病的影響因素和改善人們的健康等方面有著很大的作用。正確使用網絡爬蟲技術可以準確、快速地獲取網頁上的大量信息,還可以及時更新數據。根據構建健康風險評估模型的需要,本研究利用數據收集、分析和組織過程處理數據并構建數據庫系統(tǒng),規(guī)范化管理健康風險評估研究所需要的數據,極大的降低了數據采集得成本,并且提高了工作效率。然而,使用爬蟲方法獲得的數據通常存在一些問題,例如無效和混淆。然而,在醫(yī)學研究統(tǒng)計分析方法所需的數據是全面和準確的,數據必須要保證安全、準確,必須要滿足科學研究所需要的條件。本研究為中醫(yī)科研工作建立了數據采集系統(tǒng),設計了相關功能。數據庫是存儲和管理數據使用最廣泛的工具。此調查的數據存儲在SQLServer數據庫中。數據庫的數據類型原始數據。首先,爬蟲程序所抓取的原始的分頁文件就是指的原始得頁面的存儲的數據信息,通常來說都是大型文本文件的數據。第一,爬蟲的目標網站通常都是那種結構相對復雜的重要的平臺。如果長時間的收集信息勢必會對醫(yī)療平臺的工作造成不好的影響。存儲和存檔從原始頁面收集來的信息,并隨時的分析處理存檔的數據,這可以很大程度上減少網站服務器上的爬蟲程序負載。第二,如果后續(xù)數據處理步驟或源數據分離步驟中存在著錯誤,則僅應讀取存儲在頁面存檔數據庫中的原始頁面數據,無需再次查看爬蟲程序。解析數據。解析數據是以二維表的形式存儲結構化數據。此處的數據大部分來自爬蟲程序捕獲的原始數據文件。在數據被解析以后,絕大部分的數據是能夠被用于科學研究的。由于視圖的直觀目的,某些網站可能會導致數據冗余和不規(guī)則等問題,這就要求在以后的數據庫設計系統(tǒng)中來組織數據。解析處理的數據將是可變數據排序處理的基礎,也是對分析準確性驗證的參考。變量化的數據。一些可變數據可以通過科學研究直接進行分析。此數據包括變量數據和變量索引。變量索引是區(qū)分結構化數據的工具,就像在表中的“健康文件”中一樣,有“年齡數據”,然后在變量索引表VARS中添加變量名稱“年齡”,在“健康文件”表中是變量ID為“var_11”等數據信息,用在索引和解釋變量索引數據中,還可以快速執(zhí)行數據統(tǒng)計并了解數據的分布。數據排序的基礎是變量化,就是內部數據排序。

數據整理截取片段:此功能主要針對抓取描述性語句中最重要的數據,它通常是數據收集中最基本的操作。在醫(yī)療結果判定中,通常會在對病情結果的解釋前會夾雜著幾句介紹性語句,截取關鍵數值主要依靠于截取片段功能。對一組數據來說,定好數據截取的開始位置、結束位置,就能夠獲取有用的數據,丟掉其他沒用的數據。正則匹配:正則表達式就是使用某些特定字符形成"規(guī)則字符串"的邏輯公式。而"規(guī)則字符串"是用于表示字符串篩選的一項方法。利用正則表達式來整理數據是非常方便的數據整理方式,能夠很快的匹配到各種用到的數據。智能分段:在醫(yī)學結果判定方面,大部分的診斷結果利用數值來表示,就像血壓是“130/90”,這種表示方法可以更直觀的表達出結果。不過,在中醫(yī)科研方面,這種的數值不好統(tǒng)計也不好分析,最好將這些數值分成很多的變量,比如采用分段工具,就可以將“130/90”變成兩個變量,就是舒張壓90收縮壓130。文字替換:數據中有著大量毫無意義的數據,就像"年齡"字段中使用文本替換函數的"年份"一樣,使用文字的替換功能,就能夠將字符變成空,這樣使數據得到了更加充分的利用。實例應用資料來源:山東省許多地市公共醫(yī)療服務系統(tǒng),包括了市民的健康檔案和公共衛(wèi)生、體檢結果、診療結果、病情測驗、健康管理、保險等數據。這一次的研究所創(chuàng)建的數據庫早已在實際工作環(huán)境中進行了測試。其中存儲和數據收集均在SQLServer數據庫中運行,本次系統(tǒng)使用Java語言開發(fā),在ApacheTomcatWeb服務器中運行,通過所用到的數據及功能建立了數據整理系統(tǒng)。在ApacheTomcatWeb服務器中運行,通過所用到的數據及功能建立了數據整理系統(tǒng)。本研究通過數據收集、數據分析、數據排序等功能設計了數據分揀系統(tǒng)。舉個網站的示例,上傳從網站搜集的數據索引資料以創(chuàng)建種子庫,建立后的種子庫(圖1所示),完成后來操作爬蟲、服務于爬蟲。截取的原始頁面來儲存(圖2所示),而且還利用原始的頁面建立了HTML解析字典(圖3所示)。本研究中使用的數據排序和收集工具(圖4、圖5所示)對這些數據進行排序。圖6所示的數據為整理后得到的。最后,把處理后的數據轉換為所使用的格式就可以了。圖STYLEREF1\s4SEQ圖\*ARABIC\s11數據庫功能展示—構建URL種子庫圖STYLEREF1\s4SEQ圖\*ARABIC\s12存儲的原始頁面圖STYLEREF1\s4SEQ圖\*ARABIC\s13HTML解析字典圖STYLEREF1\s4SEQ圖\*ARABIC\s14數據整理工具總覽圖STYLEREF1\s4SEQ圖\*ARABIC\s15數據整理工具A:截取片段;B:正則匹配;C:智能分段;D:文字替換。圖STYLEREF1\s4SEQ圖\*ARABIC\s16整理后的數據數據采集技術應用,數據收集技術的應用,這項研究從幾個公共衛(wèi)生基地收集和整理了數據。完成數據量見表4-1。表STYLEREF1\s4SEQ表\*ARABIC\s11

分析與結論5.1數據分析通過數據采集技術。把山東省德州市作為例子,爬取了山東省德州市醫(yī)療衛(wèi)生系統(tǒng)65歲以上老年人的體檢結果和慢性病管理數據。然后把數據整理分析后,對德州市所有患有高血壓/糖尿病的人群的病情的預防治理做出了評價報告,這次研究指明,從2015年11月到2019年7月,山東省德州市各個地方統(tǒng)計患有高血壓的人共有70868人,年齡平均在(64.88±12.08)歲,62.30%的人的文化水平是小學或初中。高血壓病人隨訪率是60.79%,用了國家發(fā)放免費藥物的病人,占了總用藥病人的42.74%。對于高血壓的控制,2015年的高血壓隊列基線中,血壓的控制率是9.23%(其中男性患者為8.35%,女性患者為9.95%),而到了2019年高血壓病人血壓控制率是43.63%(其中男性患者是42.32%,女性患者是44.69%)。隨著管理措施的貫徹落實,高血壓病人的控制率增加了34.74%。從2015年11月份到2019年7月份,這個項目一共管理了糖尿病人15369人,平均年齡在(64.50±11.29)歲,其中62.15%的糖尿病人的文化水平偏低,為小學或初中文化。糖尿病人的隨訪率為94.66%,用了國家免費發(fā)放藥物的病人人數是8308人,占了總用藥病人的90.57%。在血糖控制的這個方面,在2015年的糖尿病患者隊列基線中,血糖控制率是30.29%(其中男性患者為31.74%,女性患者為29.44%),而到了2019年,糖尿病患者管理隊列中的血糖控制率變成了47.61%(其中男性患者為50.59%,女性患者為45.84%)。隨著管理干預措施的貫徹落實,使得糖尿病人群體血糖控制率增加了17.32%。5.2主要結論互聯網數據收集技術使我們能夠快速高效地在網絡上收集大量數據,還可以實時更新不同的數據。目前,國內外許多研究人員深入的研究和探討了數據采集技術,而在當前已經得出的研究中,研究的重點一般都是互聯網數據采集技術的創(chuàng)新方面,而互聯網數據采集技術大部分用于互聯網數據的搜集方向。目前有很多學者都針對中醫(yī)醫(yī)學數據的采集技術展開了深入研究,而且還針對互聯網中醫(yī)健康數據構建了面向患者的數據采集算法,不過就后期的數據整理分析來說,仍然十分麻煩,還沒有達到系統(tǒng)的流程化操作。就中醫(yī)醫(yī)療系統(tǒng)數據采集來說,大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論