常用算法及書寫數據預處理_第1頁
常用算法及書寫數據預處理_第2頁
常用算法及書寫數據預處理_第3頁
常用算法及書寫數據預處理_第4頁
常用算法及書寫數據預處理_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據預處理數學建模培訓之楊文霞數學系2009.7.11數據預處理的重要性自2000年以來,數學建模競賽題目的數據提供方式 越來越多樣(txt文檔、acess數據、excel數據); 數據量越來越龐大;快速而方便的從提供的數據中,找到我們所需要使用 的數據,就可以為后面的分析和處理節(jié)約時間,而不 為提取數據所累;數據的存儲、重用和傳遞,也是數學建模競賽中常常 用到的;對數據的使用和分析是建模的基礎。本課內容安排以2000-08年數據為例,介紹如何將競賽中提供的 不同數據,轉換成被matlab所用的處理方法;-核心問題是轉化成矩陣(2)推薦一些重要中間數據存儲和處理方法;(3)利用matlab函數

2、對數據進行基本觀察。第一部分原始數據的預處理2000年A題 DNA序列分類 數據格式:文本文檔Art-model-data.txt中,有三個數據是需要我們提取的,前1-10行為已知的A類,11-20行為已知的B類,后20行為分類未知,需要我們進行分類的數據。分析:這個數據比較小,有很多處理方法,但是推薦大家把原始數據做個備份,再用手工整理一下使用。一行行的拷貝比較麻煩,可以先仔細觀察數據,將不需要的字符去掉,再整體拷貝。麻煩之處在于:提供的數據沒有空格,完全就是一串字符本可以將數據存成矩陣,但因為長度不一樣??上葘祿x出來存成字符串,再轉換成一個cell數據。具體的程序請見程序shumoda

3、ta00.m的第一部分;Nat-model-data.txt這個數據非常龐大,而且每一個DNA串非常長,每一個DNA串的長度都不一樣,在txt文件中,每一個串用它的串號開始,空行結束。而且串號并不是統一編碼為3位,而是不同的位數。這給計算機處理和判別帶來困難??梢允止とサ羟懊娴臄底?,若工作量太大,使用fgetl一行行讀進來,進行判斷,如果第一個字符是數字,表示是每個DNA的開頭;繼續(xù)讀字符直到數字結束,出現:符號后,后面的字符表示DNA;再遇到空白行,則表示上一個DNA串結束,下一個是新的DNA串。同樣把這182個DNA讀進來,每個DNA作一行,并轉換成Cell結構,這樣每一行的長度都是該DN

4、A的實際長度。2000年第2題 鋼管訂購和運輸(略)2001年兩個題目第1題.血管三維重建 涉及到圖像的讀取具體程序見: shumodata01.m第2題.公交車調度 為word提供的數據Word里面的表格數據,一般先拷貝到excel中,然后拷貝出所需要的純數據,存成ecxel格式,經由Matlab的Fileimportdata 選項,導入到matlab的工作區(qū)間。為保險起見,將導入的數據,存成一個.mat文件,以后就可以重新Load進工作區(qū)間參與運算。假設導入的數據為data1,可以做如下操作:save(d:shumo2001data1.mat,data1);這樣,在關掉了matlab之后,

5、只要重新運行:load(d:shumo2001data1.mat);即可導入數據。建議大家將一些重要的、需要重用的數據都先save。shumodata01.m2002年兩個題目(車燈光源優(yōu)化設計,彩票問題)數據很少,略過。2003年兩個題目1.SARS傳播模型附件2:北京市疫情數據,可以按前面的方法,將數據拷到excel后,存成文件,然后由matlab的import data,導入到工作區(qū)間。也可以存起來。2.露天礦生產的車輛安排數據比較小,但是大家需要熟用matlab的繪圖工具plot函數等,達到友好、清晰的視覺效果。 2004年第1題奧運會臨時超市網點設計 提供的是access數據庫,里面

6、有三張表如果大家直接在access里面做統計,需要需要大家會一些簡單的數據庫查詢語言。由于專業(yè)的限制,很多同學可能沒有學習過access數據庫處理技術。(只演示一下,同學們根據自己的實際情況學習)在此介紹一種比較容易上手的“笨辦法”,先用access把數據庫打開,大家會看到3張表,把這3張表分別導入excel,然后在excel中進行統計。同樣也介紹不需要數學公式的“笨辦法”。1.直接在access中使用sql語言進行查詢a.打開數據庫b.選擇“查詢”c.新建“簡單設計視圖”d.把“顯示表”關掉e.在查詢1窗口的上半部分點右鍵“SQL視圖”f.輸入如下指令:SELECT count(*) fro

7、m 第一次調查數據 where 西餐=yes;g.點工具欄的那個紅色驚嘆號,運行,可以得出選擇西餐的人數h.窗口關掉選擇保存,以后直接就可以用了j.菜單選擇“視圖”,選擇“SQL視圖”,即可修改SQL語言若輸入SELECT * from 第一次調查數據 where 西餐=yes;則列出所有選擇西餐的人按照如上方法可以統計出同學們所需要的數據。1.直接在access中使用sql語言進行查詢(續(xù))2.從access中導入到excel后,進行查詢a.打開數據庫b.選擇“表”,選定一張表c.“文件”,選擇“導出”,或右鍵“導出”d.保存類型選擇為“.xls”e.依次把3張表都導成excel格式,這時會

8、發(fā)現打鉤變成true,不打勾變成false,因為使用的邏輯類型。f.按如下方法可以得到統計值:選定excel表格上一個空白格;選擇菜單“插入”,選項“函數”,選擇COUNTIF;在彈出的對話框中選擇如下一頁所示;即可統計出所需要的數據。你要統計的列數的序號;后面的數字表示行號;代表從H列的第2行到3201行;表示滿足條件的值,等于FALSE,即找出這一列中所有值=FALSE的個數;也即:不坐東地鐵的個數;若寫TURE,則表示=TRUE的個數,即坐地鐵的個數;更“笨”的方法:1.選擇excel表格中的一列;2.菜單“編輯”,選擇“查找”;3.輸入關鍵詞“TRUE”,選擇查找全部;即所查找到的符合

9、要求的個數另外的方法:如果同學們想把表變成純數字表,可以用查找,替換的方式進行;然后把數字表導入matlab,可以很方便的處理;(演示)2005年第1題長江水污染2005年第2題DVD在線租賃 均可按上面提供的方法2004年第2題電力市場的輸電阻塞管理 數據可以先導入excel,再導入matlab。2006年第1題 出版社的資源配置 2006年第2題艾滋病療法的評價及療效的預測均為excel文檔,可以導入,拷貝,等。 2007年第1題 人口預測007年第2題 換乘系統(txt數據)因數模主頁上的數據打不開,沒有辦法分析,抱歉。2008年第一題數碼相機定位 涉及到圖像處理/計算機視覺知識。200

10、8年第二題 高校教育成本 自己查找數據總結:(1)第一步先把數據變成matlab可以訪問的格式;(2)可以采取手動提取和使用程序、工具軟件提取相結合;(3)如果是txt數據,而且混有字符和數字,一般處理起來比較麻煩點,則可用fgetl一行行讀出來,單獨處理好后再存成矩陣;有的時候需要手工先做一些處理;(4)以表格形式存放在word中的數據,一般都可以先拷貝到excel中,然后拷貝出里面的純數據,存成excel文檔,再由matlab的import data,導入;(5)以數據庫格式給的數據先用sql語言查詢,或者導入到Excel表格中。第二部分一些有用的matlab的函數使用以下提供了一些mat

11、lab的對數據提取與分析非常有用的函數,以及他們的用法。給定任意矩陣A;A=fix(rand(10,10)*20);若想找出矩陣A中,某些特定值,或者特定值的 位置: X,Y=find(A=10);%返回A中元素為10時的坐標 X,Y=find(A9 & A9 & A13) %訪問所有在913之間的元素想找出符合條件的元素的個數Num=nnz(A=10);%返回總個數;一些有用的繪圖函數Hist;bar,stem,pie,pie3,fill, plotmatrix,充分利用,可以為論文增色。 圖像數據的MATLAB提取與處理:1.圖像的讀取 I=imread ( cameramen.tif);讀取圖像文件的數據,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論