




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
數(shù)據(jù)采集與處理錯誤值清洗—格式錯誤數(shù)據(jù)采集與處理課程教學團隊格式錯誤格式類型不一致12多余的字符2格式錯誤清洗
錯誤符號錯誤原因#DIV/0!除數(shù)為0#N/A函數(shù)或公式中沒有可用的數(shù)值#NAME?在公式中使用了不能識別的文本#NULL!使用了不正確的區(qū)域運算符或引用的單元格區(qū)域的交集為空#NUM!公式或函數(shù)中某些數(shù)字有問題#REF!單元格引用無效#VALUE!在公式中使用了錯誤的數(shù)據(jù)類型格式錯誤常見格式錯誤格式錯誤清洗
格式類型不一致數(shù)據(jù)類型不一致:數(shù)據(jù)的存儲類型不符合實際情況,如日期類型的以數(shù)值型存儲,時間戳存為字符串等。數(shù)據(jù)編碼不一致:數(shù)據(jù)存儲的編碼不一致,例如將UTF-8寫成UTF-80。數(shù)據(jù)格式不一致:數(shù)據(jù)的存儲格式問題,如半角全角字符、中英文字符等。數(shù)據(jù)異常不一致:如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期越界、數(shù)據(jù)前后有不可見字符等。數(shù)據(jù)依賴沖突:某些數(shù)據(jù)字段間存儲依賴關系,例如城市與郵政編碼應該滿足對應關系,但可能存在二者不匹配的問題。數(shù)據(jù)多值不一致:大多數(shù)情況下,每個字段存儲的是單個值,但也存在一個字段存儲多個值的情況,其中有些可能是不符合實際業(yè)務規(guī)則的。格式錯誤清洗名稱:對于同一個數(shù)據(jù)對象的名稱首先應該是一致的。例如對于訪問深度這個字段,可能的名稱包括訪問深度、人均頁面瀏覽量、每訪問PV數(shù)。類型:同一個數(shù)據(jù)對象的數(shù)據(jù)類型必須統(tǒng)一,且表示方法一致。例如普通日期的類型和時間戳的類型需要區(qū)分。單位:對于數(shù)值型字段,單位需要統(tǒng)一。例如萬、十萬、百萬等單位度量。格式:在同一類型下,不同的表示格式也會產(chǎn)生差異。例如日期中的長日期、短日期、英文、中文、年月日制式和縮寫等格式均不一樣。長度:同一字段長度必須一致。小數(shù)位數(shù):小數(shù)位數(shù)對于數(shù)值型字段尤為重要,尤其當數(shù)據(jù)量累積較大時會因為位數(shù)的不同而產(chǎn)生巨大偏差。計數(shù)方法:對于數(shù)值型等的千分位、科學計數(shù)法等的計數(shù)方法的統(tǒng)一。縮寫規(guī)則:對于常用字段的縮寫,例如單位、姓名、日期、月份等的統(tǒng)一。例如將周一表示為Monday還是Mon還是M。值域:對于離散型和連續(xù)型的變量都應該根據(jù)業(yè)務規(guī)則進行統(tǒng)一的值域約束。約束:是否允許控制、唯一性、外鍵約束、主鍵等的統(tǒng)一。統(tǒng)一數(shù)據(jù)規(guī)格格式錯誤清洗
多余的字符刪除空格“Ctrl+H”替換空格為空格式錯誤清洗刪除空行方法1:開始—查詢和選擇—定位條件選擇“空值”表格中所有的空行是不是已經(jīng)被全部選中了,呈藍色顯示,然后選擇所在行刪除即可。格式錯誤清洗第1步:接下來,按下“Ctrl+A”鍵,選擇整個工作表。依次點擊菜單欄的“數(shù)據(jù)/篩選/自動篩選”命令。第2步:這時,在每一列的頂部,都會出現(xiàn)一個下拉列表框,任選一列,點擊其下拉列表框,從中選擇“空白”。如果頁面內(nèi)還有數(shù)據(jù)行,那么,再另選一列,從其下拉列表框中選擇“空白”,直到頁面內(nèi)已看不到數(shù)據(jù)為止(如圖2)。第3步:好了,此時頁面中剩下的就全部是空白行了,全選后單擊“編輯”菜單,選擇“刪除行”命令就可以了。第4步:這時所有的空行都已被刪去,再單擊“數(shù)據(jù)/篩選/自動篩選”命令,工作表中的數(shù)據(jù)就全恢復了,最后將左側(cè)插入的一列刪除即可。方法2:篩選法格式錯誤清洗方法3:開始—數(shù)據(jù)—從表格刪除行—>刪除空行格式錯誤清洗一、從最左邊起取字符
=left(源數(shù)據(jù)格,提取的字符數(shù))
=left(A3,2)表述為:從單元格A3的最左邊起,提取2個字符。二、從最右邊起取字符
=right(源數(shù)據(jù)格,提取的字符數(shù))
=right(A3,2)表述為:從A3單元格最右邊起,提取2個字符。三、從數(shù)據(jù)中間提取幾個字符
=mid(A3,5,2)表述為:提取單元格A3中第五位起后面兩位。
=mid(sheet1!A3,5,2)表述為:提取sheet1表的單元格A3中第五位起后面兩位。也就是提取第5和第6兩個字符。單元格里面去掉或提取某些字符格式錯誤清洗四、先從左取字符,再從右取字符
=RIGHT(LEFT(A3,5),3)表述為:首先從A3單元格第一個字符從左往右取5個字符,然后再對取出來的5個字符從右向左取3個字符。假如A3中是“abcdefghijkl”,先從左向右取5個變成abcde,然后從右往左取3個,就變成edc了。如果不足10個字符的話,那就是最后一個字符了。五、去掉字符前面的幾個字符
=RIGHT(A3,LEN(A3)-2)表述為:從單元格A3字符的右邊起,提起所有的字符數(shù),去掉后面兩個字符。LEN表示返回字符串中的字符數(shù)。例如:字符123456789,變成了3456789六、去掉字符后面的幾個字符
=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小主持人培訓
- 長春市農(nóng)安縣2025年一級建造師市政工程高分沖刺試題含解析
- 固定資產(chǎn)管理的成效與建議計劃
- 提升專業(yè)技能應對挑戰(zhàn)計劃
- 年度成果總結(jié)與展望計劃
- 組織跨學科活動的思路計劃
- 安全演習提升保安應變能力計劃
- 教學工作計劃調(diào)整流程詳解步驟
- 如何增強急救人員的職業(yè)意識計劃
- 大班團隊學習成果展示計劃
- 《歌手大賽-小數(shù)加減混合運算》教學反思
- 不動產(chǎn)抵押物清單(新)
- 山東省實驗科創(chuàng)班試題2022
- 文創(chuàng)產(chǎn)品設計開發(fā)(new)
- 輸變電工程標準化施工作業(yè)卡變電工程
- MSA-測量系統(tǒng)分析模板
- 10kV配電安裝工程施工方案
- 電機與變壓器(第6版)PPT完整全套教學課件
- 麗聲北極星分級繪本第三級下 The Best Time of
- 某醫(yī)學院醫(yī)學生腎病科疾病教案-腎小球疾病
- 醫(yī)療行業(yè)商密解讀分析報告
評論
0/150
提交評論