




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 統(tǒng) 計 研 究 年 月 計 和假設 檢 驗 ) , 然 而 數 據 收 集 方 式 的 改 變 直 接 淡 化 了樣本 的意義 。比如基 于瀏覽 和偏 好數據 構建 的 格式具有 彈性和適應性 ( 非 固定 格式 ) 。下表 列 出 了關 系型數據庫管理 系統(tǒng) ( ) 與 的 推薦 算法 , 誠然 改進算 法可 以改 善推 薦效果 , 但 是增 加數 據 同樣 可 以達 到 相 同 的 目的 , 甚至效 果更好。 即所 謂 的“ 大量 的數 據 勝 于 好 的算 法 ” 這 與 統(tǒng) 計 學 的關 鍵定 律 ( 大數定 律 和 中心極 限定 理 ) 是一 致 的。 同樣 , 在 大數 據分 析
2、 中 , 可 以用 數 量 來 產生 質 量 , 而 區(qū)別 。事實上 , 有些 開始 借鑒 的 一 些思路( 如 和 ) , 而 基 于 的 高 級 查 詢 語 言 ( 如 和 ) 也 使 更 接 近傳 統(tǒng) 的數 據庫 編 程 , 二 者 的差 異 將 變得 越來 越模糊 ” 。 表 關 系型 數 據 庫 管理 系統(tǒng) ( ) 與 的 比較 不再 需要 用樣 本來 推 斷總 體 。事 實 上 , 在某 些 場 合 ( 比如社會 網絡數據 ) , 抽樣 本身 是 困難 的。 數 據導 向 的、 基 于算 法 的數 據 分 析方 法 成 為計 算 機時代 統(tǒng)計 學發(fā) 展無法 回避 的一個 重要 趨勢
3、 。算 數 據量 訪 問形 式 交 互 式 和 批 處 理 批 處 理 法 模型 不僅對 數據 分 布 結 構有 更 少 的限 制性 假 定 , 而 且在計 算效 率上 有很 大 的優(yōu) 勢 。特別 是一些 積極 的開源 軟件 的支撐 , 以及 天生 與計算 機 的相容 性 , 使 算 法模 型越來 越受 到學 界 的廣泛重 視 。 大 數據 分 析 首先 涉 及 到存 儲 、 傳 輸等 大 數 據管 更 新頻 次 結 構模 式 結 構 化 程 度 完 整 性 多次 讀 寫 靜 態(tài) 模 式 結 構 化 的數 據 集 高 一次寫入 , 多 次 讀 取 動 態(tài) 模 式 半 結 構 和 非 結 構 數
4、 據 集 低 橫 向 擴 展 非 線 性 線 性 來源 : 根 據 ( ) 整理 。 理 方 面的 問題 。僅 從 數 量 上 來 看 , 信息爆炸、 數 據 過剩 、 數據 泛濫 、 數據墳墓、 豐 富 的數 據 貧 乏 的知 識 這些 詞組表 達 的主 要是 我 們 匱 乏 的 、 捉襟 見 大數 據分析 的可行性 問題指 的是 , 數 據量 可能大 到 已經超過 了 目前 的存儲能力 , 或 者盡管 沒有 大到無 法存儲 , 但是如 果算 法對 內存 和 處 理器 要求 很 高 , 那 么數據相 對也 就 “ 大” 了 。換 句話 說 , 可行 性 問題 主要是 , 數據 量太 大 了
5、, 或 者算 法 的復 雜度 太 高 。大 肘 的存 儲能 力 , 同時 , 存儲 數 據 中有 利用 價值 的部分 卻 少 之又少 或塵封 窖藏 難 以被發(fā) 現(xiàn) 。這 除 了對 開采 工 具 的渴求 , 當時 的情 緒 主要 還 是 遷怨 于 盲 目的記 錄, 把 過多 精力 放在 捕 捉 和存 儲 外 在 信 息 。在 這 種 數據分析 的有 效性問題指 的是 , 盡 管 目前 的硬 件條件 允許 , 但是耗 時太久 , 無 法在 可容 忍 的或 者說 可 以接 受的時 間范 圍 內完成 。 目前 對有 效性 的解 決 辦 法是 情 況下 , 開采 有用 的知識 等價 于拋棄 無用 的數
6、據 。 然而, 大數據 時代 的思路 改變 了, 開始 變本 加 厲 采用并行處理 。注意到 , 高性能計 算和 網格計 算也是 并行處理 , 但是 對 于大數 據 而言 , 由于很 多節(jié) 點 需要 訪問大量數據 , 因此很 多計算節(jié) 點會 因為 網絡 帶寬 的 限制而不得 不空 閑等 待 。而 會 盡量 在計 算節(jié)點上存儲 數據 , 以實現(xiàn)數 據 的本地 快速訪 問 。因 此, 數據本地化 是 的核心特征 。 巨細靡 遺地記 錄一切 可以記錄 的數據 。因為 : 數 據 再 怎么拋棄還 是會 越來 越 多 。我們 不 能通 過刪 減 數 據 來適應 自己的無 能 , 為 自己不愿 做 出改
7、變 找借 口, 而是應該 面對現(xiàn) 實 , 提高處理海量 數據 的能力 。 退 一 步, 該刪 除哪些數 據呢? 當前無 用的數 據將來 也無 大數據 存儲 目前廣 泛應 用 的是 ( 用 嗎 ?顯然刪 除數據的成本要大 于存 儲的成本 。 五、 結 論 首先 , 數 據科 學 不 能 簡單 地 理 解 為統(tǒng) 計 學 的重 命名 , 二者 所 指 “ 數據” 并 非同一概念, 前 者 更 為 寬 ) 、 ( ) 等 基 于計算 機群 組 的文件 系統(tǒng) , 它 可 以 通過 簡 單 增 加計 算 機來 無 限地擴 充 存 儲 能力 。值 得 注 意 的是 , 分 布 式文 件系統(tǒng) 存儲 的數 據僅
8、僅 是整個 架 構 中最 基礎 的 泛, 不 僅包 括結 構型 數據 , 而且 還包 括文本 、 圖像 、 視 頻、 音頻、 網絡 志 等 非結 構 型 和 半 結 構 型數 據 ; 同 時, 數量 級 也 是 后 者 難 以企 及 的 ( 以上 ) 。但 是 數據 科學 的理論 基 礎 是 統(tǒng)計 學 , 數據 科 學 可 以看作 是統(tǒng)計 學 在研 究 范 圍 ( 對象 ) 和分 析 方 法 上 不 斷擴 展 的結果 , 特別 是數 據導 向 的、 基于算 法 的數 據分析 方法 越來 越受 到學界 的廣 泛重 視 。 描述 , 是為其他部件 服務的 ( 比如 ) , 并 不 能直接 用 于
9、統(tǒng)計 分 析 。而 這類 分 布 式 存 儲 系統(tǒng) 可 以 實 現(xiàn)高 級 查詢 語 言, 比如 的 和 , 的 , 還有 、 等 。 與 傳 統(tǒng) 的 關 系 型 數 據 庫 管 理 系 統(tǒng) ( ) 不 同的是 , 數據 庫 對現(xiàn) 實 中的數 據 第二 , 從某 種程 度上來 講 , 大數 據考 驗 的并不是 第 卷 第 期 魏瑾瑞 蔣萍 : 數 據 科 學 的 統(tǒng) 計 學 內 涵 統(tǒng) 計學 的方 法論 , 而是 計 算 機 科 學 技 術 和 算 法 的適 應 性 。譬 如 大數 據 的存儲 、 管 理 以及分 析架 構 , 這些 , , : , , 都是 技術 上 的應 對 , 核 心 的數
10、 據 分 析 邏輯 并 沒 有 實 質性 的改變 。 因此 , 大 數 據 分 析 的關 鍵 是 計 算 機 技 術 如 何更 新 升級 以適 應 這 種 變 革 , 以便 可 以像 從 前 一 朱 揚 勇 ,熊 贅 數 據 學 與 數 據 科 學 發(fā) 展 現(xiàn) 狀 : 一 樣 滿 足統(tǒng) 計分 析 的需要 。 第三, 大 數據 問題 很 大程度 上來 自于商業(yè) 領 域 , 受 商 業(yè)利 益驅 動 , 因此 數據 科學 還被 普遍 定 義為 , 將 數 據 轉化 為有 價值 的 商業(yè)信 息 的完 整過 程 。這種 強 調 應用 維度 的觀點 無 可 厚 非 , 因為 此 處 是 數 據 產 生 的
11、土壤 , 符 合數 據科 學數 據導 向的理念 。不過 , 早 在 世 紀 年 代 中 期 , 已故 圖靈 獎得 主格 雷 ( 鄭 京 平 ,王 全 眾 官方 統(tǒng) 計 應 如 何 面 對 的挑 戰(zhàn) 統(tǒng) 計研 究, ( ) : , ( ) : : , ( ) : ) 就 已經意 識 到, 數 據 庫 技 術 的下 一 個 “ 大 數 據” 挑 戰(zhàn)將 會 來 自科 學 領 域 而 非 商 業(yè) 領 域 ( 科 學 研 , ( ): , , , , ( ) : 究 領域 成為 產生 大 數 據 的重 要 土 壤 ) 。他 提 出科 學 研 究 的“ 第 四范式 ” 是數據 , 不 同 于實 驗 、 理
12、論 、 和計 算這三種 范式 , 在該 范式下 , 需要 “ 將 計 算 用 于 數 據, 而非 將 數 據 用 于 計 算 ” 。這 種 觀 點 實 際 上 將 數 據從 計算 科 學 中單獨 區(qū)別 開 了 。 : , ( ) : , , , , 第 四, 數 據科 學 范 式 對 統(tǒng)計 分 析 過 程 的各 個 環(huán) 節(jié)都 提 出 了挑戰(zhàn) , 集 中表 現(xiàn) 在 數據 收集 和數 據 分 析 這兩 個方 面 。數據 收 集不再 是 刻意 的 、 經過設 計 的 , , 一 : 一 而更 多 的是用 戶使 用 電子數 碼 產 品的副 產 品或用 戶 自行 產 生的 內容 , 這 種 改 變 的
13、直接 影 響是 淡 化 了樣 , , ( ): 本 的意義 , 同時增 進 了數據 的 客觀性 。事實 上 , 在 某 些場 合 ( 比如 社 會 網絡 數 據 ) , 抽 樣 本 身 是 困難 的 。 數據 的存 儲 和分析 也不 再一 味地 依賴 于 高性 能計 算 機, 而是轉 向 由中低 端設 備構 成 的大 規(guī) 模 群 組 并 行 處理 , 采用 橫 向擴展 的方式 。 王 珊 ,等 架 構 大 數 據 : 挑戰(zhàn)、 現(xiàn)狀 與展望 計算機 學報, ( ) : : , , , , : 一 第五, 目前 關 于 大 數據 和 數 據 科學 的討 論 多 集 中于軟硬 件架 構 ( 視 角
14、) 和 商業(yè) 領 域 ( 應 用 視 角) , 統(tǒng)計 學 的視 角 似 乎 被 邊 緣 化 了 , 比如 覆 蓋 面 、 代 表性 等 問題 。統(tǒng) 計 學 以數 據 為 研究 對 象 , 它 對 大 作 者 簡 介 數 據分 析 的影 響也 是 顯 而 易 見 的 , 特 別 是 天然 的 或 潛 在 的平衡 或相 關 關 系 不 僅 約束 了數 據 質 量 , 而且 為統(tǒng)計 推 斷和 預測 開辟 了新 的視 野 。 參 考 文 獻 : ( ) : 魏瑾 瑞 , 男, 年 生 , 河北武安人 , 年 畢 業(yè) 于 廈 門 大學經濟學院統(tǒng)計 系, 獲經 濟學博 士學位 , 現(xiàn) 為 東北 財 經 大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國電子秒表行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國用戶管理軟件行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國彈簧沖量安全閥行業(yè)投資前景及策略咨詢研究報告
- 2025至2031年中國SB八葉片行業(yè)投資前景及策略咨詢研究報告
- 2025至2030年中國非標高強度螺絲數據監(jiān)測研究報告
- 2025至2030年中國閃光蠟燭芯數據監(jiān)測研究報告
- 2025至2030年中國計量螺旋秤數據監(jiān)測研究報告
- 2025至2030年中國普通型蠟燭機數據監(jiān)測研究報告
- 2025至2030年中國吸水箱數據監(jiān)測研究報告
- 2025年中國食堂管理系統(tǒng)市場調查研究報告
- 浙江臺州仙居富民村鎮(zhèn)銀行2023年招聘人員筆試歷年高頻考點試題答案帶詳解
- 教科版六下科學全冊課時練(含答案)
- 機械制造技術基礎PPT(中職)全套教學課件
- 煙花爆竹考試真題模擬匯編(共758題)
- 數學人教版六年級下冊簡便運算課件
- 非遺申請書范本
- 四年級數學上冊口算天天練4
- 水利水電工程監(jiān)理平行檢測表部分
- 分部分項工程質量檢驗計劃表
- HY/T 266-2018外壓中空纖維超濾膜表面親水性的測試接觸角法
- GB/T 4857.3-2008包裝運輸包裝件基本試驗第3部分:靜載荷堆碼試驗方法
評論
0/150
提交評論