AQI監(jiān)測信息系統(tǒng)數(shù)據(jù)庫設計與實現(xiàn)_第1頁
AQI監(jiān)測信息系統(tǒng)數(shù)據(jù)庫設計與實現(xiàn)_第2頁
AQI監(jiān)測信息系統(tǒng)數(shù)據(jù)庫設計與實現(xiàn)_第3頁
AQI監(jiān)測信息系統(tǒng)數(shù)據(jù)庫設計與實現(xiàn)_第4頁
AQI監(jiān)測信息系統(tǒng)數(shù)據(jù)庫設計與實現(xiàn)_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

AQI監(jiān)測信息系統(tǒng)數(shù)據(jù)庫設計與實現(xiàn)摘 要空氣質量問題一直是一個社會熱點,是我國一直以來重點解決的難題。我國在空氣質量方面已取得一定成績,但仍需進一步改善[1]。影響空氣質量的因素多種多樣,有社會的人為因素,也有自然因素。本文以空氣質量問題作為研究背景,以3月5號到3月31號這段時間內爬取的中美評估標準的兩套AQI數(shù)值和氣象因素數(shù)據(jù),以及2013-2016這四年的歷史數(shù)據(jù)作為分析對比的對象,展開基于關系型數(shù)據(jù)庫MySQL的數(shù)據(jù)分析研究。研究表明:中國的AQI評估標準比美國的AQI評估標準更為松懈,整體的空氣質量等級偏高,需要作進一步的改善;不同的氣象因素和AQI指數(shù)呈現(xiàn)一定的關系,氣象因素對AQI有一定程度的影響,可根據(jù)天氣預報情況,對不同的氣象作出不同的預防措施;而不同季節(jié)里,AQI的整體水平而有所不同,春季和冬季的AQI指數(shù)偏高,空氣質量較低,可在該兩個季節(jié)加強預防措施以及展開更深入的研究。關鍵詞:AQI,氣象因素,網(wǎng)絡爬蟲,關系型數(shù)據(jù)庫,數(shù)據(jù)分析AbstractTheissueofairqualityhasalwaysbeenasocialhotspotandaproblemthathasbeensolvedinChina.Chinahasachievedcertainresultsintermsofairquality,butitstillneedsfurtherimprovement[1].Therearemanyfactorsaffectingairquality,includinghumanfactorsandnaturalfactors.Thispapertakestheairqualityproblemastheresearchbackground.ThetwosetsofAQIvaluesandmeteorologicalfactorsoftheSino-USevaluationcriteriaclimbedfromMarch5toMarch31,andthehistoricaldataofthefouryearsfrom2013to2016.Asanobjectofanalysisandcomparison,thedataanalysisresearchbasedonrelationaldatabaseMySQLislaunched.TheresearchshowsthatChina'sAQIevaluationstandardismorelaxthantheUSAQIevaluationstandard,andtheoverallairqualitylevelishigh,whichneedsfurtherimprovement;differentmeteorologicalfactorsandAQIindexhaveacertainrelationship,andmeteorologicalfactorshavecertainAQI.Thedegreeofinfluencecanbebasedontheweatherforecast,differentprecautionscanbetakenfordifferentmeteorologicalconditions;indifferentseasons,theoveralllevelofAQIisdifferent,theAQIindexinspringandwinterishigh,andtheairqualityislow.Thetwoseasonsstrengthenedpreventivemeasuresandconductedmorein-depthresearch.Keywords:AQI,meteorologicalfactors,webcrawler,relationaldatabase,dataanalysis目錄487_WPSOffice_Level11緒論 117880_WPSOffice_Level21.1題目背景及目的 111316_WPSOffice_Level21.2國內外研究情況 116359_WPSOffice_Level21.3題目研究方法 224558_WPSOffice_Level21.4論文構成及研究內容 217880_WPSOffice_Level12AQI評估標準及系統(tǒng)需求 48230_WPSOffice_Level22.1環(huán)境空氣質量AQI評估標準 417880_WPSOffice_Level32.1.1中國AQI評估標準 411316_WPSOffice_Level32.1.2美國AQI評估標準 416359_WPSOffice_Level32.1.3中美AQI評估標準對比 410629_WPSOffice_Level22.2基于關系型數(shù)據(jù)庫的AQI監(jiān)測數(shù)據(jù)庫系統(tǒng)需求 58230_WPSOffice_Level32.2.1關系型數(shù)據(jù)庫基礎知識 510629_WPSOffice_Level32.2.2系統(tǒng)需求分析 728295_WPSOffice_Level32.2.3基于關系型數(shù)據(jù)庫的AQI監(jiān)測數(shù)據(jù)分析的優(yōu)點 911316_WPSOffice_Level13關系型數(shù)據(jù)庫的設計與實現(xiàn) 1128295_WPSOffice_Level23.1數(shù)據(jù)庫設計與實現(xiàn) 1132407_WPSOffice_Level23.2AQI監(jiān)測數(shù)據(jù)的來源 1622991_WPSOffice_Level33.2.1數(shù)據(jù)的爬取 1620391_WPSOffice_Level33.2.2歷史數(shù)據(jù)的導入 1727091_WPSOffice_Level23.3基于AQI信息數(shù)據(jù)庫的數(shù)據(jù)分析 1828757_WPSOffice_Level33.3.1數(shù)據(jù)分析工具 185082_WPSOffice_Level33.3.2數(shù)據(jù)可視化和分析結果 1813324_WPSOffice_Level33.3.3數(shù)據(jù)分析結果建議 3716359_WPSOffice_Level1結論 3924558_WPSOffice_Level1參考文獻 408230_WPSOffice_Level1致謝 4110629_WPSOffice_Level1附錄 42緒論題目背景及目的空氣質量問題一直是我國關注的難題之一,雖然我國的空氣質量在近年來得到了一定的改善,大氣污染防治已經(jīng)取得可喜成績,但是總體的空氣質量仍然是不理想的,仍有部分城市的空氣質量未達到標準[1]。雖然空氣質量監(jiān)測問題一直都是社會的熱點,但是目前從互聯(lián)網(wǎng)得知,空氣質量發(fā)布平臺上的數(shù)據(jù)源只采取國家環(huán)保局的,且空氣質量標準也只采取一套標準,即中國標準。由于只有一套數(shù)據(jù)和標準,得出的結論和建議比較片面。如果采取兩套不同數(shù)據(jù)源和標準的技術方案,例如國內環(huán)保局和美國領事館的數(shù)據(jù)源和標準,來對同一地區(qū)的空氣質量進行評估,則可以對比相同監(jiān)測點的兩套數(shù)據(jù),從而更好地決策、管理和防治污染。擁有有效、合理的環(huán)境空氣質量AQI評估可以對環(huán)境空氣污染控制治理方面提出有建設性的建議。本文中,在中國空氣質量指數(shù)標準和美國空氣質量指數(shù)標準下,通過比較同期或者不同時期的數(shù)據(jù),可以更加客觀、合理地反映當前,或者不同時期的空氣質量。如果同一地區(qū)不同監(jiān)測站的AQI檢測數(shù)據(jù)差距很大時,就有可能是某一監(jiān)測站出現(xiàn)問題,此時可以提醒有關部門來對該監(jiān)測站進行檢修,同時可以為相關環(huán)保部門提供數(shù)據(jù)資料和決策科學依據(jù)來進行環(huán)境管理及污染防治。國內外研究情況目前在國內,有一些研究了空氣質量AQI對人體的傷害,主要是從各個角度進行分析,例如空間角度和時間角度,從而對AQI評估標準提出一個合理的建議。此外,還有研究空氣成分引子的,例如SO2和NO2等,也有研究社會和自然環(huán)境對AQI的影響,例如交通情況和海拔情況,但研究各種氣象因素對AQI影響的文獻卻較少。在國外,大多數(shù)研究的是工業(yè)化、城市化對空氣質量AQI的影響,也有一部分研究了各種污染物濃度對AQI的影響。此外,也有研究了同一地區(qū),不同時間內空氣質量AQI的變化趨勢,以此來推測一些影響因素。但同樣,與國內研究一樣,有關研究各種氣象因素對AQI影響的文獻卻非常少,只有一小部分有簡單粗略討論過。在大多數(shù)已有研究中,數(shù)據(jù)的存儲方式都使用了大數(shù)據(jù)框架來進行存儲,主要是可以方便地進行海量數(shù)據(jù)實時存儲,而本文使用了關系型數(shù)據(jù)庫MySQL。關系型數(shù)據(jù)庫不僅方便使用,也方便一些數(shù)據(jù)分析,且本課題大多數(shù)數(shù)據(jù)還是以導入歷史數(shù)據(jù)為主。在已有的研究中,研究各氣象因素對AQI的影響的研究較少,有的話也是只對一兩個氣象因素的研究,本課題將結合這些已有研究,對多個氣象因素的影響進行討論。題目研究方法研究表明,空氣質量指數(shù)AQI除了與PM2.5濃度有關之外,還與多項氣象因素相關,包括風向、溫度、濕度等,例如風向的不同,對不同方位的區(qū)域有不同的影響,特別是風向來自某一工業(yè)區(qū)方向時[2]。本文通過研究分析空氣質量AQI與多項氣象因素的關系,來提出相關的合理性建議。在數(shù)據(jù)來源方面,本文使用爬蟲技術,借助爬蟲工具“八爪魚采集器”,主要爬取美領館上廣州市數(shù)個監(jiān)測站(廣雅中學、市五中、麓湖、公園前)的AQI指數(shù)數(shù)據(jù),以及風力、風向、溫度、濕度等數(shù)據(jù),同時導入美國大使館中的歷史數(shù)據(jù),以對不同時期的數(shù)據(jù)進行分析。在數(shù)據(jù)保存方面,在DBMS平臺上設計數(shù)據(jù)庫。本文設計的是關系型數(shù)據(jù)庫MySQL。利用關系型數(shù)據(jù)庫可快速進行數(shù)據(jù)分析,得到有用的結論[3]。設計與實現(xiàn)關系型數(shù)據(jù)庫后,將相關數(shù)據(jù)保存到數(shù)據(jù)庫中,最后利用數(shù)據(jù)分析工具,進行基于關系型數(shù)據(jù)庫的數(shù)據(jù)分析,得到空氣質量AQI與其他氣象因素的關系,并提出相關改善空氣質量的建議。同時,本文還在工程經(jīng)濟、管理、倫理方面考慮,結合數(shù)據(jù)進行分析后,思考針對珠三角區(qū)域經(jīng)濟發(fā)展與環(huán)境污染的關聯(lián)度,提出合理性建議。論文構成及研究內容第一章是緒論。簡單說明研究的背景和當前研究情況,以及本文需要實現(xiàn)的目標。同時也查閱分析了有關該研究的一些國內的研究情況,并提出了當前研究的不足和需要補充的內容。此外,也闡述了本研究接下來的研究方法和需要使用的技術工具。第二章是一些理論基礎知識。先是對當前中美AQI評估標準的一個分析對比,說明我國AQI評估標準和美國AQI評估標準一個差距,以此來進一步說明當前我國互聯(lián)網(wǎng)上的一套AQI評估標準所存在的缺陷,也說明需要使用兩套評估標準的重要性。同時,也對關系型數(shù)據(jù)庫進行了了解,也對系統(tǒng)的需要進行了分析。第三章則是技術的實現(xiàn)。在理論基礎上,對AQI監(jiān)測信息系統(tǒng)數(shù)據(jù)庫進行設計和實現(xiàn),然后獲取所需要的氣象數(shù)據(jù),并進行保存,最后基于所獲取的數(shù)據(jù)以及所實現(xiàn)的關系型數(shù)據(jù)庫進行數(shù)據(jù)分析,得出自己所想要的結論,并提出合理性建議。

2AQI評估標準及系統(tǒng)需求2.1環(huán)境空氣質量AQI評估標準2.1.1中國AQI評估標準在我國,日常中我們在手機天氣軟件上查閱所看到的的空氣質量指數(shù)AQI,其單位是24小時平均濃度。在我國AQI評估標準中,所實行的國家標準可以分為兩個等級:一級“優(yōu)”對應的PM2.524小時平均濃度為35微克/立方米;二級“良”,對應的PM2.524小時平均濃度為75微克/立方米。二級“良”是AQI的一個評估標準,但從這兩個數(shù)據(jù)可以看出來,“良”等級的兩端相差非常大,如果空氣質量同樣是良,有可能情況卻大不相同。中國的空氣質量評估標準剛剛上路,是最寬松的、第一階段的過渡期標準,所以有時候若顯示為優(yōu)質的空氣質量指數(shù),但是這并不表示空氣是完全健康無害的。2.1.2美國AQI評估標準對于美國,其利用環(huán)境保護局開發(fā)的一個公式可以有助于提供科學依據(jù)資料,并提供有關的決策。比如說,當空氣質量指數(shù)AQI為50微克/立方米時,會告知人們空氣質量優(yōu),對公眾健康幾乎沒有影響。當空氣質量指數(shù)AQI大于300微克/立方米時,則告知人們空氣質量對人體有害。但是,美國空氣質量指數(shù)的評估標準不同于在中國使用的標準,即兩國評估標準下的AQI有可能不一樣。在美國,其空氣質量指數(shù)評估標準為35微克/立方米,即為“良”等級,所以在中國空氣質量指數(shù)是“良”的時候,在美國就是中度污染了。2.1.3中美AQI評估標準對比為了最大限度地保護公眾的健康,針對PM2.5濃度,世界衛(wèi)生組織提出最安全水平的標準為24小時平均濃度為25微克/立方米或更低,而且還建議將75微克/立方米、50微克/立方米和37.5微克/立方米作為三個階段性過渡標準,世界各國可以在這建議的基礎上根據(jù)各自國家的自身情況來制定合適的標準[4]??梢缘弥覈捎玫臉藴食跗谶^渡標準,而且這是世界衛(wèi)生組織所制定的標準中的最低標準。相比之下,美國采用的是二十四小時平均濃度35微克/立方米,比中國有著更嚴格的要求。由此可知,美國執(zhí)行的標準相當于世界衛(wèi)生組織空氣質量指數(shù)指導值的第三階段標準,而我國才相當于第一階段的標準,才剛起步。PM2.5濃度對應的中美AQI評估標準如表2.1所示。表2.1PM2.5濃度對應的中美AQI評估標準[5]PM2.5指數(shù)(AQI)日均濃度值(ug/m3)空氣質量等級中國美國0-500-350-12一級(優(yōu))50-10035-7512-35二級(良)100-15075-11535-55三級(輕度污染)150-200115-15055-150四級(中度污染)200-300150-250150-250五級(重度污染)300-500250-500250-500六級(嚴重污染)由表格1.1可知,在五級時,即AQI>150時,中美的對PM2.5濃度的評估標準一致,但是當AQI<150時,中美兩國對PM2.5濃度所劃分的等級就出現(xiàn)了差異,美國的更為嚴格。且據(jù)查閱研究,美國利用PM2.5計算AQI指數(shù)的公式也比中國的更為嚴格,所以相對于美國來說,中國的AQI評估標準更為松懈[6]。出于我國AQI評估標準只是初期過渡標準,所以即使是中低濃度的PM2.5,亦或是“良”等級的空氣質量,若長時間暴露其中,對人們身體所造成的危害也是巨大的[6]。綜上所述,我國AQI評估標準和美國AQI評估標準還是有一定的差距,所以使用兩國的評估標準作對比進行分析,可以得出更合理、有效的結論。2.2基于關系型數(shù)據(jù)庫的AQI監(jiān)測數(shù)據(jù)庫系統(tǒng)需求2.2.1關系型數(shù)據(jù)庫基礎知識關系型數(shù)據(jù)庫是建立在關系模型基礎上的數(shù)據(jù)庫。它是借助數(shù)學概念和方法,例如集合代數(shù)等,來組織和處理數(shù)據(jù)庫中的數(shù)據(jù)[3]。也可以說關系型數(shù)據(jù)庫是由二維表以及二維表之間的聯(lián)系所組成的一個數(shù)據(jù)組織[7]。關系模型由三部分組成。對于關系數(shù)據(jù)結構這部分,在關系型數(shù)據(jù)庫的關系模型中,現(xiàn)實世界中的各種實體以及其之間的各種聯(lián)系都是用關系來表示,所以關系數(shù)據(jù)結構的側重點就在于“實體”和“關系”的選擇。關系型數(shù)據(jù)庫的基礎和核心內容是關系,所以關系操作集合這部分就是對這樣的一張表,按照某些聯(lián)系條件來得到想要的記錄數(shù)據(jù),即某些行或列,亦或是多張表關聯(lián)之后的某些行和列的內容。目前關系操作集合主要有選擇、投影和連接三種。選擇是在二維表中選擇特定的行內容;投影則是選擇列內容,而這些列內容會組成心得關系;連接是指將兩張或多張二維表進行關聯(lián),即將不同的關系連接成一個關系,再進行查詢操作。關系完整性約束這部分是為了降低數(shù)據(jù)的冗余度和不一致性,而關系型數(shù)據(jù)庫有三大完整性約束。實體完整性約束是確保實體的唯一性,即在一個集合中是唯一性的,例如學號,而通常使用主鍵來保證數(shù)據(jù)的唯一性,來唯一標識一個實體[7]。參照完整性約束是建立在兩個關系之間的。在現(xiàn)實世界中,有些關系的一些屬性必須存在于另一屬性中,例如在學生關系中的所屬學院這個屬性,必須存在于學院這個關系中,而在學院關系中,學院名字或學院編號必須是主鍵,學生關系中的所屬學院就稱為外鍵,所以參照完整性約束是由外鍵來保證的。用戶自定義完整性約束,就是指用戶根據(jù)自己的需求來對數(shù)據(jù)記錄進行的約束,例如非空約束notnull等。在關系模型中,一張二維表稱為一個關系,行稱為元組或記錄,列稱為屬性或字段,某個值得取值范圍稱為域。關鍵字是指可以唯一標識一條記錄的一個或多個屬性。如果某一關鍵字被用來唯一標識每條記錄,則稱為主關鍵字,而其他非主關鍵字的關鍵字稱為候選關鍵字。在關系模型中,還有關系模式,是指對關系的一種描述,其格式為:關系名(屬性1,屬性2,屬性3,...,屬性n)。在關系模型中,實體和實體之間一般存在三種聯(lián)系,一對一,一對多,以及多對多,這可以簡單理解為兩個實體相對應的數(shù)量關系。兩個實體之間的關系如圖2.1所示。實體A實體A1:1實體B實體A1:n實體B實體Am:n實體B圖2.1實體之間的關系在設計和實現(xiàn)關系型數(shù)據(jù)庫時,需要遵循數(shù)據(jù)庫的設計范式,也就是數(shù)據(jù)庫設計的規(guī)則或要求。目前的范式有六種范式,但一般來說,設計數(shù)據(jù)庫時,只需滿足第三范式就可以了。因為每一個范式都是建立在前一個范式基礎上的,而滿足第三范式就表示已經(jīng)滿足第一和第二范式。第一范式要求確保每一屬性的原子性,也就是規(guī)定每一列不可以再分割成其他列。例如,如果一個學生信息表中有電話號碼這個屬性,而電話號碼存在固定電話和手機號碼,則需要定義成兩個不同的屬性,如下圖2.2所示。滿足第一范式后,第二范式要求確保每一屬性都必須和主鍵相關,不能只與(聯(lián)合)主鍵某一部分相關。例如在學生課程表中,如果以學號和課程名作為聯(lián)合主鍵,而還存在學生姓名、學院名等,但學生姓名跟學院名只和學號相關,和課程名無關,會造成數(shù)據(jù)的冗余,這時需要定義分成兩張表,即學生表和課程表,如下圖2.3所示。滿足第二范式后,第三范式要求每個屬性必須和主鍵直接相關,而不能間接相關。例如在學生信息表中,有學號(主鍵),姓名,學院,學院主任屬性,可以看出這樣的依賴關系學號→學院→學院主任,即學院主任這個屬性不是直接和主鍵學號相關的,而是通過學院這個屬性來間接相關的,這時也需要將表拆分成兩張表,即學生信息表和學院信息表,如下圖2.4所示。若不滿足三大范式,則可能會造成數(shù)據(jù)的冗余,同時可能會造成異常錯誤。所以在設計數(shù)據(jù)庫時,必須嚴格規(guī)范遵守三大范式。學號學生姓名電話號碼學號學生姓名固定電話手機號碼圖2.2第一范式學號課程名學生姓名學院名學號學生姓名學院名課程號課程名圖2.3第二范式學號姓名學院學院主任學號姓名所屬學院學院學院主任圖2.4第三范式2.2.2系統(tǒng)需求分析本文的目的,在于為了能在多方面對AQI指數(shù)變化規(guī)律和影響因素進行研究。本系統(tǒng)則需要合理地存儲數(shù)據(jù)分析所需要的各項數(shù)據(jù),該系統(tǒng)需要實現(xiàn)的功能有:分析對比中美評估標準下的AQI指數(shù)的不同,分析各項氣象數(shù)據(jù)對AQI指數(shù)的影響,分析不同時期AQI指數(shù)的變化規(guī)律。由于研究的數(shù)據(jù)的一些原因,本文分為兩部分的研究。在第一部分中,由于需要進行兩套不同評估標準下的AQI數(shù)據(jù)分析,所以需要設計不同的實體來存儲不同評估標準下的兩套數(shù)據(jù)。同時,為了分析氣象數(shù)據(jù)對AQI指數(shù)的影響,該系統(tǒng)還需要實體來存儲幾個氣象數(shù)據(jù)。由于之后要爬取的網(wǎng)站數(shù)據(jù)的限制,中國評估標準下的網(wǎng)站沒有這些數(shù)據(jù),僅在美國評估標準下的網(wǎng)站上有這些數(shù)據(jù),所以需要將氣象數(shù)據(jù)和美國評估標準的AQI數(shù)據(jù)分開來,用不同的實體來存儲。此外,為了更好更合理地進行數(shù)據(jù)分析和研究,還需要實體來存儲不同AQI監(jiān)測站的信息數(shù)據(jù)(本文有四個監(jiān)測站:廣雅中學、市五中、麓湖及公園前)。由于時間問題,爬取的數(shù)據(jù)僅有20多天的數(shù)據(jù),所以為了更好地研究分析,本文設計了第二部分的研究,這部分需要導入歷史數(shù)據(jù)來進一步分析研究AQI的變化規(guī)律(本課題導入的歷史數(shù)據(jù)為2013、2014、2015、2016這四年),因此該系統(tǒng)還需要設計存儲歷史數(shù)據(jù)的實體??紤]到歷史數(shù)據(jù)只是作為后續(xù)的進一步分析,這里的關系型數(shù)據(jù)庫僅用來存儲歷史數(shù)據(jù),所以為了更好地分析數(shù)據(jù)以及分擔數(shù)據(jù)庫的壓力,這里將不同年份的歷史數(shù)據(jù)分成不同的表來存儲,即分表。由上述可知,該系統(tǒng)由中國評估標準AQI系統(tǒng)、美國評估標準AQI系統(tǒng)、氣象數(shù)據(jù)系統(tǒng)、監(jiān)測站信息系統(tǒng),以及近四年歷史數(shù)據(jù)系統(tǒng)組成。在第一部分的系統(tǒng)中,監(jiān)測站信息系統(tǒng)主要用來存儲監(jiān)測站的信息,如監(jiān)測站的名字,并且這樣可以方便以后系統(tǒng)的擴展,例如之后可能要加上檢測的經(jīng)緯度信息等。而中國評估標準AQI系統(tǒng)和美國評估標準AQI系統(tǒng)存儲的字段一樣,只是存儲的是不同評估標準下的AQI數(shù)據(jù),其存儲的數(shù)據(jù)均為時間日期、AQI數(shù)據(jù),其中時間日期細分為月份、日份、小時,以便之后的數(shù)據(jù)分析。對于氣象數(shù)據(jù)系統(tǒng),這用來存儲時間日期、溫度、濕度、風力、風向,而時間日期也細分為月份、日份、小時三個字段。在第二部分的系統(tǒng)中,在上述以作說明,該系統(tǒng)僅作為存儲歷史AQI數(shù)據(jù)的存儲系統(tǒng),所以以每一年的AQI監(jiān)測數(shù)據(jù)為一個實體。本系統(tǒng)可以存儲歷史時間日期以及歷史AQI數(shù)據(jù)(由于后面歷史數(shù)據(jù)本身的問題,存儲的是PM2.5的濃度數(shù)據(jù))。同樣,時間日期也細分為月份、日份、小時三個字段。綜上所述,該系統(tǒng)可以進行不同監(jiān)測站、不同評估標準下、不同時間的AQI數(shù)據(jù)和氣象數(shù)據(jù)的存儲。同時為了方便以后的功能擴展,設計的數(shù)據(jù)項和數(shù)據(jù)結構如下:監(jiān)測站信息,包括數(shù)據(jù)項有:監(jiān)測站編號,監(jiān)測站名字中國評估標準AQI信息,包括數(shù)據(jù)項有:月份、日份、小時、AQI指數(shù)美國評估標準AQI信息,包括數(shù)據(jù)項有:月份、日份、小時、AQI指數(shù)氣象信息,包括數(shù)據(jù)項有:月份、日份、小時、溫度、濕度、風力、風向2016年歷史數(shù)據(jù),包括數(shù)據(jù)項有:年份、月份、日份、小時、PM2.5濃度。2015年歷史數(shù)據(jù),包括數(shù)據(jù)項有:年份、月份、日份、小時、PM2.5濃度。2014年歷史數(shù)據(jù),包括數(shù)據(jù)項有:年份、月份、日份、小時、PM2.5濃度。2013年歷史數(shù)據(jù),包括數(shù)據(jù)項有:年份、月份、日份、小時、PM2.5濃度。爬取導入網(wǎng)絡爬蟲歷史數(shù)據(jù)數(shù)據(jù)存儲系統(tǒng)數(shù)據(jù)分析平臺爬取導入網(wǎng)絡爬蟲歷史數(shù)據(jù)數(shù)據(jù)存儲系統(tǒng)數(shù)據(jù)分析平臺引用圖2.5數(shù)據(jù)流圖DFD2.2.3基于關系型數(shù)據(jù)庫的AQI監(jiān)測數(shù)據(jù)分析的優(yōu)點因為關系型數(shù)據(jù)庫采用二維表結構,即普通的表,可以更容易理解。關系型數(shù)據(jù)庫采用簡單、通用的SQL語言來進行操作,更方便使用。關系型數(shù)據(jù)庫擁有三大完整性約束,易于維護,同時可以保持數(shù)據(jù)的一致性,不至于丟失或出現(xiàn)錯誤數(shù)據(jù)。而相對于非關系型數(shù)據(jù)庫,關系型數(shù)據(jù)庫可以持久存儲,特別是一些歷史數(shù)據(jù)需要永久保存時,關系型數(shù)據(jù)庫更有優(yōu)勢。同時,關系型數(shù)據(jù)庫已發(fā)展多年,技術成熟,在bug、兼容性等方面都做得很完善,已擁有較多實際性的研究成果和專業(yè)技術信息。從數(shù)據(jù)分析上來看,基于關系型數(shù)據(jù)庫的AQI監(jiān)測數(shù)據(jù)分析,在數(shù)據(jù)查詢方面,由于支持SQL語言以及擁有索引,不僅可以用來進行簡單的、高效的行列或主鍵查詢等,還可以進行join等復雜的多表聯(lián)接查詢。在存儲數(shù)據(jù)時,為了之后數(shù)據(jù)分析的方便,關系型數(shù)據(jù)庫還可以進行分區(qū)分表,使得分析效率高,降低高并發(fā)訪問數(shù)據(jù)庫時的壓力。并且在數(shù)據(jù)保存寫入時,雖然關系型數(shù)據(jù)庫不支持大量數(shù)據(jù)的寫入,但關系型數(shù)據(jù)庫可以支持批量寫入,當數(shù)據(jù)量足夠大時,進行數(shù)據(jù)分析后,數(shù)據(jù)會難以快速寫入數(shù)據(jù)庫,而批量寫入可以讓關系型數(shù)據(jù)庫的寫入得到最高的性能。關系型數(shù)據(jù)庫兼容大多數(shù)的數(shù)據(jù)分析工具軟件,在數(shù)據(jù)分析方面更方便穩(wěn)定。本課題使用的MySQL數(shù)據(jù)庫,還是一個較為快速的數(shù)據(jù)庫,并且支持多線程、多用戶訪問,也是一個健壯的關系型數(shù)據(jù)庫[7]。MySQL易于擴展,同時支持跨平臺使用。MySQL數(shù)據(jù)庫體積較小,是一個輕量級的關系型數(shù)據(jù)庫,操作命令執(zhí)行效率較快。而且據(jù)表示,MySQL可以同時處理幾乎不限數(shù)量的用戶的任務。MySQL提供的API中,支持多種編程語言,為數(shù)據(jù)分析提供了很多的幫助。所以,關系型數(shù)據(jù)庫是一種應用廣泛、有高性能的數(shù)據(jù)庫。

3關系型數(shù)據(jù)庫的設計與實現(xiàn)3.1數(shù)據(jù)庫設計與實現(xiàn)第一步是進行概念結構設計。概念結構設計是對現(xiàn)實世界進行\(zhòng)t"/item/%E6%A6%82%E5%BF%B5%E7%BB%93%E6%9E%84%E8%AE%BE%E8%AE%A1/_blank"建模,用來描述系統(tǒng)中的各個實體和實體之間的關系,是系統(tǒng)特性和靜態(tài)描述[3]。簡單理解為將抽象的信息轉換為易懂的模型。設計好概念模型可以利于理解實體和實體之間的聯(lián)系;概念模型也易于更改,或者擴展,同時方便和各種數(shù)據(jù)模型進行相互轉換。概念模型是基礎模型,更抽象,也更加的穩(wěn)定。結合上面的系統(tǒng)需求分析,由于第二部分的歷史數(shù)據(jù)系統(tǒng)僅作為簡單的存儲,所以不做概念模型的設計,僅對第一部分的系統(tǒng)需求做概念模型。對于實體和實體間聯(lián)系,在本概念模型中,一個監(jiān)測站可以對應多個中國評估標準的AQI指數(shù)以及美國評估標準的AQI指數(shù),一個監(jiān)測站也可以對應多個氣象因素,所以監(jiān)測站和中國評估標準AQI、監(jiān)測站和美國評估標準AQI、監(jiān)測站和氣象數(shù)據(jù),其關系均為一對多,即1:n。一般來說,現(xiàn)在最流行的是用E-R模型來描述概念模型。在E-R模型中,用矩形來表示實體,用橢圓來表示屬性,用直線將這兩樣連接起來,聯(lián)系則用棱形表示,同時用直線將聯(lián)系和兩個實體連接起來,并在旁邊注明實體和實體之間的聯(lián)系,從而來簡單描述這三者。由上述可知,對于本課題,僅存在監(jiān)測站和中國評估標準AQI、監(jiān)測站和美國評估標準AQI、監(jiān)測站和氣象數(shù)據(jù)這三個聯(lián)系。而這三個聯(lián)系名均可以稱為監(jiān)測,且聯(lián)系也均為1:n。所以設計得到E-R模型如圖3.1所示。監(jiān)測站監(jiān)測站氣象美國評估標準AQI中國評估標準AQI監(jiān)測監(jiān)測監(jiān)測1nn11nn1nn1圖3.1E-R模型圖對于關系型數(shù)據(jù)庫來說,設計邏輯結構就是把前面概念結構設計階段已經(jīng)設計好的E-R模型轉換為相應的、與數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)模型相符合的邏輯結構,本文轉換為關系模型[3]。首先將設計好的E-R模型轉換為相對應的關系模型,然后根據(jù)具體要求轉換成為本數(shù)據(jù)庫系統(tǒng)支持的數(shù)據(jù)模型。E-R模型轉換為關系模型具有一定的規(guī)則。在轉換時,一個實體轉換為一個關系模型,實體的屬性就轉換為關系的屬性。對于一對一(1:1)的聯(lián)系,一般就是與任意一端對應的關系模式合并,具體方法就是將任意一端關系的主鍵作為另一端關系的外鍵進行合并。對于一對多(1:n)的聯(lián)系,將一的那一端與n端對應的關系模式合并,具體方法就是將一的那一端的關系的主鍵作為n端關系的外鍵進行合并。對于多對多(n:m)的聯(lián)系,則需要將聯(lián)系轉換為一個獨立的關系模式,具體方法是將兩端的主鍵都作為外鍵合并在新的獨立關系模式中,同時可以根據(jù)情況增加關系的屬性。在概念結構設計階段中,得到了各個實體與屬性后,首先需要先確定各個關系自己的模式,即確定最基本的主鍵(在屬性下面畫實線)。對于監(jiān)測站關系,我們選取監(jiān)測站編號id作為唯一標識,即主鍵。而其他三個關系,中國評估標準AQI、美國評估標準AQI,以及氣象信息,不選取主鍵。得到的基本關系模式如下所示:監(jiān)測站信息(監(jiān)測站編號,監(jiān)測站名字)中國評估標準AQI(月份,日份,小時,AQI指數(shù))美國評估標準AQI(月份,日份,小時,AQI指數(shù))氣象信息(月份,日份,小時,溫度,濕度,風力,風向)本文的聯(lián)系均為一對多,而一的那端均為監(jiān)測站實體,所以只需要將監(jiān)測站的主鍵,即監(jiān)測站編號id作為其他三個關系的外鍵進行合并就可以了,外鍵以下劃虛線表示,其他屬性均不變。得到的關系模型如下所示:監(jiān)測站信息(監(jiān)測站編號,監(jiān)測站名字)中國評估標準AQI(監(jiān)測站編號,月份,日份,小時,AQI指數(shù))美國評估標準AQI(監(jiān)測站編號,月份,日份,小時,AQI指數(shù))氣象信息(監(jiān)測站編號,月份,日份,小時,溫度,濕度,風力,風向)對于歷史數(shù)據(jù)四個關系,均選擇年份、月份、日份、小時作為復合主鍵,因為上述討論過原因,這四個關系不做E-R模型,只做簡單的模型,所以這四個的關系模型如下所示:2016年歷史數(shù)據(jù)(年份,月份,日份,小時,PM2.5濃度)2015年歷史數(shù)據(jù)(年份,月份,日份,小時,PM2.5濃度)2014年歷史數(shù)據(jù)(年份,月份,日份,小時,PM2.5濃度)2013年歷史數(shù)據(jù)(年份,月份,日份,小時,PM2.5濃度)最后進行數(shù)據(jù)庫物理結構設計。該階段就是根據(jù)所選擇的關系型數(shù)據(jù)庫的特點來設計數(shù)據(jù)庫的存儲結構,一般需要確定\t"/item/%E6%95%B0%E6%8D%AE%E5%BA%93%E7%89%A9%E7%90%86%E8%AE%BE%E8%AE%A1/_blank"數(shù)據(jù)庫實體的屬性、數(shù)據(jù)類型、長度、約束等。一般來說,本階段涉及的內容和需要完成的工作有:規(guī)范命名數(shù)據(jù)庫、表及字段(屬性);根據(jù)所選的關系型數(shù)據(jù)庫的特點來選擇合適的數(shù)據(jù)存儲引擎;根據(jù)字段特性,為每張表的字段選擇合適的數(shù)據(jù)類型;確定約束,建立數(shù)據(jù)庫結構。對于命名規(guī)范,一般遵循的原則有:盡量不用中文;使用英文時全部小寫,不能拼音英文混用;若需要分類時,以分類單詞開頭,例如本課題的兩張表,中國評估標準AQI和美國評估標準AQI,這里只用前綴a(America)和c(China)進行簡單的區(qū)分;單詞過長時可以使用縮寫;若存在多個單詞需要分隔時,使用下劃線分隔,這里不使用駝峰原則;禁止使用特殊符號。關系型數(shù)據(jù)庫存儲引擎一般有四種:InnoDB存儲引擎,MyISAM存儲引擎,Memory存儲引擎,Archive存儲引擎。InnoDB存儲引擎是事務型數(shù)據(jù)庫的首選,同時也是MySQL數(shù)據(jù)庫的默認引擎。InnoDB存儲引擎除了支持事務之外,支還持行鎖定和外鍵。MyISAM存儲引擎最大的特點就是擁有較高的插入、查詢速度,但是不支持事務和外鍵。Memory存儲引擎的特點是所創(chuàng)建的表在所有的客戶端之間共享,且表是存儲在內存中的。Archive存儲引擎沒有存儲限制,它支持高并發(fā)類型的插入操作,但是本身不是事務安全的。因為本研究需要用到外鍵,所以需要使用支持外鍵的InnoDB存儲引擎。在字段數(shù)據(jù)類型選擇方便,由于本研究的大多數(shù)字段均為數(shù)值,所以對于數(shù)值型字段,均選擇int類型,因為int類型的執(zhí)行效率是最高的,int類型相對于字符類型更容易建立索引、進行檢索,而字符類型在檢索時需要在內部進行轉換,影響效率。所以數(shù)值型的字段均使用int類型,這個優(yōu)勢在大型數(shù)據(jù)庫或者數(shù)據(jù)更多時會更明顯。而對于監(jiān)測站名字和風向兩個字符型字段,則選擇varchar類型,varchar類型是可變長度字符串類型,一般用來存儲長度不定的字段。在邏輯結構設計階段已經(jīng)將主鍵和外鍵約束設計好了,即實體完整性約束和參照完整性約束。而除了主鍵以外,其他的字段均使用了非空約束,即notnull,而監(jiān)測站的編號id使用了自增,這樣就完成了用戶自定義完整性約束得到的數(shù)據(jù)庫結構如下所示。表3.1監(jiān)測站信息表屬性類型約束idint主鍵namevarchar(10)notnull表3.2中國評估標準AQI表屬性類型約束idint外鍵monthintnotnulldayintnotnullhourintnotnullaqiintnotnull表3.3美國評估標準AQI表屬性類型約束idint外鍵monthintnotnulldayintnotnullhourintnotnullaqiintnotnull表3.4氣象信息表屬性類型約束idint外鍵monthintnotnulldayintnotnullhourintnotnulltemperatureintnotnullhumidityintnotnullwind_powerintnotnullwind_directionvarchar(10)notnull表3.52013歷史數(shù)據(jù)表屬性類型約束yearint復合主鍵monthint復合主鍵dayint復合主鍵hourint復合主鍵aqiintnotnull表3.62014歷史數(shù)據(jù)表屬性類型約束yearint復合主鍵monthint復合主鍵dayint復合主鍵hourint復合主鍵aqiintnotnull表3.72015歷史數(shù)據(jù)表屬性類型約束yearint復合主鍵monthint復合主鍵dayint復合主鍵hourint復合主鍵aqiintnotnull表3.82016歷史數(shù)據(jù)表屬性類型約束yearint復合主鍵monthint復合主鍵dayint復合主鍵hourint復合主鍵aqiintnotnull3.2AQI監(jiān)測數(shù)據(jù)的來源3.2.1數(shù)據(jù)的爬取本文中,為了得到各項最新的AQI檢測數(shù)據(jù),采用了網(wǎng)絡爬蟲技術來進行獲取。在本次研究中,使用了數(shù)據(jù)采集器——八爪魚采集器來進行數(shù)據(jù)的爬取。八爪魚采集器是一款網(wǎng)頁數(shù)據(jù)采集軟件,可以方便地從網(wǎng)頁上獲取客戶所需要的數(shù)據(jù),同時客戶可以自定義地對數(shù)據(jù)進行編輯、規(guī)范,或者導出等,從而可以得到所需要的格式規(guī)范的數(shù)據(jù)。八爪魚采集器將操作流程進行了可視化,從打開網(wǎng)頁,到點擊所需要爬取的數(shù)據(jù)元素及進行數(shù)據(jù)格式規(guī)范,再到設置爬取時間來進行云采集,最后將數(shù)據(jù)導入到關系型數(shù)據(jù)庫,其流程如圖3.2所示。新建任務新建任務輸入網(wǎng)址點擊需要爬取的元素規(guī)范格式或字段設置云采集設置導出啟動采集圖3.2八爪魚采集器操作流程采用八爪魚采集器進行數(shù)據(jù)爬取,而不是采取傳統(tǒng)的python或java爬取,有如下的特點。八爪魚采集器將操作流程、采集規(guī)則配置等全部可視化,讓操作和使用更方便、簡單,完全按照平常人的思維進行操作,為一些對python或java爬蟲技術不熟悉的、甚至無專業(yè)知識的人員提供了很好的幫助,可以讓他們快速地入門并進行數(shù)據(jù)采集。八爪魚采集器可以精確地定位網(wǎng)頁的數(shù)據(jù),需要爬取什么數(shù)據(jù)或元素,由操作人員進行點擊來選取,從而大大地降低了爬取錯誤數(shù)據(jù)或爬取空數(shù)據(jù)的幾率。八爪魚采集器可以讓多個任務同時進行,實現(xiàn)了多個網(wǎng)頁同時爬取。八爪魚采集器還可以先對采集中的數(shù)據(jù)進行一些簡單的清洗操作,例如去掉數(shù)據(jù)的頭部空格、篩選日期、字段規(guī)范、文本替換等,從而讓后面的數(shù)據(jù)分析更容易進行。八爪魚采集器還具有云采集功能,利用云采集功能,可以實現(xiàn)定時采集、實時監(jiān)控等。雖然八爪魚采集器最大的缺點就是采集速度較慢,但是在本研究中,采取的采集策略是一天采集三次數(shù)據(jù),相對于這采集頻率,八爪魚采集器的采集速度已經(jīng)足夠了。本文中,為了能進行分析對比,需要爬取數(shù)據(jù)的網(wǎng)站一共有兩個,一個是美領館AQI網(wǎng)站(/city/guangzhou/cn/),另一個是全國PM2.5查詢與空氣質量指數(shù)監(jiān)測網(wǎng)站(/)。這兩個網(wǎng)站分別使用的是美國AQI評估標準和中國AQI評估標準,爬取這兩個網(wǎng)站可以獲取兩套不同評估標準的AQI檢測數(shù)據(jù)。兩個網(wǎng)站要爬取的監(jiān)測站數(shù)據(jù)均為廣雅中學、市五中、麓湖及公園前這四個地方,爬取多個地方的AQI檢測數(shù)據(jù),可以進行對比分析,同時多個地方的幾套數(shù)據(jù)可以增加分析結果的合理性和說服性。本課題采集的是2019年3月5號到3月31號的數(shù)據(jù),因為考慮到每天AQI監(jiān)測數(shù)據(jù)的刷新頻率和每天AQI監(jiān)測數(shù)據(jù)的相差度不大,以及八爪魚采集器的速度,所以采集的頻率為一天三次,為了讓時間間隔合理以及便于后面進行數(shù)據(jù)分析,采集的時間點為上午8點、下午15點和晚上22點。對于美領館AQI網(wǎng)站,除了要爬取上述四個監(jiān)測站的AQI數(shù)據(jù)外,還要爬取幾個氣象數(shù)據(jù):溫度、濕度、風向,以及風力,用于分析氣象數(shù)據(jù)對AQI的影響。對于全國PM2.5查詢與空氣質量指數(shù)監(jiān)測網(wǎng)站,只爬取四個監(jiān)測站指定時間點的AQI數(shù)據(jù),用于進行分析對比中美兩國AQI評估標準。每個監(jiān)測站每天采集三次,一共27天,則在利用八爪魚采集器爬取完數(shù)據(jù)后,每個監(jiān)測站一共有81條數(shù)據(jù)記錄,而每個監(jiān)測站則又分為中美兩個評估標準。在爬取完數(shù)據(jù)后,利用八爪魚采集器的導入數(shù)據(jù)功能,可以將數(shù)據(jù)直接導入到關系型數(shù)據(jù)庫(這里也可以利用八爪魚采集器的自動導入功能,即一邊爬取數(shù)據(jù)一邊將導入到關系型數(shù)據(jù)庫)。將數(shù)據(jù)導入到關系型數(shù)據(jù)庫前,需要已經(jīng)建好關系型數(shù)據(jù)庫,以及配置好關系型數(shù)據(jù)庫信息,并確保關系型數(shù)據(jù)庫可以進行正常連接。3.2.2歷史數(shù)據(jù)的導入在本文中,除了爬取最新的AQI監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù)之外,還將導入了歷史數(shù)據(jù)來進一步研究AQI變化規(guī)律。通過美國大使館空氣質量網(wǎng)站(/web/historical/1/1.html),下載并導入了歷史數(shù)據(jù)。這里只導入2013年、2014年、2015年和2016年這四年的歷史數(shù)據(jù)。而在美國大使館空氣質量網(wǎng)站的歷史數(shù)據(jù)中,除了時間日期之外,只有PM2.5濃度,沒有計算好的AQI數(shù)值數(shù)據(jù),但是目前影響AQI數(shù)值的因素主要是PM2.5濃度,所以在后面的數(shù)據(jù)分析中,可以通過分析歷史數(shù)據(jù)的PM2.5濃度來反映AQI數(shù)值,這對分析結果的影響不大。在美國大使館空氣質量網(wǎng)站下載的數(shù)據(jù)記錄文件為Excel表格文件,即XLS工作表,可以利用MySQL數(shù)據(jù)庫的可視化工具MySQL-Front來將已經(jīng)下載好的數(shù)據(jù)導入已經(jīng)建好的關系型數(shù)據(jù)庫,這里分別將近四年的數(shù)據(jù)導入四張二維表中。3.3基于AQI信息數(shù)據(jù)庫的數(shù)據(jù)分析3.3.1數(shù)據(jù)分析工具本文只基于關系型數(shù)據(jù)庫做數(shù)據(jù)分析和對比,所以這里選擇了使用“數(shù)據(jù)觀”分析平臺(/product)。數(shù)據(jù)觀是一個一站式商業(yè)分析平臺,具有數(shù)數(shù)據(jù)連接、數(shù)據(jù)處理、數(shù)據(jù)視覺、數(shù)據(jù)協(xié)作、多終端支持、多種部署方式的特點。在數(shù)據(jù)連接方面,數(shù)據(jù)觀分析平臺不僅支持本地數(shù)據(jù)文件連接和云應用連接,還支持數(shù)據(jù)庫連接,支持的數(shù)據(jù)庫包括Oracle、SQLServer、MySQL等。在數(shù)據(jù)處理方面,數(shù)據(jù)觀分析平臺可以支持多表聯(lián)查,還支持先使用SQL語句進行數(shù)據(jù)查詢。在數(shù)據(jù)視覺方面,數(shù)據(jù)觀分析平臺不僅擁有20多種的圖表類型,還可以進行篩選分析和拖曳作圖,可以滿足基本的數(shù)據(jù)分析對比要求。本文數(shù)據(jù)連接方式是數(shù)據(jù)庫連接,在數(shù)據(jù)觀分析平臺的數(shù)據(jù)中心里,點擊創(chuàng)建數(shù)據(jù),選擇數(shù)據(jù)庫,然后選擇MySQL數(shù)據(jù)庫,連接前需要進行信息配置,包括配置連接地址、需要連接的數(shù)據(jù)庫名稱、登錄的用戶名和密碼,連接成功后就可得到該數(shù)據(jù)庫下的表和數(shù)據(jù)。通過數(shù)據(jù)觀分析平臺的SQL語句助手可以利用SQL語句對數(shù)據(jù)進行查詢篩選,然后將這部分的數(shù)據(jù)進行導入,最后點擊創(chuàng)建圖表,選擇篩選后的數(shù)據(jù)進行可視化分析,同時在圖表編輯中可以選擇不同的圖表類型來呈現(xiàn)可視化結果。數(shù)據(jù)觀分析平臺的數(shù)據(jù)分析操作流程如圖3.3所示。新建數(shù)據(jù)選擇數(shù)據(jù)庫新建數(shù)據(jù)選擇數(shù)據(jù)庫配置數(shù)據(jù)庫信息連接數(shù)據(jù)庫SQL操作數(shù)據(jù)可視化圖3.3數(shù)據(jù)觀分析平臺操作流程3.3.2數(shù)據(jù)可視化和分析結果1、在對比分析中美AQI評估標準中,將4個監(jiān)測站和每天的采集時間點數(shù)據(jù)做單獨分析,但整個分析以公園前為重點,因為公園前在中心,且據(jù)了解其AQI指數(shù)是最直接廣州平均值的。對于公園前,先分開一天內的三個時間點來進行分析。首先利用SQL語句來對中美評估標準AQI數(shù)據(jù)分別進行數(shù)據(jù)查詢及篩選,SQL語句如下所示。查詢及篩選美國評估標準AQI和空氣質量等級(采集時間點為上午8點),如圖3.4所示。圖3.4查詢美國評估標準AQI和空氣質量等級查詢及篩選中國評估標準AQI和空氣質量等級(采集時間點為上午8點),如圖3.5所示。圖3.5查詢美國評估標準AQI和空氣質量等級得到的數(shù)據(jù)結果如圖3.6所示。圖3.6公園前8點美國評估標準AQI和中國評估標準AQI由直接的數(shù)據(jù)圖可以看出,雖然前面有幾天中國評估標準下的AQI比美國的稍微嚴格一點,但是大多數(shù)天數(shù)下,美國的評估標準AQI都比中國評估標準下的高,且大多數(shù)AQI指數(shù)已經(jīng)高出道下一個空氣質量等級,特別是大多數(shù)中國評估標準下的二級良,在美國評估標準下只是三級輕度污染。下面對該數(shù)據(jù)進行可視化,如圖3.7所示。圖3.7公園前上午8點中美AQI評估標準對比可視化的圖表中,虛線代表的是中國評估標準AQI,實現(xiàn)代表美國評估標準AQI。從圖表可知,除了一兩天外,大部分天數(shù)下,虛線都比實現(xiàn)低,也就是說中國評估標準的AQI整體偏高。然后進行下午15點以及晚上22點兩個時間點的數(shù)據(jù)分析,分析方法跟上述一樣,得到的可視化結果如下圖所示。圖3.8公園前15點美國評估標準AQI和中國評估標準AQI圖3.9公園前下午15點中美AQI評估標準對比圖3.10公園前22點美國評估標準AQI和中國評估標準AQI圖3.11公園前晚上22點中美AQI評估標準對比由上述的圖表可知,下午15點和晚上22點兩個時間點得到的數(shù)據(jù)分析和上午8點的數(shù)據(jù)分析基本一致,中國評估標準AQI數(shù)值整體比美國的高,在空氣質量等級的評估下,甚至出現(xiàn)了中國評估標準是二級良,但美國評估標準卻是四級重度污染的情況(28號15點數(shù)據(jù)和18號22點數(shù)據(jù))。對于其他3個監(jiān)測站,由于數(shù)據(jù)在中美評估標準之間的差距基本相似,所以不做具體的展示說明,其結果基本一致。接下進行分析氣象數(shù)據(jù)和AQI指數(shù)之間的聯(lián)系。因為氣象數(shù)據(jù)是從美領館爬取過來的,所以這里只進行氣象數(shù)據(jù)和美國評估標準AQI的數(shù)據(jù)分析。首先進行溫度和AQI之間的聯(lián)系分析,同樣以公園前作為重點分析對象,先利用SQL語句進行數(shù)據(jù)篩選出溫度和AQI,查詢語句如圖3.12所示。圖3.12查詢公園前溫度和AQI然后對數(shù)據(jù)進行可視化。因為時間問題,本文爬取的數(shù)據(jù)僅有二十多天,且每天只有三組數(shù)據(jù),數(shù)據(jù)較少,所以這里的數(shù)據(jù)分析使用了數(shù)據(jù)擬合線的方法來進行數(shù)據(jù)的大體趨勢分析。數(shù)據(jù)擬合可以通過數(shù)據(jù)來擬合出相對應的解析式曲線,也叫作趨勢線[8]。首先通過線性擬合可視化,得到公園前溫度和AQI的線性關系,但為了使結論更加合理有據(jù),再進行指數(shù)擬合、冪擬合、對數(shù)擬合,得到的結果如圖3.13所示。(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.13公園前溫度-AQI擬合圖對其他監(jiān)測站作同樣的工作,得到的結果如下所示。(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.14廣雅中學溫度-AQI擬合圖(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.15麓湖溫度-AQI擬合圖(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.16市五中溫度-AQI擬合圖由4個監(jiān)測站的4種不同數(shù)據(jù)擬合可以看出,溫度和AQI存在正相關的關系。所以當溫度較高時,可能會導致AQI指數(shù)上升,從而導致空氣質量有所下降。接下來進行分析濕度和AQI的關系。采用的方法與研究溫度和AQI關系的方法一樣,采用數(shù)據(jù)擬合的方法。同樣也是對4個監(jiān)測站分別進行濕度-AQI數(shù)據(jù)擬合,得到的結果如下所示。(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.17公園前濕度-AQI擬合圖(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.18廣雅中學濕度-AQI擬合圖(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.19麓湖濕度-AQI擬合圖(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.20市五中濕度-AQI擬合圖從上述4個監(jiān)測站的4種不同數(shù)據(jù)擬合可以看出,濕度和AQI呈現(xiàn)負相關。所以當濕度降低時,AQI指數(shù)會有所上升,空氣質量也會有所下降。再接下來的任務是分析風力和AQI的關系。因為本次的數(shù)據(jù)較少,且風力的指數(shù)跨度也較小,從擬合線圖不夠直觀,所以結合了SQL語句查詢的表格及其可視化圖表一起進行分析。同樣也是以公園前為中心展開分析。利用SQL語句查詢每個評估等級占每個風力的個數(shù),查詢的SQL語句如圖3.21所示。圖3.21查詢每個評估等級占每個風力的個數(shù)得到表格如圖3.22所示。圖3.22每個評估等級占每個風力的個數(shù)同時將該數(shù)據(jù)表進行可視化,得到結果如圖3.23所示。圖3.23評估等級占每個風力的個數(shù)柱形圖由上述兩圖可知,在風力為1、2(米/秒)時,除了少數(shù)為三級輕度污染之外,其他的均為一級優(yōu)和二級良,而當風力大于2時,大多數(shù)空氣質量等級已經(jīng)是三級輕度污染,甚至有四級重度污染,所以初步分析,風力和AQI呈現(xiàn)正相關。下面進行數(shù)據(jù)擬合,得到的結果如圖3.24所示。(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.24公園前風力-AQI擬合圖對其他監(jiān)測站也進行數(shù)據(jù)擬合,如下所示。(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.25廣雅中學風力-AQI擬合圖(a)線性擬合(b)指數(shù)擬合(c)冪擬合(d)對數(shù)擬合圖3.26麓湖風力-AQI擬合圖(a)線性擬合(b)指數(shù)擬合(a)冪擬合(b)對數(shù)擬合圖3.27麓湖風力-AQI擬合圖由公園前的評估等級占不同風力的個數(shù)圖,以及4個監(jiān)測站的不同擬合線圖可以看出,風力和AQI呈現(xiàn)正相關,也就是說等風力越大時,AQI越高,導致空氣質量下降。最后分析風向對AQI指數(shù)的關系。研究風向對AQI的影響時,就不能使用數(shù)據(jù)擬合,所以本文分析風向對不同監(jiān)測站的影響,從而可以建議不同風向時,不同檢測附近的人們可以做不同的預防措施。因為公園前位于4個監(jiān)測站的中心位置,且每個監(jiān)測站用的是同一套風向數(shù)據(jù),所以本文以公園前為基準來進行對比分析。首先對比公園前和廣雅中學的數(shù)據(jù),利用折線圖對比兩個監(jiān)測站對于不同風向時的整體AQI,得到結果圖3.28所示。圖3.28廣雅中學和公園前風向-AQI折線圖由圖3.28可發(fā)現(xiàn),當風向為北風、西北風時,廣雅中學和公園前的AQI相差較大,當方向為西南風時,也有一些小差距,所以將重點放在這三個方向中。首先查看北風,利用數(shù)據(jù)表格和折線圖進行分析,結果如下所示。數(shù)據(jù)對比表格(b)折線圖對比圖3.29公園前和廣雅中學北風時AQI對比對西北風和西南風同樣也進行對比分析,結果如下所示。數(shù)據(jù)對比表格(b)折線圖對比圖3.30公園前和廣雅中學西北風時AQI對比數(shù)據(jù)對比表格(b)折線圖對比圖3.31公園前和廣雅中學西南風時AQI對比從圖3.29和圖3.30的數(shù)據(jù)表格可知,當風向為北風或西北風時,廣雅中學的AQI數(shù)值整體會比公園前的高,特別是西北風時,兩者的AQI數(shù)值相差更大,且從折線圖可以看出當風向為這兩種風時,麓湖AQI和公園前的差距。由圖3.31可以看出,當風向為西南風時,廣雅中學AQI上升的幅度不大,但是也有小些影響。接下來風向對麓湖AQI的影響,利用同樣的分析方法,先讓麓湖的AQI和公園前的AQI做整體的對比分析,結果如下圖所示。圖3.32麓湖和公園前風向-AQI折線圖由圖3.32整體的對比可知,對麓湖影響最大的風向為北風和東北風,當風向為這兩種時,麓湖的AQI都比公園前的高(這里不分析比公園前AQI低時的風向,因為不同監(jiān)測站的AQI會有所波動,這里當麓湖AQI比公園前低時的變化規(guī)律不明顯)。下面對這兩種風向做同樣的分析,得到的結果如下所示。(a)數(shù)據(jù)對比表格(b)折線圖對比圖3.33公園前和麓湖北風時AQI對比(a)數(shù)據(jù)對比表格(b)折線圖對比圖3.34公園前和麓湖東北風時AQI對比從圖3.33和圖3.34可以發(fā)現(xiàn),當風向為北風或者東北風時,麓湖的AQI比公園前的高,特別是當風向為東北風時,兩者的AQI差距更大,只有少數(shù)時候是沒差距的,所以可以推測吹北風或東北風時,對麓湖的AQI影響較大。接下來用同樣的方式分析市五中的AQI和風向的聯(lián)系,整體的分析對比如圖3.35所示。圖3.35市五中和公園前風向-AQI折線圖從整體的對比分析來看,當風向為東南風、南風或西風時,市五中的AQI偏高,所以接下來對這三種風向進行分析。分析的結果如下所示。數(shù)據(jù)對比表格(b)折線圖對比圖3.36公園前和麓湖東南風時AQI對比數(shù)據(jù)對比表格(b)折線圖對比圖3.37公園前和麓湖南風時AQI對比數(shù)據(jù)對比表格(b)折線圖對比圖3.38公園前和麓湖西風時AQI對比從上述可視化結果可以看出來,當風向為東南風、南方、西風時,市五中的AQI明顯上升,即空氣質量有所下降。對上述風向的研究總結起來,當風向不同時,不同的監(jiān)測站地方的AQI會有所不同,這里研究的是AQI上升時的風向,雖然數(shù)據(jù)不足,可能結果有所缺陷或誤差,但但從本次研究可以知道,當風向不同時,不同的地方要作出不同的預防措施。最后一項對歷史數(shù)據(jù)研究,這里研究不同季節(jié)的AQI變化規(guī)律。因為歷史數(shù)據(jù)中存在著沒意義的數(shù)據(jù)(PM2.5濃度為負數(shù)),這里使用SQL語句進行了過濾,然后再進行分析。這里比較近四年中不同季節(jié)的PM2.5濃度的變化規(guī)律,因為歷史數(shù)據(jù)中每天每個小時的AQI數(shù)據(jù)都存在,為了簡化研究,本文統(tǒng)一選取中午12點這個時間點的數(shù)據(jù),同時考慮到四個季節(jié)同時進行比較會導致曲線較為混亂,為了可視化結果更加清晰,所以對于每一年,分別對春夏季、秋冬季進行比較,不進行一起比較。對于這四年,得到的可視化結果如下所示。春夏季(b)秋冬季圖3.392013年各季節(jié)PM2.5濃度對比春夏季(b)秋冬季圖3.402014年各季節(jié)PM2.5濃度對比春夏季(b)秋冬季圖3.412015年春夏季節(jié)PM2.5濃度對比(a)春夏季(b)秋冬季圖3.422016年春夏季節(jié)PM2.5濃度對比由2013-2016這四年的不同季節(jié)PM2.5濃度比較圖,可以發(fā)現(xiàn),春季和冬季的PM2.5濃度比夏季和秋季的高,除了2014年的夏季的PM2.5濃度有個別天數(shù)偏高之外,其他的均有這個結果。所以從上述的圖可以得出結論,一年中,春季和冬季的PM2.5濃度比夏季和冬季高,導致AQI指數(shù)偏高,空氣質量下降。3.3.3數(shù)據(jù)分析結果建議從上述的數(shù)據(jù)分析可以得出建議,中國的AQI評估標準有待提高,是在AQI<150時需要更加嚴格分級,雖然這和我國目前具體的空氣質量情況有關系,但是隨著我國空氣質量的改善,我國的AQI評估標準需要進一步改善,需要更加嚴格。對于氣象因素對AQI的影響,溫度和風力和AQI呈現(xiàn)正相關,濕度呈現(xiàn)負相關,所以當氣象預報溫度和風力有所上升或濕度下降時,居民需要做好預防措施[9]。而對于風向,當風向不同時,不同的監(jiān)測站附近的地方需要做好預防措施。風向影響AQI跟廣州的工業(yè)區(qū)分布有關,例如,但風向是北風或東北風時,麓湖會受到北邊花都或東北邊增城、天河那邊工業(yè)區(qū)的影響,把工業(yè)的一些廢氣吹過來,導致空氣質量下降。而人們不僅可以從氣象預報看風向來做防范措施,而且在工程經(jīng)濟、管理方面,可以讓相關工業(yè)當天減少有關排氣的工作,但是最重要的還是要努力改善工業(yè)的廢氣問題[10]。在歷史數(shù)據(jù)的分析中,可以看出,夏季和秋季的空氣質量比春季和冬季要好,原因可能跟四季的氣候有關[11]。但是如果從社會的角度看,可能是由于在春季和冬季人們需要取暖等活動,使用煤炭或一些有排氣的設施[12]。而且在春季和冬季,因為天氣寒冷,雖然得到結論說溫度和AQI呈現(xiàn)負相關,但是人們因為寒冷難以對汽車排放控制系統(tǒng)有效運作而帶來的污染更多,所以除了在春季和冬季人們做好一些汽車的排放運作之外,在經(jīng)濟發(fā)展上,一些汽車企業(yè)還需要好好改善汽車廢氣排放的問題。

結論目前,解決空氣質量問題一直是政府和人們比較關心的事情,影響空氣質量的因素很多,只有進行多方面的研究,才能更好地解決空氣質量問題。本文通過比較中美AQI評估標準,表明我國AQI評估標準和美國有一定的差距,我國AQI評估標準有必要進一步改善,需要更加嚴格。而通過對溫度、濕度、風力氣象數(shù)據(jù)和AQI數(shù)據(jù)進行擬合,得到在一定條件下,這些氣象因素和AQI呈現(xiàn)正相關或負相關。同時分析了不同風向對不同地方的影響,在不同風向情況下,不同地方需要做好預防措施。而通過分析歷史數(shù)據(jù),可以看出夏季和秋季的AQI較低,而春季和冬季的AQI較高,當著手調查空氣質量原因時,可以將一些重心放在這兩個季度里。雖然本課題的數(shù)據(jù)不足,且數(shù)據(jù)分析也是僅做一些對比和擬合分析,但是利用這些數(shù)據(jù)也得到了簡單的結論和建議。在后面的研究中還需進一步改進,例如當數(shù)據(jù)量較大時,則可以考慮將關系型數(shù)據(jù)庫升級為數(shù)據(jù)倉庫;數(shù)據(jù)分析時,可以考慮用更好的數(shù)據(jù)分析工具或平臺。當我們做好相關數(shù)據(jù)研究后,就可以在空氣質量欠佳的時候,及時提醒公眾采取相關防護措施,有效地保護人們,也減少了公眾人群的長期暴露在不佳環(huán)境的時間,同時也為各地環(huán)保部門在治理空氣污染方面提出更高的要求,為凈化我們的藍天提供新的動力。

參考文獻萬莉鑫.大數(shù)據(jù)背景下氣象因素與AQI之間關系的實證分析[D].首都經(jīng)濟貿易大學,2016.張裕芬,朱坦,馮銀廠,劉彩霞,張敏,沈岳峰.氣象因素對環(huán)境空氣質量達標的影響分析[J].城市環(huán)境與城市生態(tài),2006(04):33-36.黃斌.針對MySQL數(shù)據(jù)庫的數(shù)據(jù)實時分析系統(tǒng)的設計與實現(xiàn)[D].中國科學院大學,2018.高慶先,劉俊蓉,李文濤,高文康.中美空氣質量指數(shù)(AQI)對比研究及啟示[J].環(huán)境科學,2015,36(04):1141-1147.JackDeng.空氣質量指數(shù)美國標準和中國標準差別[DB/OL].https:///tiandi/p/6158576.html,2016-12-16.李虹杰,孫焰,祁士華,李愷驊,范新峰,李金平.空氣質量監(jiān)測中標準狀態(tài)對測定結果的影響及建議[J].中國環(huán)境監(jiān)測,,2016,32(5).江國文.大數(shù)據(jù)環(huán)境下基于MySQL的數(shù)據(jù)庫架構設計與實現(xiàn)[J].電子世界,2018.樊方芳.城市環(huán)境空氣質量信息可視化的研究[D].山東大學,2006.CaiyunZhou.ResearchonAirQualityofTianjinBasedontheMeteorologicalFactorsandNeighborCities[A].InformationEngineeringResearchInstitute,USA、SingaporeManagementandSportsScienceInstitute,Singapore.Proceedingsof20174thICSSHConferenceonEconomicDevelopmentandManagement[C].InformationEngineeringResearchInstitute,USA、SingaporeManagementandSportsScienceInstitute,Singapore:IntelligentInformationTechnologyApplicationSociety,2017:6.王岱,劉毅.中國城市空氣質量變化的時空特征及其經(jīng)濟社會因素解析[J].資源與生態(tài)學報,2016,7(2):77-84.ZohaHeidarinejad,AliAkbarMohammadi,HassanMousapour,MohammadRezaDaryabor,MajidRadfard,HosseinNajafiSaleh,MahmoodYousefi.DataonevaluationofAQIfordifferentseasoninKerman,Iran,2015[J].DatainBrief,2018.賈瑾,基于空氣質量數(shù)據(jù)解析大氣復合污染時空特征及過程序列[D].浙江大學,2014.

致謝在本畢業(yè)論文完成后,意味著我距離大學畢業(yè)又近了一步。本論文是在老師鮑芳教授的指導下完成的,感謝老師在過程中給予了我很大的幫助和支持,在忙碌的教學工作中,還不斷幫助我解答疑問、指引思路。老師嚴謹求實的治學態(tài)度以及兢兢業(yè)業(yè)的工作態(tài)度是我值得學習的榜樣!感謝我的父母,感謝他們一直以來對我的陪伴、支持和付出。同時也感謝我身邊的朋友和同學,感謝一路上對我的鼓勵和幫助。感謝我的母校對我四年來的培養(yǎng),給了我這么好的學習發(fā)展平臺,也祝母校發(fā)展得越來越好!

附錄部分數(shù)據(jù)中國評估標準下AQI數(shù)據(jù)(3月5號到13號):idmonthdayhouraqi1358682358683358674358751351567235156933515694351580135226523522653352265435226813685123686033686043685113615492361550336156443615501362247236224833622634362248137842237843337863437841137154423715453371578437154413722442372244337227543722441388482388533388544388481381549238155833815524381550138224723822593382255438224813985323985333985743985113915542391555339156043915541392253239225233922554392252131084423108603310853431084313101545231015553310155543101546131022402310224933102246431022421311865231186433118884311863131115672311156733111594431115661311226723112265331122814311226713128103231281053312810243128115131215101231215100331215101431215108131222100231222100331222994312221051313897231389733138954313899131315962313159633131510243131596131322932313229433132210043132293美國評估標準下AQI數(shù)據(jù)(3月5號到13號):idmonthdayhouraqi135858235859335858435865135155923515593351562435157013522552352255335225443522631368452368553368574368431361542236154333615584361542136224023622403362256436224013784123784133786143784113715422371543337156643715431372242237224333722614372242138850238858338858438848138155123815623381555438155013822502382262338226143822511398432398453398484398431391546239154833915544391546139224323922443392248439224313108602310879331086943108581310156123101570331015734310156013102258231022683310226343102257131189623118943311811743118961311151022311151003311151294311151021311229923112296331122112431122991312814823128150331281484312816213121514723121514733121514643121515813122213823122213833122213643122214513138127231381283313812543138129131315127231315129331315135431315126131322122231322122331322130431322121氣象數(shù)據(jù)(3月5號到13號):idmonthdayhourtemperaturehumiditywind_powerwind_direction135820833東南風235820833東南風335820833東南風435820833東南風1351523743東南風2351523743東南風3351523743東南風4351523743東南風1352217772東南風2352217772東南風3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論