海量天文光譜數(shù)據(jù)中白矮主序雙星的發(fā)現(xiàn)研究PPT課件_第1頁
海量天文光譜數(shù)據(jù)中白矮主序雙星的發(fā)現(xiàn)研究PPT課件_第2頁
海量天文光譜數(shù)據(jù)中白矮主序雙星的發(fā)現(xiàn)研究PPT課件_第3頁
海量天文光譜數(shù)據(jù)中白矮主序雙星的發(fā)現(xiàn)研究PPT課件_第4頁
海量天文光譜數(shù)據(jù)中白矮主序雙星的發(fā)現(xiàn)研究PPT課件_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、海量天文光譜數(shù)據(jù)中白矮主序雙星的發(fā)現(xiàn)研究海量天文光譜數(shù)據(jù)中白矮主序雙星的發(fā)現(xiàn)研究 導導 師師: : 王新軍教授王新軍教授 報告人報告人: : 王文玉王文玉 專專 業(yè)業(yè): : 計算機軟件與理論計算機軟件與理論 山東大學博士山東大學博士論文答辯論文答辯報告內(nèi)容報告內(nèi)容課題的研究背景課題的研究背景問題與目標問題與目標國內(nèi)外的研究現(xiàn)狀國內(nèi)外的研究現(xiàn)狀主要工作主要工作總結與展望總結與展望 海量的天文光譜數(shù)據(jù)海量的天文光譜數(shù)據(jù)。 海量的天文光譜數(shù)據(jù)中存在存在著各種不同的光譜特海量的天文光譜數(shù)據(jù)中存在存在著各種不同的光譜特 征規(guī)律,每一種不同的規(guī)律代表著一類天體。如何發(fā)現(xiàn)征規(guī)律,每一種不同的規(guī)律代表著一類天

2、體。如何發(fā)現(xiàn)光譜數(shù)據(jù)中的特殊規(guī)律是目前很多科研人員感興趣的課光譜數(shù)據(jù)中的特殊規(guī)律是目前很多科研人員感興趣的課題。題。 SDSS是斯隆數(shù)字化巡天(是斯隆數(shù)字化巡天(Sloan Digital Sky Survey) SDSS的數(shù)據(jù)目前已經(jīng)發(fā)布了從的數(shù)據(jù)目前已經(jīng)發(fā)布了從DR1到到DR12的的數(shù)據(jù)數(shù)據(jù)一、光譜數(shù)據(jù)研究背景一、光譜數(shù)據(jù)研究背景普通的普通的White Dwarf(白矮星白矮星)的光譜的光譜M Sequence Dwarf(M型矮星型矮星)的光譜的光譜典型的典型的WD+M雙星的光譜雙星的光譜SDSS給出的該光譜的詳細信息給出的該光譜的詳細信息幾種典型的幾種典型的WDMS光譜光譜Sean N

3、. Raymond二、國內(nèi)外的研究現(xiàn)狀二、國內(nèi)外的研究現(xiàn)狀國外的國外的Kurtz,Deeming ,Whitney等等在在低分低分辨率光譜辨率光譜中使用中使用主向量分析方法和交叉相關的主向量分析方法和交叉相關的方法方法 Gulati,Von Hippel等等首先采用了神經(jīng)網(wǎng)絡的方首先采用了神經(jīng)網(wǎng)絡的方法對恒星光譜進行法對恒星光譜進行分類分類。 問題:實驗表明該方法對光度型的識別不是很好問題:該分類模型主要適用于中低分辨率的(1.1-1.5nm)的光學波段和紫外的光譜二、國內(nèi)外的研究現(xiàn)狀二、國內(nèi)外的研究現(xiàn)狀 覃冬梅在覃冬梅在2004年提出了提出一種新的基于支撐向量機年提出了提出一種新的基于支撐向

4、量機的非活動天體與活動天體的自動分類的非活動天體與活動天體的自動分類方法方法。 Sean N. Raymond2003年對年對109個個SDSS 中的中的g20 星等的星等的WDMS進行了進行了觀測觀測,分析他們的數(shù)據(jù)特,分析他們的數(shù)據(jù)特征。征。 這個數(shù)據(jù)信息被德國的這個數(shù)據(jù)信息被德國的R Heller 在在2009 進行了進行了利用利用,提出了針對提出了針對U,G,R,I,Z五個顏色參數(shù)的差值分五個顏色參數(shù)的差值分析析方法方法。 問題:沒有高效率的WDMS分類模型提出三、問題與目標三、問題與目標高維的光高維的光譜數(shù)據(jù)譜數(shù)據(jù)如何降維來如何降維來提高分類準提高分類準確率確率如何構造高準確如何構造

5、高準確率的分類模型率的分類模型如何改進現(xiàn)有的如何改進現(xiàn)有的顏色特征模型顏色特征模型目標:高效目標:高效準確的發(fā)現(xiàn)準確的發(fā)現(xiàn)新的新的WDMSWDMS四、四、論文的主要工作論文的主要工作 一、光譜數(shù)據(jù)降一、光譜數(shù)據(jù)降維維二二、WDMS分類模型構造分類模型構造 三三、構造、構造WDMS顏色特征模型顏色特征模型目標:通過算法的對比確定最優(yōu)的算法,并確定WDMS的最佳特征維數(shù)。目標:確定最優(yōu)分類模型,在SDSS的海量光譜數(shù)據(jù)中發(fā)現(xiàn)新的未 被發(fā)現(xiàn)的WDMS。目標:提出一種新的顏色特征模型用于完成分類模型的前期的數(shù)據(jù)篩選工作,用于提高分類的效率和準確率。(一)、WDMS數(shù)據(jù)降維 分別采用了線性和非線性的算法

6、對光譜數(shù)據(jù)降維。1.線性降維方法PCA: 主分量分析法(principle component analysis,PCA)的數(shù)學基礎是離散的K-L變換,目的是在數(shù)據(jù)空間中找出一組向量來盡可能地解釋數(shù)據(jù)的方差,用較少數(shù)量的特征描述樣本,從而降低樣本維數(shù)。 降降維效果如下圖:維效果如下圖:1-100維的PCA方差貢獻率部分PCA降維的方差貢獻率結果維數(shù)(維數(shù)(d)方差貢獻率(方差貢獻率(%)1 172.2172.212 292.6492.645 595.1495.14101095.8995.89202096.3396.33303096.5996.59565697.0197.0110010097.3

7、897.38降維二、非線性降維降維二、非線性降維-ISOMAP在特征提取的策略上,在特征提取的策略上,ISOMAP采用了和采用了和PCA不同的優(yōu)化思想。不同的優(yōu)化思想。ISOMAP從度量樣本點的測從度量樣本點的測地線距離出發(fā),在降低數(shù)據(jù)維數(shù)的同時最大化地線距離出發(fā),在降低數(shù)據(jù)維數(shù)的同時最大化保留樣本的保留樣本的“非線性非線性”距離,成功找出嵌入在距離,成功找出嵌入在高維流形曲面中的低維空間。高維流形曲面中的低維空間。降維二、非線性降維降維二、非線性降維-ISOMAP 的的 ISOMAP的二維投影效果的二維投影效果 ISOMAP的三維投影效果的三維投影效果當使用當使用ISOMAP算法將算法將WD

8、MS光譜降到光譜降到3維時,呈現(xiàn)出特殊的維時,呈現(xiàn)出特殊的“馬鞍狀馬鞍狀”結結構,構,98.2%的非的非WDMS光譜樣本落在了光譜樣本落在了“馬鞍馬鞍”左側(cè);左側(cè);99.8%的的WDMS落在了落在了“馬鞍馬鞍”右側(cè)。在測地線距離的刻畫下,右側(cè)。在測地線距離的刻畫下,3維嵌入子空間中維嵌入子空間中WDMS表表現(xiàn)出了明顯的現(xiàn)出了明顯的“聚堆聚堆”行為,為分類算法的實施提供了便利及必要的行為,為分類算法的實施提供了便利及必要的預處理預處理降維三、非線性降維降維三、非線性降維-深度學習深度學習 本文本文將在光譜數(shù)據(jù)集上應用棧式自編碼器(將在光譜數(shù)據(jù)集上應用棧式自編碼器(Stacked Auto-Enc

9、oders,SAE),深度探究光譜的數(shù)據(jù)結構),深度探究光譜的數(shù)據(jù)結構。棧式自編碼是一棧式自編碼是一個多層的個多層的“深度深度”網(wǎng)絡網(wǎng)絡,其中每一個隱含層都是對輸入數(shù)據(jù)的一個其中每一個隱含層都是對輸入數(shù)據(jù)的一個特征表示特征表示。下圖是本文光譜深度訓練模型圖:。下圖是本文光譜深度訓練模型圖:降維三、非線性降維降維三、非線性降維-深度學習深度學習 設定第一隱含層由設定第一隱含層由500個神經(jīng)元構成,訓練后的模型在第一層隱含層上變個神經(jīng)元構成,訓練后的模型在第一層隱含層上變現(xiàn)為現(xiàn)為500條條“特征光譜特征光譜”(Feature Spectrum),),第二次貪婪收斂為第二次貪婪收斂為10,第一隱含層

10、的每一個神經(jīng)元對光譜不同波長的流量數(shù)據(jù)進行了不同的第一隱含層的每一個神經(jīng)元對光譜不同波長的流量數(shù)據(jù)進行了不同的增強增強/抑制,反映在各神經(jīng)元權值的正負上抑制,反映在各神經(jīng)元權值的正負上。PCA與與SAE的光譜逆還原效果對比的光譜逆還原效果對比左圖是同一個WDMS光譜用PCA降到兩維后逆還原為3522維的效果,右圖是用SAE降到兩維后還原為3522維的效果,說明對訓練后的深度網(wǎng)絡容錯能力強,信噪比不會對其產(chǎn)生太大的影響,使用該方法能夠?qū)Φ托旁氡鹊墓庾V進行識別。而PCA方法對信噪比有一定的要求。 WDMS最佳維數(shù)確定最佳維數(shù)確定 為檢驗降維效果的好壞,最直觀的方法是利用分類器對降維后的數(shù)為檢驗降維

11、效果的好壞,最直觀的方法是利用分類器對降維后的數(shù)據(jù)進行分類實驗,從交叉據(jù)進行分類實驗,從交叉檢驗(檢驗(Cross-validation)的準確率)的準確率反反映映出特征提取的效果。本實驗采用了出特征提取的效果。本實驗采用了Kernel-SVM 作為分類器作為分類器。1. PCA確定最佳維數(shù)效果圖確定最佳維數(shù)效果圖 :WDMS最佳維數(shù)確定最佳維數(shù)確定2. ISOMAP確定最佳維數(shù):確定最佳維數(shù):WDMS最佳維數(shù)確定最佳維數(shù)確定3. SAE最佳維數(shù)確定:最佳維數(shù)確定:WDMS最佳維數(shù)確定最佳維數(shù)確定方法方法最佳維數(shù)最佳維數(shù)準確率準確率(%)耗時耗時(h)PCA2599.370.5ISOMAP89

12、6.928SAE895.2723三種方法的最佳特征提取效果降維工作總結降維工作總結線性降維雖然在準確率上較高與非線性降維雖然在準確率上較高與非線性,但是其維數(shù)很高,所以可以線性,但是其維數(shù)很高,所以可以用于數(shù)據(jù)量較少的情況。用于數(shù)據(jù)量較少的情況。非線性的非線性的ISOMAP在準確率上僅在準確率上僅次于線性降維,但其所需維數(shù)較低,次于線性降維,但其所需維數(shù)較低,可以作為分類模型的降維算法可以作為分類模型的降維算法SAE雖然在準確率上最低,但其對雖然在準確率上最低,但其對低信噪比的光譜識別度很高,可以低信噪比的光譜識別度很高,可以用于低信噪比的光譜降維用于低信噪比的光譜降維(二)(二)WDMS分類

13、模型構造分類模型構造主要采用ISOMAP作為分類模型的降維算法采用SVM作為分類算法,訓練分類Model為了提高分類的準確率對SVM進行優(yōu)化構造了四種不同的分類模型,并對其進行對比,選取最終的分類模型用于海量的數(shù)據(jù)挖掘。WDMS分類模型構造分類模型構造1.SVM的參數(shù)優(yōu)化:的參數(shù)優(yōu)化:SVM的懲罰因子的懲罰因子C以及核函數(shù)系數(shù)以及核函數(shù)系數(shù)基于基于PSO(粒子群算法)的參數(shù)優(yōu)化效果:(粒子群算法)的參數(shù)優(yōu)化效果:懲罰因子C(左)與徑向基函數(shù)系數(shù)(右)變化圖WDMS分類模型構造分類模型構造網(wǎng)格計算優(yōu)化參數(shù):網(wǎng)格計算優(yōu)化參數(shù):粒子群算法(PSO)網(wǎng)格搜索(GridSearch)最優(yōu)懲罰因子1.5(

14、或2.5)1.5(或2)最優(yōu)徑向基函數(shù)參數(shù)0.010.01算法時間(秒)24008611 PSO與網(wǎng)格搜索結果對比WDMS分類模型分類模型-ISOMP與優(yōu)化與優(yōu)化SVM模型模型WDMS分類模型分類模型-K近鄰聚類預處理模型近鄰聚類預處理模型WDMS分類模型分類模型-棧式自編碼深度提取棧式自編碼深度提取模型模型WDMS分類模型分類模型-one-vs-all多分類模多分類模型型WDMS分類模型構造分類模型構造 各種模型分類準確率對比各種模型分類準確率對比使用最優(yōu)分類模型發(fā)現(xiàn)使用最優(yōu)分類模型發(fā)現(xiàn)WDMS挖掘數(shù)據(jù)對象:挖掘數(shù)據(jù)對象:3T的的SDSS發(fā)布的全部發(fā)布的全部DR10數(shù)據(jù):數(shù)據(jù):天空覆蓋14,

15、555平方度光學星系光譜1,848,851光學類星體光譜308,377光學恒星光譜736,484紅外恒星光譜57,545挖掘結果挖掘結果RA+DECMJDplatefiber19.9214,31.382953711206115927.1771,14.269753262189951942.5770,35.197053768239836047.3202,38.286454082244359099.8890,82.942454152254867113.2041,40.2730541542701140122.9916,8.106554081257077123.5024,-0.8710538462077

16、207125.1077,14.8703537132272231126.1046,9.3255540552571633129.6018,10.2691540612573227138.5812,22.153353705228754143.0460,13.4843540922580304149.2766,26.628053742234224154.5811,17.7840541742589390157.7826,27.2348537942353156158.8741,37.9264534321973566164.2340,19.7496541752482608182.7071,27.81345382

17、02227623188.0126,40.0850534331984231211.0498,50.5000534461671362212.5298,33.0002537952125409檢驗是否為新發(fā)現(xiàn)的檢驗是否為新發(fā)現(xiàn)的WD+M雙星的網(wǎng)站雙星的網(wǎng)站(三)(三)構造構造WDMS顏色特征模型顏色特征模型問題:問題:目標:目標: WDMS具有非常明顯的顏色特征,能否利 用它的顏色特征來完成數(shù)據(jù)的預處理工作?改進現(xiàn)有的顏色特征模型使用構造的顏色特征模型與分類模型結合,實現(xiàn)分類前的數(shù)據(jù)篩選工作,提高分類的效率。(三)構造(三)構造WDMS顏色特征模型顏色特征模型 目前的天文領域公認的顏色特征模型目前的天

18、文領域公認的顏色特征模型: Szkody: u-g0.45,g-r0.3,i-z0.4 Patrick: u-g0.9,g-r0.8,r-i0.8,i-z1.0 本文本文通過構建具有多項式特性的高維通過構建具有多項式特性的高維和徑向基的高維和徑向基的高維映射神經(jīng)網(wǎng)絡,映射神經(jīng)網(wǎng)絡,對對WDMS的顏色特征進行深度探索。的顏色特征進行深度探索。神經(jīng)網(wǎng)絡的拓撲結構如下:神經(jīng)網(wǎng)絡的拓撲結構如下: (三)構造(三)構造WDMS顏色特征模型顏色特征模型 多項式建模結果多項式建模結果: 將將五五個顏色特征的個顏色特征的多項式神經(jīng)網(wǎng)絡結構多項式神經(jīng)網(wǎng)絡結構以及相關的系數(shù)直觀地用公式進行以及相關的系數(shù)直觀地用公式進行表示如下表示如下: 該顏色特征模型的交叉檢驗的準確率能夠達到該顏色特征模型的交叉檢驗的準確率能夠達到95.6%。表達式 交叉檢驗準確率89.32%83.50%76.62%80.57%220.790.131.111.420.142.21ugugug 220.080.790.670.390.170.25grgrgr221.570.480.250.460

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論