應用AutoClass算法聚類分析SDSS巡天的恒星數(shù)據(jù)_第1頁
應用AutoClass算法聚類分析SDSS巡天的恒星數(shù)據(jù)_第2頁
應用AutoClass算法聚類分析SDSS巡天的恒星數(shù)據(jù)_第3頁
應用AutoClass算法聚類分析SDSS巡天的恒星數(shù)據(jù)_第4頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、應用AutoClass算法聚類分析SDSS巡天的恒星數(shù)據(jù)嚴太生2008年11月于太原提綱 恒星自動分類/聚類的背景 AutoClass算法 SDSS數(shù)字巡天及參數(shù)選取 AutoClass分類結果及討論 結論1 恒星自動分類/聚類的背景一個完整詳細的恒星樣本不僅對于恒星的基本組成,演化歷史,而且對于研究星系結構和演化都有很重要的意義。隨著從地面和空間觀測設備獲取大量的數(shù)據(jù),構建大的完整的樣本成為可能。為了提高分類/聚類的效率,我們需要依靠區(qū)別性很好的分類器。 相關的恒星自動分類/聚類工作列舉如下:A)Bazarghan (2008) 運用神經網絡對從O型星到M型星的5000個光譜分類成158個光

2、譜類型。B)應用GLIMPSE中紅外巡天數(shù)據(jù),Mercer (2005) 運用自動檢測算法在銀河系星系盤中發(fā)現(xiàn)了一些新星團。C)使用支持矢量機算法,Wozniak (2004) 從北天變星巡天數(shù)據(jù)中發(fā)現(xiàn)8678個慢變星。D)Froebrich (2008) 通過分析恒星密度圖和顏色-顏色/星等圖,對銀河系新的星團進行分類。E)Jaschek (1990) 撰寫了一本關于恒星分類的工具,方法和結果等綜合小冊子。2 AutoClass算法介紹AutoClass是基于Bayesian理論的一種非監(jiān)督分類算法。它通過結合對實型的或者離散型的數(shù)值特性的類別描述,自動發(fā)現(xiàn)數(shù)據(jù)的自然分類。對于實型數(shù)據(jù), A

3、utoClass應用高斯分布,而對于離散型數(shù)據(jù)應用Bernoulli分布。 AutoClass的幾個關鍵特性如下:A)自動確定類別的數(shù)目;B)能使用實型的和離散型的混合數(shù)據(jù);C)能夠處理缺值數(shù)據(jù);D)處理需要的時間與數(shù)據(jù)量成簡單的線形關系;E)產生一個報告描述發(fā)現(xiàn)的類別,并且通過訓練數(shù)據(jù)構建的分類器預測測試數(shù)據(jù)的類型。 AutoClass被廣泛應用于天文和其他的領域,有助于發(fā)現(xiàn)一些未知的令人驚奇的類別。3 SDSS數(shù)字巡天及參數(shù)選取A)SDSS數(shù)字巡天簡介 SDSS數(shù)字巡天是一個在天文上非常富有野心的重要的巡天。它已經觀測了將近2億個天體,對其中的67萬5千個星系,9萬個類星體和18萬5千多個

4、恒星拍攝了光譜;此外,它得到了超過1/4天區(qū)的93萬個星系和12萬類星體在可見光五個波段的圖象數(shù)據(jù)。B)分類參數(shù)選取 我們選取SDSS DR6的恒星具有光譜的測光數(shù)據(jù)(即已經過光譜證認的測光數(shù)據(jù)),通過去缺值,得到140865條恒星測光數(shù)據(jù)。 為了實現(xiàn)在多維空間中的恒星聚類,每條數(shù)據(jù)記錄都包含有5個屬性(psf_u-u,psf_g-g,psf_r-r,psf_i-I,psf_z-z),即PSF星等和模型星等在五個波段的各自差值。4 AutoClass分類結果及討論A)AutoClass分類結果我們將恒星分類限制在兩類(stars和non-stars,這里non-stars是指特殊恒星和非恒星天

5、體),并且將AutoClass的模型參數(shù)設置為Single_normal(沒有缺值的實數(shù)特性模型)。通過運行search程序,我們獲得分類結果是139874個stars和991個non-stars。Stars和Non-stars分布圖i)星等-星等圖StarsNon-starsii)顏色-星等圖StarsNon-starsB) non-stars的證認我們已經應用AutoClass獲得了分類結果并且選出了non-stars。下面的任務就是對這些non-stars進行證認。i)通過SIMBAD證認在SIMBAD中,將non-stars的坐標輸入進去,將半徑誤差范圍設置為2角秒,共獲得25個non

6、-stars的證認信息。以下是25個證認的non-stars的星等/顏色-星等圖ii)通過NED證認在NED中,將non-stars的坐標輸入進去,將半徑誤差范圍設置為6角秒,共獲得50個non-stars的證認信息。以下是50個證認的non-stars的星等/顏色-星等圖iii)通過SDSS image/spectra證認對于不能通過SIMBAD和NED證認的non-stars,通過檢測它們的圖象和光譜進行證認。隨機挑選10個non-stars的數(shù)據(jù),將它們的坐標輸入進去,下表列出了10個天體的證認信息。(如果圖象和光譜證認的信息不一致,以光譜分類為準)C)計算non-stars的分類正確率

7、。下表列舉出通過三種證認得到的百分率,得到通過SIMBAD, NED和通過SDSS image/spectra證認的正確率分別為76.0%,98.0%和80.0%,而總的正確率為89.4%。D)討論存在一些因素影響分類的效率和結果:i)任何算法(包括監(jiān)督和非監(jiān)督)都要受到它處理的數(shù)據(jù)的限制。ii)由于缺少更多有用的信息,我們不能計算stars的分類正確率,也不能詳細證認每個non-stars的類型。iii) AutoClass算法本身并不知道每個類型的具體意義。等等但是根據(jù)系統(tǒng)差異和任務指標,我們能夠建立一個良好的分類器來完成我們的分類,并獲得了一些有意義的結論。i)我們在顏色星-等圖或星等-

8、星等圖中發(fā)現(xiàn)stars和non-stars是幾乎重疊在一起的, non-stars并不一定分布在邊緣區(qū)域。所以不能通過直觀區(qū)分2維空間上的離群數(shù)據(jù)(即non-stars),這也正是應用AutoClass的原因。ii)我們注意到在通過SIMBAD和NED證認的星等-星等圖中, 有趣的是non-stars的分布幾乎形成一條斜線,而在顏色-星等圖中分布幾乎形成一條水平線,或許其中暗含一些證認信息。iii)從NED證認的分布圖中,我們可以發(fā)現(xiàn)同一類的non-stars基本上是聚集在一個很小的區(qū)域。 我們的工作是對恒星的聚類。另外,將來可以通過調整輸入?yún)?shù)看是否能提高它的分類效率和性能;也可以進一步研究

9、此算法是否也適用于其他類型的數(shù)據(jù)處理。5 結論 AutoClass分類不需要先驗知識 ,它僅僅根據(jù)觀察數(shù)據(jù)本身來獲得聚類信息。從我們的結果可以得出它可以用于SDSS 恒星測光數(shù)據(jù)的聚類分析,從而有助于建立一個純的恒星樣本。從分類的結果更能體現(xiàn)這個結論。通過分析,可以得出如下的結論:i)分析證認的non-stars結果,發(fā)現(xiàn)它們大部分是galaxy,HII,late-star等等。ii)由AutoClass構建的分類器可以用于預測沒有經過光譜證認的恒星的測光數(shù)據(jù)的類型iii)至于那些沒有能夠被證認的non-stars,可以用大望遠鏡去跟蹤觀測,或許能發(fā)現(xiàn)稀有天體。iv)分類的正確率約高達90%,AutoClass可以有效的在大樣本數(shù)據(jù)中發(fā)現(xiàn)特殊天體。v)仔細觀察相同類的non-stars的分布結

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論