天文愛好者們或許該學(xué)學(xué)機(jī)器學(xué)習(xí)了,在人工智能時代,用望遠(yuǎn)鏡來獵星已經(jīng)略 low。
作者按:在去年 12 月份,谷歌訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),通過分析美國宇航局(NASA)Kepler 空間望遠(yuǎn)鏡獲得的一些數(shù)據(jù),發(fā)現(xiàn)了兩顆系外行星。這項工作作為將機(jī)器學(xué)習(xí)的方法應(yīng)用到天體物理中的典型案例,或?qū)⒋蟠蠹铀偃祟悓ο低庑行堑奶剿鞑椒ァ?/span>
而在今天,谷歌開源了他們的代碼,任何有興趣的同學(xué)都可以下載代碼和數(shù)據(jù),在自己的機(jī)器上運行。
作者注:系外行星,指在太陽系之外的行星。天文學(xué)家估計銀河系中可能包含多達(dá) 4,000 億顆系外行星。截至 2016 年 2 月 22 日,已經(jīng)被認(rèn)定的系外行星總數(shù)為 2085 顆,這些行星分屬 1331 個行星系,其中有 509 個多行星系。
- via Wikipedia
我們知道,行星是不發(fā)光的,我們之所以能夠看到水、金、火、木、土星,是因為它們反射了太陽光線,但這些光線相比于恒星來說是微不足道的。當(dāng)距離遙遠(yuǎn)時,即使那些巨大的恒星都可能難以察覺,更何況那些系外行星。
天文學(xué)家于是想到了另外一種辦法——當(dāng)行星經(jīng)過恒星的前方時會遮擋一部分光線,這就會導(dǎo)致我們測量的恒星亮度稍微下降,當(dāng)離開后又會恢復(fù),于是在恒星亮度曲線上就會出現(xiàn)「U 形」凹陷;通過這種方法,天文學(xué)家可以間接地證明系外行星的存在。
不過,還有一些其他原因可能會導(dǎo)致測得的恒星亮度降低,例如雙星系統(tǒng)、恒星黑子(類似太陽黑子)或者宇宙線打擊到空間望遠(yuǎn)鏡上所造成的儀器噪聲。
為了在 Kepler 空間望遠(yuǎn)鏡的數(shù)據(jù)中搜索行星,天文學(xué)家們使用了自動化軟件來檢測可能由行星遮光引起的信號,然后手動跟蹤去確定這些信號到底是行星還是誤報。為了避免檢測到太多的信號,以至于他們沒有那么多人手來處理,天文學(xué)家們對自動檢測設(shè)置了一個截止點:只有信噪比超過固定閾值才會被提取出來;否則就丟掉。不過即使這樣,仍然有大量的信號需要檢測。例如到目前為止,已經(jīng)有超過 30000 個信號被手動檢測過,其中約 2500 個被驗證為系外行星。
可能你也會想到,設(shè)置閾值是否會導(dǎo)致一些可能真實的行星信號被丟掉呢?答案是肯定的。但是,限于勞動強(qiáng)度太大,而降低閾值假陽性檢測率會伴隨著迅速增加,也即能夠檢測到實際行星的比例將越來越低。
然而,這些丟掉的信號里面可能存在一些我們很關(guān)切的天體——潛在的宜居行星(類似地球的行星)。這些宜居行星一般相對較小,而且圍繞在相對較暗的恒星周圍運動,其遮光信號將非常弱。因此在閾值以下丟掉的這些信號可能隱藏著仍未發(fā)現(xiàn)的寶藏。
考慮到數(shù)據(jù)的龐大和人力的密集,自然而言想到的一個方法就是:機(jī)器學(xué)習(xí)。
基于以上的考慮,Google Brain 團(tuán)隊找到了 UT Austin 大學(xué)的 Andrew Vanderburg,Vanderburg 是一位著名的天體物理學(xué)家,專注于研究系外行星探測。他們合作開發(fā)了一個神經(jīng)網(wǎng)絡(luò)(CNN 模型),用來在低信噪比檢測的信號中搜索系外行星。
就像所有基于神經(jīng)網(wǎng)絡(luò)的模型一樣,這個模型也需要訓(xùn)練集。幸運的是,如前面所述,我們已經(jīng)擁有 30000 個 Kepler 信號,這些信號已經(jīng)由天文學(xué)家們?nèi)斯な謩訖z測和分類過了。
Google 團(tuán)隊使用了其中一半的數(shù)據(jù)用作訓(xùn)練,其中有 3500 個信號經(jīng)過驗證為行星或行星候選者。該網(wǎng)絡(luò)的輸入是同一個光曲線的兩個獨立視圖:一個寬視圖,允許模型檢查光曲線上其他地方的信號(例如,雙星會引起次級信號);一個是放大視圖,使模型能夠仔細(xì)檢查信號的形狀(例如將「U 形」信號和「V 形」信號區(qū)分開來)。
當(dāng)完成模型訓(xùn)練后,Google 團(tuán)隊的研究人員用它研究了光曲線的的特征,以檢驗?zāi)P偷妮敵鍪欠衽c我們的期望相符。方法很簡單,就是系統(tǒng)地掩蓋輸入光曲線的某一個小區(qū)域,來檢測模型輸出的變化。結(jié)果顯示,如果掩蓋那些對判斷信號特別重要的區(qū)域,模型輸出也會相應(yīng)的改變;但如果掩蓋的是不重要的區(qū)域,則不會產(chǎn)生顯著的影響。
舉例來說,下面這張為雙星(而不是系外行星)的光曲線圖,模型做出了正確的預(yù)測;其中綠色突顯的點是最能影響模型輸出的區(qū)域,因為它們是對應(yīng)于雙星系統(tǒng)的次級信號。當(dāng)這些點被掩蓋后,模型的輸出中判斷為系外行星的概率就從 0%突然躍升到 40%。
經(jīng)過以上的驗證后,研究人員對模型的預(yù)測能力就充滿了信心。他們選擇了 670 顆恒星,期望能在它們的光曲線中搜索到新的系外行星。之所以挑選這 670 顆恒星,是因為我們已知這些恒星有多個軌道行星,研究人員們相信這些恒星中應(yīng)該還擁有一些尚未被發(fā)現(xiàn)的行星。
研究人員選取了遠(yuǎn)低于天文學(xué)家之前設(shè)置的信噪比閾值。正如預(yù)期的那樣,神經(jīng)網(wǎng)絡(luò)模型判斷的結(jié)果顯示大部分信號為虛假信號,但令人興奮的是,有少數(shù)極有可能是系外行星的候選者。隨后經(jīng)過檢測判定了其中兩顆為系外行星: Kepler-90i 和 Kepler-80g。
Amazing!!
從 670 顆恒星中找到了兩顆新的系外行星。這項工作可能只是一個開始,而且遠(yuǎn)沒有完成,因為開普勒觀測到的數(shù)據(jù)為 20 萬顆恒星。誰知道當(dāng)把這項技術(shù)應(yīng)用到整個數(shù)據(jù)集時我們會發(fā)現(xiàn)什么。
獨樂了不如眾樂樂,Google Brain 團(tuán)隊最近開源了他們的代碼。有興趣的同學(xué)不妨加入這場大眾的獵星行動,一起來尋找那顆可能屬于自己的星球。
人工智能時代的天文愛好者,可能不再是拿著昂貴的器材到野外去看星空了,而是使用更強(qiáng)大的工具——機(jī)器學(xué)習(xí),來搜索宇宙。
來源:AI科技評論
聯(lián)系客服