Analiza widm cieplnych za pomocą uczenia maszynowego

Gromady galaktyk należą do największych we Wszechświecie struktur powiązanych grawitacyjnie. Jedną z ich charakterystycznych cech jest to, że mają tendencję do osadzania się w dużym rezerwuarze podgrzanego gazu, znanym jako ośrodek wewnątrz gromady (ang. Intracluster Medium – ICM). Przy temperaturach dochodzących do 10⁸ Kelwinów ICM jest silnym emiterem promieniowania rentgenowskiego. Wynikowe widmo jest zdominowane przez cieplne promieniowanie bremßtrahlung: promieniowanie emitowane, gdy naładowane cząstki są spowalniane. Charakterystyka tej emisji cieplnej dostarcza przydatnych informacji na temat procesów zachodzących w gromadzie, takich jak łączenie się galaktyk i aktywność aktywnych jąder galaktycznych (AGN), a także różnych parametrów fizycznych, w tym temperatury i metaliczności. Aby uzyskać te parametry, należy najpierw dopasować obserwowane widma. Jednak ICM niekoniecznie jest jednolity. Różne regiony często charakteryzują się wieloma składnikami termicznymi, co wymaga raczej modelu mieszanki temperatur niż modelu pojedynczej składowej temperatury, aby odtworzyć obserwowane widma. Autorzy nowej pracy proponują nową metodę uczenia maszynowego do systematycznego szacowania różnych podstawowych składników termicznych w widmach ICM. Ponieważ podejście do tego nie jest zależne od żadnego konkretnego modelu fizycznego, jest zarówno wydajne, jak i przenośne.

Podejście autorów do uczenia maszynowego obejmuje dwie kluczowe techniki; analiza głównych składowych (principal component analysis – PCA) i lasów losowych. Ideą PCA jest rozbicie dużych, wielowymiarowych zbiorów danych na ich główne składowe. Jest to analogiczne do rozwiązania wartości własnych, a przetwarzanie danych można traktować jako zmianę podstawy. PCA jest niezwykle przydatne w uczeniu maszynowym, ponieważ strukturyzuje dane w sposób, który najlepiej podkreśla istotne funkcje (odrzucając te, które są nadmiarowe/nieistotne). Poprawia to zdolność uczenia się i wydajność techniki uczenia maszynowego. Autorzy wykorzystują las losowy klasyfikatorów drzew decyzyjnych do klasyfikacji przetwarzanych danych (czyli danych po transformacji za pomocą PCA). W drzewie decyzyjnym zbiór danych jest rekurencyjnie partycjonowany, aż każdy podzbiór będzie odpowiadał określonej klasie lub kategorii. Ponieważ drzewa decyzyjne są dość nieporęczne i podatne na nadmierne dopasowanie, często korzystne jest przeszkolenie kilku tysięcy naraz (tj. las losowy). Biorąc pod uwagę dane wejściowe odpowiadające obszarowi emisji promieniowania X, celem jest wprowadzenie liczby unikalnych składowych cieplnych potrzebnych do opisania regionu. Autorzy tworzą dane szkoleniowe za pomocą syntetycznych widm rentgenowskich na podstawie obserwacji pochodzących z obserwatorium Chandra.

Astronomowie zastosowali swoją metodę uczenia maszynowego do gromady galaktyk Perseusza, o której wiadomo, że zawiera regiony o wielu składowych temperatury. Wyniki pokazują, że przytłaczająca większość gromady Perseusza składa się z dwuskładnikowej emisji termicznej, z niektórymi regionami emisji czteroskładnikowej i jednoskładnikowej. Potwierdza to wcześniejsze wnioski, oparte na obserwacjach z Chandra, że gromady Perseusza nie można modelować za pomocą pojedynczej składowej temperatury.

Po ustaleniu, że istnieją dwie główne składowe temperatury, autorzy następnie obliczyli mapy temperatur. Ogólnie każdy składnik odpowiada gazom o różnych temperaturach; pierwszy składnik charakteryzuje się stosunkowo chłodniejszym gazem (około 2 keV), podczas gdy drugi odpowiada cieplejszemu gazowi (4 keV). Odpowiadają one również miękkiej i twardej emisji promieniowania X. Zachęcające jest to, że te składniki są rozmieszczone inaczej: zimny gaz jest przeważnie jednolity, podczas gdy gaz gorący jest bardziej nierównomierny. Niektóre regiony z niską temperaturą pierwszego składnika mają wysoką temperaturę drugiego składnika (i odwrotnie). Zatem tylko łącząc te różne składowe można dokładnie modelować cieplną naturę emisji promieniowania rentgenowskiego w całym ICM.

Jedną z głównych zalet tego podejścia do uczenia maszynowego jest to, że nie ogranicza się ono wyłącznie do danych z Chandra; może być używane z innymi misjami rentgenowskimi, takimi jak Athena i eROSITA. Autorzy spodziewają się, że przyszłe badania w wysokiej rozdzielczości przyniosą poprawę klasyfikacji. Chodzi o to, że klasyfikacja lasu losowego jest czuła na wiele czynników, w tym rozdzielczość, epoki czasowe (ponieważ matryce CCD ulegają degradacji w czasie), i błędy selekcji w wyborze danych uczących (np. przesunięcie ku czerwieni, gęstość kolumn). Autorzy pracy wykazali, że nowa technika uczenia maszynowego jest w stanie wyodrębnić wiele składowych cieplnych w emisji promieniowania X ICM, potwierdzając, że gromada Perseusza rzeczywiście najlepiej charakteryzuje się więcej niż jednym składnikiem. Ponieważ przyszłe badania pozwolą na silniejsze ograniczenie emisji ICM, możliwe będzie bardziej szczegółowe modelowanie procesów fizycznych, ostatecznie poprawiając naszą wiedzę na temat gromad galaktyk i ewolucji galaktyk w nich zawartych.

Opracowanie:
Agnieszka Nowak

Więcej informacji:
Analyzing Thermal Spectra with Machine Learning

A Novel Machine Learning Approach to Disentangle Multi-Temperature Regions in Galaxy Clusters

Źródło: AAS

Na ilustracji: Zdjęcie rentgenowskie z obserwatorium Chandra gorącego ośrodka wewnątrz gromady w gromadzie galaktyk Perseusza. Źródło: NASA/CXC/GSFC/S.A.Walker i inni.

gromada galaktyk Perseusza

gromady galaktyk

uczenie maszynowe

Chandra

promieniowanie rentgenowskie