Przejdź do treści

Gwiazdy i struktura Drogi Mlecznej są bardziej skomplikowane niż oszustwa podatkowe

Na ilustracji: porównanie rozkładu Benforda z rozkładem pierwszych cyfr znaczących odpowiednio: paralaksy trygonometryczne satelity Gaia (czerwone romby), odległości obliczonych z paralaks (czerwone gwiazdki) i odległości rzeczywiste z modelu GUMS (czerwone koła). Histogram z granatowymi prostokątami przedstawia funkcję gęstości prawdopodobieństwa rozkładu Benforda (P_k)  z Wikipedii  w zależności od pierwszej cyfry znaczącej dla liczb ze zbioru danych.

Astronomiczne przeglądy nieba generują „astronomiczne” ilości danych, które pozwalają coraz wnikliwiej poznawać Wszechświat. W jaki sposób możemy sprawdzić, czy te ogromne zbiory danych obserwacyjnych są poprawne? Jurjen de Jong ze współpracownikami wykorzystał ciekawostkę matematyczną, jaką jest prawo Benforda, generalnie używane do łapania oszustów podatkowych lub przekrętów na giełdzie, by zweryfikować poprawność bazy danych satelity Gaia DR2.

Prawo Benforda oznacza fakt częstego występowania charakterystycznego rozkładu w dużych zbiorach danych, gdzie nie wszystkie liczby występują równie często. Nazwane jest również rozkładem Benforda lub prawem pierwszych (znaczących) cyfr.

Zgodnie z tym prawem około 30% liczb w zestawie danych powinno rozpoczynać się od cyfry 1, a tylko 5% – od cyfry 9. Ilustruje to załączony histogram w kolorze granatowym, w którym pokazano funkcję gęstości prawdopodobieństwa rozkładu Benforda (P_k) opisanego wzorem:
                                                                   P(k) = log (1 + 1/k)
gdzie „k” oznacza pierwszą znaczącą cyfrę (k=1, 2, 3, 4, 5, 6, 7, 8, 9) dla liczb ze zbioru danych. Zakres danych nie może być za bardzo zawężany i musi obejmować kilka rzędów wielkości.

To prawo pierwszych cyfr odkrył w 1881 roku kanadyjski astronom i matematyk Simon Newcomb. Przeglądając tablice logarytmiczne w bibliotece United States Naval Observatory, zauważył, że najbardziej brudne są strony na początku, gdzie występują liczby rozpoczynające się od cyfry 1, a najmniej strony końcowe z liczbami 9... Okazało się, że ludzie częściej szukają liczb rozpoczynających się od niższych cyfr znajdujących się na początku książki.

Jednak to prawo zawdzięcza nazwisko amerykańskiemu inżynierowi Frankowi Benfordowi, który ponownie odkrył to zjawisko, patrząc na sfatygowane strony tablic logarytmicznych w 1938 roku – nie wiedząc o wcześniejszym odkryciu Newcomba. Benford sprawdził, że ta teoria znajduje potwierdzenie również w innych zbiorach danych.

Prawo Benforda nie jest intuicyjne. Tym nie mniej różne zbiory danych je spełniają, np.: giełda, powierzchnia rzek, ceny. Podstawowym zastosowaniem tego prawa jest tropienie oszustw podatkowych. Okazuje się, że odkąd ludzie wymyślili liczby, wybierają z taką samą częstością każdą liczbę w zakresie pomiędzy 1 i 9 – co jest niezgodne z prawem Benforda. Dlatego deklaracje podatkowe z liczbami, które nie spełniają prawa Benforda mogą być nieuczciwe. Prawo Benforda wykorzystano również, by wykazać, że dane ekonomiczne Grecji przekazywane do organów Unii Europejskiej w związku z przystąpieniem do strefy Euro były naciągane. Autorzy omawianej tutaj publikacji zweryfikowali zgodność z prawem Benforda bazy danych Gaia DR2 (DR – ang. Data Release/publikacja danych nr 2) opublikowanej w 2018 roku.

Gaia jest obserwatorium astronomicznym na orbicie działającym od 2013 roku, którego zadaniem jest stworzenie najdokładniejszej trójwymiarowej mapy Drogi Mlecznej. Gaia wykonuje pomiary astrometryczne (pozycje, odległości, ruchy własne) gwiazd z niespotykaną do tej pory dokładnością. Planowane jest skatalogowanie około miliarda obiektów widocznych na naszym niebie – głównie gwiazd, ale również planet, komet, planetoid, kwazarów i innych.

Głównym wynikiem obserwacji satelity Gaia są pozycje i odległości do gwiazd. Aby wyznaczyć odległość do danej gwiazdy, Gaia mierzy tzw. efekt paralaksy. W tym celu wykorzystuje się ruch orbitalny Ziemi wokół Słońca i fotografuje się gwiazdę np. na wiosnę, a następnie pod innym kątem jesienią. Dlatego jej obserwowana pozycja na niebie względem innych gwiazd przesuwa się. To przesunięcie nazywa się paralaksą i jest tym większe, im bliżej od nas znajduje się gwiazda. Na podstawie paralaksy wyznacza się odległość do gwiazdy.

Jurjen de Jong ze współpracownikami zweryfikowali, czy pomiary paralaks wykonane przez satelitę Gaia i wyznaczone na tej podstawie odległości do gwiazd spełniają prawo Benforda. Nie była to tylko sztuka dla sztuki. Celem tej analizy było sprawdzenie, czy dane nie są obarczone błędami systematycznymi, które wymagają skorygowania.

Czy obserwacje w bazie danych Gaia DR2 spełniają prawo Benforda?
Odpowiedź: TAK i NIE.

Na rysunku oznaczono symbolem romba w kolorze czerwonym rozkład pierwszych cyfr paralaks zmierzonych przez satelitę Gaia. Ten rozkład pasuje dość dobrze do teoretycznego rozkładu Benforda oznaczonego granatowymi prostokątami. Więc wyznaczenia paralaks satelity Gaia wydają się spełniać to prawo pierwszych cyfr.

Kolejny rozkład oznaczony symbolem czerwonej gwiazdki przedstawia rozkład pierwszych cyfr odległości wyznaczonych na podstawie paralaks. Tutaj są dwa maksima: jedno przy cyfrze 1, a drugie przy cyfrze 7. Z tego wynika, że odległości, które zostały wyznaczone z paralaks satelity Gaia, nie są zgodne z rozkładem Benforda.

Czy to oznacza, że dane satelity Gaia są błędne? – Nie są błędne!


Prawo Benforda nie można ślepo stosować do jakiegokolwiek zbioru liczb. W szczególności dane nie powinny zawierać „specjalnej” skali. Wyznaczone odległości z obserwacji satelity Gaia zawierają szczególna skalę, ponieważ środek Drogi Mlecznej znajduje się około 8 kpc od Ziemi (kpc → kiloparsek = 1000 parseków = 3260 lat świetlnych). Dlatego oczekujemy, że wiele gwiazd będzie się znajdowało w odległości pomiędzy 7 i 8 kpc. Poza tym obserwacje Gai zawierają mało gwiazd znajdujących się w odległości większej niż 10 kpc. Więc odległości nie rozciągają się na kilka rzędów wielkości. Dlatego prawo Benforda nie jest spełnione dla tego zbioru danych.

Mierzone paralaksy rozciągają się na cztery rzędy wielkości – co wystarcza, by prawo Benforda było spełnione. Autorzy zauważyli również, że ze wzrostem niepewności pomiarów paralaks występuje coraz lepsza zgodność z rozkładem Benforda. Więc błędy pomiarowe paralaks są powodem, że paralaksy spełniają prawo Benforda.

Autorzy sprawdzili, czy w ogóle można oczekiwać, że odległości gwiazdowe spełniają prawo Benforda. W tym celu wykorzystali symulację GUMS (skrót z j.ang. Gaia Universe Model Snapshot), która jest zaawansowanym i realnym modelem Drogi Mlecznej. W modelu GUMS wszystkie odległości od obserwatora są znane – w szczególności obserwatora na Ziemi. Bezpośrednio więc można sprawdzić, czy spełniają one prawo Benforda.

Wyniki ich analiz przedstawia na rysunku rozkład odległości oznaczony symbolem czerwonego koła. Również w tym rozkładzie pierwszych cyfr dla symulowanych odległości w-g modelu GUMS widać drugie maksimum dla cyfry 6 – podobnie jak dla cyfry 7 w rozkładzie obserwowanych odległości. Dlatego autorzy podsumowali, że prawo Benforda nie stosuje się do wyznaczań odległości za pomocą satelity Gaia. Nie jest satysfakcjonująca konkluzja, ale z tej analizy możemy zapamiętać następującą myśl: gwiazdy i struktura naszej Drogi Mlecznej są bardziej skomplikowane niż oszustwa podatkowe!


Opracowanie: Ryszard Biernikowicz


Więcej informacji:

Astrobities : On stars, distances, and tax fraud
Publikacja naukowa: Jurjen de Jong i inni, (2020), Benford's law in the Gaia universe
Delta: Fenomen rozkładu Benforda
Frank Benford (1938): The Law Of Anomalous Numbers

Khan Academy: Vi and Sal talks about the mysteries of Benford's Law

 

Źródło: ESO

Na ilustracji: porównanie teoretycznego rozkładu Benforda z rozkładem pierwszych cyfr znaczących odpowiednio: paralaksy trygonometryczne satelity Gaia (czerwone romby), odległości obliczonych z paralaks (czerwone gwiazdki) i odległości rzeczywiste z modelu GUMS (czerwone koła). Histogram z granatowymi prostokątami przedstawia funkcję gęstości prawdopodobieństwa rozkładu Benforda (P_k)  z Wikipedii  w zależności od pierwszej cyfry znaczącej dla liczb ze zbioru danych.