Analiza trafności
Który model trafia najlepiej — i jak łączymy je w jedną prognozę
Sprawdzamy 12 modeli na 200 miastach w oknie 90 dni (436 800 godz.) względem reanalizy ERA5. Poniższy ranking to średni błąd bezwzględny (MAE) — mniej znaczy celniej. Naszą publikowaną prognozę składa metoda M5, która stawia na niezawodność: trafia w ±2°C częściej niż każdy pojedynczy model.
| # | Model | MAE °C | Błąd — mniej lepiej |
|---|---|---|---|
| 1 | MET/yr.no (NO)najniższy błąd | 0,25 | |
| 2 | ECMWF (EU) | 0,47 | |
| 3 | ICON (DE) | 0,85 | |
| 4 | AIFS ✦AI (ECMWF)model AI | 0,94 | |
| 5 | UKMO (UK) | 0,95 | |
| 6 | AROME (FR) | 0,97 | |
| 7 | GEM (CA) | 0,98 | |
| 8 | HARMONIE (NL) | 1,13 | |
| 9 | GFS (US) | 1,15 | |
| 10 | DMI (DK) | 1,16 | |
| 11 | JMA (JP) | 1,37 | |
| 12 | GRAPES (CN) | 1,39 |
| Metoda | Sposób złożenia | MAE °C | RMSE °C |
|---|---|---|---|
| M1 | średnia zespołu | 0,62 | 0,82 |
| M2 | mediana zespołu | 0,57 | 0,79 |
| M3 | mediana ważona (BMA) | 0,37 | 0,56 |
| M4 | krzywa harmoniczna | 1,12 | 1,5 |
| M5publikowana | MOS + obserwacje | 0,32 | 0,5 |
Analiza wyników backtestu, obejmującego 12 modeli na 200 miastach w okresie 90 dni, wskazuje na zróżnicowaną skuteczność prognoz. Model MET/yr.no (NO) osiągnął najniższy błąd średni bezwzględny (MAE) na poziomie 0,25°C, a za nim uplasował się ECMWF (EU) z MAE 0,47°C. Model AI ECMWF AIFS, z MAE 0,94°C, zajął czwarte miejsce, przewyższając osiem z jedenastu modeli fizycznych, co potwierdza jego solidność, lecz nie pozycjonuje go jako lidera.
Nasza publikowana metoda, M5 (MOS + obserwacje), charakteryzuje się MAE 0,32°C i RMSE 0,5°C. Kluczowe jest jej wysokie pokrycie dokładności, z 99% prognoz mieszczących się w zakresie ±2°C i 95% w ±1°C. Choć pojedynczy model MET/yr.no osiągnął niższy MAE (0,25°C), metoda M5 zapewnia wyższą niezawodność, trafiając w zakres ±2°C częściej (99% vs 97%). Ta strategia podkreśla nasze zaangażowanie w dostarczanie stabilnych i precyzyjnych prognoz, stawiając na niezawodność zespołu ponad rekordy pojedynczych modeli.
Należy zaznaczyć, że błędy dla krótkich horyzontów czasowych (dziś/jutro) mogą być optymistycznie zaniżone ze względu na specyfikę backtestu. Weryfikacja prognoz na podstawie realnych pomiarów IMGW, niezależnych od reanalizy ERA5, zostanie wkrótce uruchomiona, co dostarczy dodatkowych danych do oceny.
Ten licznik pokazuje, jak nasza publikowana prognoza wypada wobec dwóch niezależnych referencji: realnego pomiaru IMGW i reanalizy ERA5 — nie wobec samych modeli. Dzięki temu werdykt obejmuje komplet 200 miast, a nie tylko te ze stacją. Licznik ruszy po 3 rozliczonych dobach.
Twarda kotwica — realny pomiar ze stacji (synop + meteo ≤15 km). Nie każde miasto ma stację.
Siatka ~9–11 km — pełne pokrycie 200 miast, niezależne od IMGW. Domyka tam, gdzie stacji brak.
Opad jest trudniejszy i mniej pochlebny niż temperatura — dlatego prawie nikt tego nie publikuje. My sprawdzamy nasze prawdopodobieństwo opadu (PoP) wobec realnego deszczu: czy gdy mówimy „60%", pada w ~60% przypadków (rzetelność, Brier), i czy trafiamy „deszcz / bez" (POD/FAR). Licznik ruszy po 3 rozliczonych dobach.
Realny pomiar opadu (stacje synop). Najlepsza jakość, ale tylko część miast.
Satelita NASA ~10 km — pełne pokrycie 200 miast, łapie opad tam, gdzie stacji brak (np. w górach).