Excel – testowanie normalności rozkładu: Q–Q plot, skośność, kurtoza, histogram, Shapiro–Wilk
Pytanie
jak sprawdzić czy rozkład jest normalny excel
Odpowiedź Sztucznej Inteligencji
Bezpośrednia odpowiedź na pytanie
- Najszybciej: użyj kombinacji wykresu Q–Q, histogramu oraz miar skośności i kurtozy.
- W Excelu nie ma wbudowanego testu Shapiro–Wilka ani „jednego przycisku” do formalnego testu normalności; można to zrobić dodatkiem (np. Real Statistics) lub Pythonem w Excelu.
- Praktyczny zestaw kroków (bez dodatków): Q–Q plot + SKOŚNOŚĆ + KURTOZA + kontrola reguły 68–95–99,7.
Kluczowe punkty
- Q–Q plot: dane posortowane vs teoretyczne kwantyle N(0,1). Linia prosta → normalność.
- SKOŚNOŚĆ≈0 i KURTOZA≈0 (to tzw. nadwyżka kurtozy) → zgodność z normalnością (w granicach tolerancji).
- Reguła 68–95–99,7: odsetki danych w ±1σ, ±2σ, ±3σ bliskie 68%, 95%, 99,7%.
- Dla formalnego p‑value: skorzystaj z dodatku (np. Shapiro–Wilk/Anderson–Darling) lub Python w Excelu.
Szczegółowa analiza problemu
- Założenie normalności wpływa na wybór testów statystycznych i metod estymacji. W praktyce w Excelu łączymy metody wizualne i liczbowe.
- Wykres Q–Q (najbardziej informacyjny graficznie)
- Dane w A2:A(n).
- Posortuj je rosnąco:
- Excel 365: w pustej kolumnie B wpisz =SORTUJ(A2:A100) i zatwierdź. (W starszych wersjach: Dane → Sortuj.)
- Liczba obserwacji n (np. w F1): =LICZBA(A2:A100) lub =ILE.LICZB(A2:A100)
- Pozycje kwantylowe (i = 1..n) w C2:
- =(WIERSZ(B2)-WIERSZ($B$2)+0,5)/$F$1
- Skopiuj w dół.
- Teoretyczne kwantyle standardowej normalnej w D2:
- =ROZKŁAD.NORMALNY.S.ODW(C2)
- Skopiuj w dół.
- Wykres punktowy (XY): X = kolumna D (kwantyle N(0,1)), Y = kolumna B (posortowane dane).
- Interpretacja:
- Punkty blisko prostej → normalność.
- Zakrzywienie „S” → skośność; odchylenia na końcach → nienormalne ogony (kurtoza).
- Opcjonalnie dodaj linię trendu i odczytaj R²; blisko 1 sprzyja normalności. Nachylenie ≈ σ, punkt przecięcia ≈ μ.
- Skośność i kurtoza (miary opisowe)
- Średnia i odchylenie standardowe (próba):
- μ: =ŚREDNIA(A2:A100)
- σ: =ODCH.STANDARDOWE.PRÓBKI(A2:A100)
- Skośność: =SKOŚNOŚĆ(A2:A100) (dla populacji: =SKOŚNOŚĆ.P(...))
- Kurtoza (nadwyżka kurtozy): =KURTOZA(A2:A100) (dla populacji: =KURTOZA.P(...))
- Reguły praktyczne (nie ścisłe testy):
- |SKOŚNOŚĆ| ≤ ~0,5 → bardzo blisko normalności; ≤ ~1,0 → często akceptowalne.
- |KURTOZA| ≤ ~1,0 → blisko normalności; wartości znacznie >0 sygnalizują cięższe ogony.
- Histogram (szybka inspekcja)
- Wstawianie → Wykresy → Histogram (lub Dane → Analiza danych → Histogram, jeśli masz Analysis ToolPak).
- Szukaj: jednego, symetrycznego „dzwonu” bez długich ogonów i bez wyraźnej wielomodalności.
- Reguła 68–95–99,7 (kontrola ilościowa)
- Zlicz odsetki w przedziałach wokół średniej:
- ±1σ: =LICZ.WARUNKI(A2:A100; ">="&μ-σ; A2:A100; "<="&μ+σ)/n
- ±2σ i ±3σ analogicznie, zamieniając σ na 2σ i 3σ.
- Porównaj z 68%, 95%, 99,7%. Różnice kilku punktów procentowych są normalne dla małych prób.
- Formalne testy (opcja)
- Excel natywnie nie ma Shapiro–Wilka/Andersona–Darlinga/KS.
- Możliwości:
- Dodatek (np. Real Statistics Resource Pack) – oferuje SHAPIRO, ANDERSON, LILLIEFORS itp.
- Python w Excelu (Microsoft 365): użyj SciPy (stats.shapiro, stats.anderson, stats.kstest) bez opuszczania arkusza.
- Interpretacja: p-value < α (np. 0,05) → odrzucasz normalność.
Aktualne informacje i trendy
- Excel (w tym Analysis ToolPak) nadal nie dostarcza natywnych testów normalności; najwygodniejszą ścieżką stały się dodatki lub Python w Excelu (jeśli dostępny w Twojej subskrypcji Microsoft 365).
- W analizie praktycznej rośnie nacisk na łączenie metod: Q–Q + test(y) + analiza odporna (mediana/IQR), szczególnie przy dużych próbach (testy „wykrywają wszystko”).
Wspierające wyjaśnienia i detale
- Kurtoza w Excelu (KURTOZA) to nadwyżka kurtozy: dla rozkładu normalnego oczekujemy 0, nie „3”.
- Q–Q: jeśli linia trendu ma nachylenie ≈ 1 i przesunięcie ≈ 0 po standaryzacji, to mocny sygnał normalności.
- K–S bez poprawki Lillieforsa bywa zbyt „liberalny”, gdy μ i σ są estymowane z danych; dodatki zwykle implementują właściwą wersję.
Aspekty etyczne i prawne
- Nadużywanie testów normalności (p‑hacking) prowadzi do błędnych wniosków. Zawsze raportuj metodę, poziom istotności i wielkość próby.
- Dane osobowe/medyczne: anonimizuj przed udostępnieniem arkuszy.
Praktyczne wskazówki
- Zawsze zacznij od wykresów (histogram, Q–Q); liczby potwierdzają to, co widzisz.
- Dla n < 30: Q–Q + Shapiro–Wilk (z dodatku/Python).
- Dla n > 300: Q–Q + metryki opisowe; formalne testy często „odrzucą” normalność dla trywialnych odchyleń – ważniejsza jest użyteczność modelu.
- Ustandaryzuj dane (Z‑score) do wykresów pomocniczych: =(A2-μ)/σ.
Ewentualne zastrzeżenia lub uwagi dodatkowe
- Prawdziwie idealna normalność jest rzadka; wiele metod (np. testy z centralnym twierdzeniem granicznym) toleruje drobne odchylenia.
- Dane wielomodalne nigdy nie będą normalne – rozważ mieszanki rozkładów lub transformacje.
Sugestie dalszych badań
- Sprawdź wpływ transformacji (np. Box–Cox, Yeo–Johnson) na normalność reszt w Twoim modelu.
- Oceń normalność reszt modelu, nie tylko surowych danych (dla regresji/ANOVA to krytyczne).
- Poznaj dodatki statystyczne do Excela lub integrację z Pythonem/R.
Krótkie podsumowanie
- W Excelu sprawdzisz normalność skutecznie przez: Q–Q plot, SKOŚNOŚĆ/KURTOZA i regułę 68–95–99,7; histogram pomoże wizualnie.
- Formalne p‑value uzyskasz z dodatku lub Python w Excelu (Shapiro–Wilk/Anderson–Darling).
- Połącz metody i oceniaj kontekst zastosowania, zamiast polegać na pojedynczym teście.
Jeśli podasz zakres danych i wersję Excela, przygotuję gotowy arkusz z Q–Q, metrykami i interpretacją.
Zastrzeżenie: Odpowiedzi udzielone przez sztuczną inteligencję (model językowy) mogą być niedokładne i wprowadzające w błąd. Elektroda nie ponosi odpowiedzialności za dokładność, rzetelność ani kompletność prezentowanych informacji. Wszystkie odpowiedzi powinny być zweryfikowane przez użytkownika.
Zadaj dodatkowe pytanie Sztucznej Inteligencji