Statistik - Kolmogorov Smirnov Test

Dieser Test wird in Situationen verwendet, in denen ein Vergleich zwischen einer beobachteten Probenverteilung und einer theoretischen Verteilung durchgeführt werden muss.

KS One Sample Test

Dieser Test wird als Test der Passgenauigkeit verwendet und ist ideal, wenn die Stichprobengröße klein ist. Es vergleicht die kumulative Verteilungsfunktion für eine Variable mit einer angegebenen Verteilung. Bei der null kein Unterschied zwischen der beobachteten und der theoretischen Verteilung angenommen, und der Wert der Teststatistik 'D' wird wie folgt berechnet:

Formel

$ D = Maximum | F_o (X) -F_r (X) | $

Wo -

  • $ {F_o (X)} $ = Beobachtete Häufigkeitsverteilung einer Zufallsstichprobe von n Beobachtungen.

  • und $ {F_o (X) = \ frac {k} {n}} $ = (Anzahl der Beobachtungen ≤ X) / (Gesamtanzahl der Beobachtungen).

  • $ {F_r (X)} $ = Die theoretische Häufigkeitsverteilung.

Der kritische Wert von $ {D} $ ergibt sich aus den KS-Tabellenwerten für einen Probentest.

Akzeptanzkriterien: Wenn der berechnete Wert kleiner als der kritische Wert ist, akzeptieren Sie die null .

Ablehnungskriterien: Wenn der berechnete Wert größer als der Tabellenwert ist, lehnen Sie die null .

Beispiel

Problemstellung:

In einer Studie, die aus verschiedenen Streams eines Colleges durchgeführt wurde, wurden 60 Studenten mit der gleichen Anzahl von Studenten aus jedem Stream befragt und ihre Absicht, dem Drama Club des Colleges beizutreten, wurde zur Kenntnis genommen.

B.Sc. BA B.Com MA M.Com.
Nr. In jeder Klasse 5 9 11 16 19

Es wurde erwartet, dass 12 Schüler aus jeder Klasse dem Drama Club beitreten würden. Verwenden Sie den KS-Test, um herauszufinden, ob es zwischen den einzelnen Klassen Unterschiede hinsichtlich der Absicht gibt, dem Drama Club beizutreten.

Lösung:

$ {H_o} $: Es gibt keinen Unterschied zwischen Schülern verschiedener Klassen in Bezug auf ihre Absicht, dem Drama-Club beizutreten.

Wir entwickeln die kumulativen Häufigkeiten für beobachtete und theoretische Verteilungen.

Streams Anzahl der Studenten, die sich für eine Teilnahme interessieren $ {F_O (X)} $ $ {F_T (X)} $ $ {| F_O (X) -F_T (X) |} $
Beobachteten
(Ö)
Theoretisch
(T)
B.Sc. 5 12 5/60 12/60 7/60
BA 9 12 14/60 24/60 10/60
B.COM. 11 12 25/60 36/60 11/60
MA 16 12 41/60 48/60 7/60
M.COM. 19 12 60/40 60/60 60/60
Gesamt n = 60

Teststatistik $ {| D |} $ wird berechnet als:

$ D = Maximum {| F_0 (X) -F_T (X) |} \\ [7pt] \, = \ frac {11} {60} \\ [7pt] \, = 0.183 $

Der Tabellenwert von D bei 5% Signifikanzniveau ist gegeben durch

$ {D_0.05 = \ frac {1.36} {\ sqrt {n}} \\ [7pt] \, = \ frac {1.36} {\ sqrt {60}} \\ [7pt] \, = 0.175 $

Da der berechnete Wert größer als der kritische Wert ist, lehnen wir die null und kommen zu dem Schluss, dass die Absicht, dem Club beizutreten, bei Schülern unterschiedlicher Herkunft unterschiedlich ist.

KS Two Sample Test

Wenn es statt einer zwei unabhängige Stichproben gibt, kann der KS-Test mit zwei Stichproben verwendet werden, um die Übereinstimmung zwischen zwei kumulativen Verteilungen zu testen. Die null besagt, dass es keinen Unterschied zwischen den beiden Verteilungen gibt. Die D-Statistik wird auf die gleiche Weise wie der KS One Sample Test berechnet.

Formel

$ {D = Maximum | {F_n} _1 (X) - {F_n} _2 (X) |} $

Wo -

  • $ {n_1} $ = Beobachtungen aus der ersten Stichprobe.

  • $ {n_2} $ = Beobachtungen aus der zweiten Stichprobe.

Es wurde festgestellt, dass, wenn die kumulativen Verteilungen eine große maximale Abweichung $ {| D |} $ aufweisen, dies auf eine Differenz zwischen den beiden Stichprobenverteilungen hindeutet.

Der kritische Wert von D für Stichproben mit $ {n_1 = n_2} $ und ≤ 40 ist die KS-Tabelle für zwei Stichprobenfälle. Wenn $ {n_1} $ und / oder $ {n_2} $> 40 ist, sollte die KS-Tabelle für große Stichproben von zwei Stichproben verwendet werden. Die null wird akzeptiert, wenn der berechnete Wert kleiner als der Tabellenwert ist und umgekehrt.

Somit hilft die Verwendung eines dieser nichtparametrischen Tests einem Forscher, die Signifikanz seiner Ergebnisse zu testen, wenn die Merkmale der Zielpopulation unbekannt sind oder keine Annahmen über sie getroffen wurden.