Varianciaelemzés (ANOVA)

A varianciaelemzés vagy ANOVA egy lineáris modellezési módszer a mezők közti viszonyok kiértékeléséhez. Több diagramra vonatkozó legfontosabb tényezők és betekintések esetén az ANOVA teszteli, hogy az átlag célérték egy bemenet kategóriái vagy két bemenet kategóriáinak kombinációi között változik-e.

Annak teszteléséhez, hogy az átlagok eltérőek-e, az ANOVA teszt összehasonlítja a megmagyarázott varianciát (amelyet a bemeneti mezők okoznak) és a meg nem magyarázott varianciát (amelyet a hibaforrás okoz). Ha a megmagyarázott és a meg nem magyarázott variancia aránya magas, akkor az átlagok statisztikailag eltérnek.

Az IBM® Cognos elemzés Watson használatával képes kiszámítani egyszempontos ANOVA teszteket (egyetlen bemenettel) és kétszempontos ANOVA teszteket (két bemenettel). Ha egy bemenet folytonos, akkor a bemenet binnelésre kerül olyan csoportok létrehozásához, amelyek célátlagai összehasonlíthatók az ANOVA teszttel. Egy egyszempontos ANOVA teszt a t-próba egy kiterjesztése, azonban az ANOVA teszt bármilyen számú átlagot képes összehasonlítani. A t-próba csak két átlagot tud összehasonlítani.

Bár az ANOVA vizsgálat statisztikai különbséget tár fel az eszközök között, azt nem jelzi, hogy mely eszközök különbözőek. A(z) IBM Cognos elemzés Watson használatával Visualization Insights szolgáltatás olyan csoportokról készít jelentést, amelyek miatt az eszközök jelentősen különböznek egymástól.

Egyszempontos ANOVA

Az egyszempontos ANOVA teszt egy F értéket használ. A következő eljárás leírja az F érték számításának módját:

  1. Számítsa ki a folytonos mező átfogó átlagát.
  2. Számítsa ki a kategorikus mező átlag négyzetét (a megmagyarázott variancia).
    1. Számítsa ki a kategorikus mező négyzeteinek összegét.
      1. Minden egyes kategória esetén vonja ki az átfogó átlagot a kategória átlagából.
      2. Vegye ezen eredmények mindegyikének négyzetét, és adja össze ezeket.
    2. Ossza el a kategorikus mezők négyzeteinek összegét a megfelelő szabadsági fokkal.
  3. Számítsa ki a hibaforrás átlag négyzetét (a meg nem magyarázott variancia).
    1. Számítsa ki a hibaforrás négyzeteinek összegét.
      1. Az egyes kategóriákon belül vonja ki a kategória átlagát az egyes rekordértékekből.
      2. Vegye az egyes különbségek négyzetét, és adja ezeket össze.
    2. Ossza el a hibaforrás négyzetének összegét a megfelelő szabadsági fokkal.
  4. Ossza el a kategorikus mező átlag négyzetét a hibaforrás átlag négyzetével. Más szavakkal, számítsa ki a megmagyarázott variancia és a meg nem magyarázott variancia arányát. Ez az F érték.

Az F érték összehasonlításra kerül egy elméleti F eloszlással annak megállapításához, az F értéket milyen valószínűséggel kapjuk meg véletlenszerűen.

  • Ez a valószínűség a szignifikancia érték.
  • Ha a szignifikancia érték kisebb, mit a szignifikancia szint, akkor az átlagok jelentősen eltérnek.

A modell prediktív erejének becsléséhez a korrigált R2 kerül felhasználásra. A szignifikancia szint 5%-ra van beállítva, és a modell prediktív erejének nagyobbnak kell lenni, mint 10% ahhoz, hogy megbízható prediktív viszonyt jelezzen a cél és a bemeneti mező között.

A program az előrejelzés erősségét az egyszempontos kulcs tényezőkhöz és egy betekintéshez jelenti olyan diagramok esetén, amelyek egy kategorikus mező kategóriái között egy numerikus mérés átlagát jelenítik meg.

Kétszempontos ANOVA

A egyszempontos ANOVA teszthez hasonlóan, a kétszempontos ANOVA teszt egy F értéket számít ki. Annak tesztelésére szolgál, hogy a teljes kétszempontos modellben lévő átlagok jelentősen eltérőek-e. Az eljárás hasonló az egyszempontos ANOVA teszthez azzal a kivétellel, hogy két kategorikus mező kerül felhasználásra bemenetként egyetlen kategorikus mező helyett. Az átlagok és a négyzetek összeg statisztikái a kategorikus mezők kategóriáinak minden egyes kombinációjához kiszámításra kerülnek.

A modell prediktív erejének becsléséhez a korrigált R2 is felhasználásra kerül. A szignifikancia szint 5%-ra van beállítva, és a modell prediktív erejének nagyobbnak kell lennie 10%-nál ahhoz, hogy a modell figyelembe legyen véve. Továbbá a kétszempontos modellnek legalább 10% relatív javulással kell rendelkeznie a beágyazott egyszermpontos modellek prediktív ereje felett ahhoz, hogy a cél és a két bemeneti mező között megbízható prediktív viszonyt jelezzen. A relatív javulás a 100% és a beágyazott egyszempontos tényező prediktív ereje közötti különbség százaléka.

A program a prediktív erőt a kétszempontos kulcs tényezőkhöz és egy betekintéshez jelenti olyan diagramok esetén, amelyek két kategorikus mező kategóriái között egy numerikus mérés átlagát jelenítik meg.