Análise de variância (ANOVA)

A análise da variância, ou ANOVA, é um método de modelagem linear para avaliar o relacionamento entre campos. Para drivers principais e para insights que estão relacionados a vários gráficos, a ANOVA testa se o valor médio de destino varia entre as categorias de uma entrada ou combinações de categorias de duas entradas.

Para testar se as médias são diferentes, um teste ANOVA compara a variância explicada (causada pelos campos de entrada) com a variância não explicada (causada pela origem de erro). Se a razão da variância explicada para a variância não explicada for alta, as médias serão estatisticamente diferentes.

IBM® Cognos Analytics pode calcular testes ANOVA unidirecionais (com uma entrada) e testes ANOVA bidirecionais (com duas entradas). Se uma entrada for contínua, a entrada será categorizada para criar grupos cujas médias de destino podem ser comparadas com o teste ANOVA. Um teste ANOVA unidirecional é uma extensão do teste t, mas um teste ANOVA pode comparar qualquer quantidade de médias. O teste t pode comparar apenas duas médias.

Embora um teste ANOVA revele uma diferença estatística entre médias, ele não indica quais médias são diferentes. O recurso de visualização do IBM Cognos Analytics relata grupos que estão fazendo com que os meios sejam diferentes como diferenças significativas.

Análise da variância unidirecional

O teste ANOVA unidirecional usa um valor F. O procedimento a seguir descreve como o valor F é calculado:

  1. Calcule a média geral para o campo contínuo.
  2. Calcule o quadrado médio para o campo categórico (a variância explicada).
    1. Calcule a soma dos quadrados para o campo categórico.
      1. Para cada categoria, subtraia a média geral da média da categoria.
      2. Obtenha o quadrado de cada um desses resultados e junte-os.
    2. Divida a soma de quadrados para o campo categórico pelos graus de liberdade apropriados.
  3. Calcule o quadrado médio para a origem de erro (a variância não explicada).
    1. Calcule a soma de quadrados para a origem de erro.
      1. Em cada categoria, subtraia a média da categoria de cada valor de registro.
      2. Obtenha o quadrado de cada diferença e junte-os.
    2. Divida a soma do quadrado para a origem de erro pelos graus de liberdade apropriados.
  4. Divida o quadrado médio para o campo categórico pelo quadrado médio para a origem de erro. Em outras palavras, calcule a razão de variância explicada para variância não explicada. Este é o valor F.

O valor F é comparado a uma distribuição teórica F para determinar a probabilidade de obter o valor F por acaso.

  • Esta probabilidade é o valor de significância.
  • Se o valor de significância for menor que o nível de significância, as médias serão significativamente diferentes.

O R2 ajustado é usado para estimar a intensidade preditiva do modelo. O nível de significância é configurado como 5% e a intensidade preditiva do modelo deve ser maior que 10% para indicar um relacionamento preditivo confiável entre o destino e o campo de entrada.

A intensidade preditiva é relatada para drivers principais unidirecionais e um insight para gráficos que exibem uma média de medida numérica entre as categorias de um campo categórico.

ANOVA bidirecional

Assim como o ANOVA unidirecional, o teste ANOVA bidirecional calcula um valor F. Ele é usado para testar se as médias no modelo bidirecional completo são significativamente diferentes. O procedimento é semelhante ao ANOVA unidirecional, exceto que dois campos categóricos são usados como entradas em vez de um único campo categórico. As médias e a soma de estatísticas de quadrados são calculadas para cada combinação de categorias dos campos categóricos.

O R2 ajustado também é usado para estimar a intensidade preditiva do modelo. O nível de significância é configurado como 5% e a intensidade preditiva do modelo deve ser maior que 10% para que o modelo seja considerado. Além disso, o modelo bidirecional deve ter pelo menos 10% de melhoria relativa sobre as intensidades preditivas dos modelos unidirecionais aninhados para indicar o relacionamento preditivo confiável entre o destino e dois campos de entrada. A melhoria relativa é calculada como a porcentagem da diferença entre 100% e a intensidade preditiva do modelo unidirecional aninhado.

A intensidade preditiva é relatada para drivers principais bidirecionais e um insight para gráficos que exibem uma média de medida numérica entre as categorias de dois campos categóricos.