A regressão logística estima a probabilidade de ocorrência de um evento, como voto ou não voto, com base em um determinado conjunto de dados de variáveis independentes.
Esse tipo de modelo estatístico (também conhecido como modelo logit) frequentemente é usado para classificação e análise preditiva. Como o resultado é uma probabilidade, a variável dependente é limitada entre 0 e 1. Na regressão logística, uma transformação logit é aplicada à chance, isto é, a probabilidade de sucesso dividida pela probabilidade de fracasso. Isso também é comumente conhecido como chance logarítmica, ou logaritmo natural da chance, e essa função logística é representada pelas seguintes fórmulas:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
Nessa equação de regressão logística, logit(pi) é a variável dependente ou de resposta, e x é a variável independente. O parâmetro beta (ou coeficiente) nesse modelo normalmente é estimado por meio da estimativa de máxima verossimilhança (MLE). Esse método testa diferentes valores de beta por meio de várias iterações para otimizar o melhor ajuste da chance logarítmica. Todas essas iterações produzem a função de verossimilhança logarítmica, e a regressão logística busca maximizar essa função para encontrar a melhor estimativa de parâmetros. Depois que o coeficiente ideal (ou coeficientes, se houver mais de uma variável independente) for encontrado, as probabilidades condicionais de cada observação poderão ser calculadas, registradas e somadas para gerar uma probabilidade prevista. Para a classificação binária, uma probabilidade menor que 0,5 prevê 0, enquanto que uma probabilidade maior que 0 prevê 1. Depois que o modelo tiver sido calculado, a melhor prática é avaliar o quanto o modelo prevê a variável dependente, o que é chamado de grau de adequação. O teste de Hosmer-Lemeshow é um método popular para avaliar a adequação do modelo.
Saiba mais sobre as barreiras à adoção de IA, especialmente a falta de soluções de governança de IA e gerenciamento de riscos.
Inscreva-se para receber o e-book sobre Presto
Pode ser difícil entender a chance logarítmica em uma análise de dados de regressão logística. Como resultado, é comum exponenciar as estimativas beta para transformar os resultados em uma razão de chance (OR), facilitando a interpretação dos resultados. A OR representa a chance de que um resultado ocorra dado um evento específico, em comparação com a chance de o resultado ocorrer na ausência desse evento. Se a OR for maior que 1, o evento estará associado a uma chance maior de gerar um resultado específico. Por outro lado, se a OR for menor que 1, o evento estará associado a uma chance menor de ocorrência desse resultado. Com base na equação acima, a interpretação de uma razão de chance pode ser denotada da seguinte forma: a chance de sucesso muda em exp(cB_1) vezes para cada aumento de unidade c em x. Para usar um exemplo, digamos que estivéssemos estimando a chance de sobrevivência no Titanic, dado que a pessoa era do sexo masculino, e a razão de chance para homens era de 0,0810. Interpretaríamos a razão de chance como se a chance de sobrevivência dos homens diminuísse por um fator de 0,0810 quando comparada à das mulheres, mantendo todas as outras variáveis constantes.
Tanto a regressão linear quanto a regressão logística estão entre os modelos mais populares da ciência de dados, e ferramentas de código aberto, como o Python e R, tornam o cálculo para elas rápido e fácil.
Modelos de regressão linear são utilizados para identificar a relação entre uma variável dependente contínua e uma ou mais variáveis independentes. Quando há apenas uma variável independente e uma variável dependente, é conhecida como regressão linear simples, mas à medida que o número de variáveis independentes aumenta, é chamada de regressão linear múltipla. Para cada tipo de regressão linear, procura plotar uma linha de melhor ajuste por meio de um conjunto de pontos de dados, que normalmente é calculado usando o método dos mínimos quadrados.
Semelhante à regressão linear, a regressão logística também é usada para estimar a relação entre uma variável dependente e uma ou mais variáveis independentes, mas é usada para fazer uma previsão sobre uma variável categórica versus uma variável contínua. Uma variável categórica pode ser verdadeira ou falsa, sim ou não, 1 ou 0 etc. A unidade de medida também difere da regressão linear porque produz uma probabilidade, mas a função logit transforma a curva S em uma linha reta.
Embora ambos os modelos sejam usados na análise de regressão para fazer previsões sobre resultados futuros, a regressão linear normalmente é mais fácil de entender. A regressão linear também não requer um tamanho de amostra tão grande quanto a regressão logística precisa de uma amostra adequada para representar valores em todas as categorias de resposta. Sem uma amostra maior e representativa, o modelo pode não ter poder estatístico suficiente para detectar um efeito significativo.
Existem três tipos de modelos de regressão logística, que são definidos com base na resposta categórica.
Dentro do aprendizado de máquina, a regressão logística pertence à família de modelos supervisionados de aprendizado de máquina . Também é considerada um modelo discriminativo, o que significa que tenta distinguir entre classes (ou categorias). Ao contrário de um algoritmo generativo, como Naïve Bayes, não pode, como o nome indica, gerar informações, como uma imagem, da classe que está tentando prever (por exemplo, uma imagem de um gato).
Anteriormente, mencionamos como a regressão logística maximiza a função de probabilidade logarítmica para determinar os coeficientes beta do modelo. Isso muda ligeiramente no contexto do aprendizado de máquina. Dentro do aprendizado de máquina, a probabilidade logarítmica negativa usada como função de perda, usando o processo de descida do gradiente para encontrar o máximo global. Essa é apenas outra maneira de chegar às mesmas estimativas discutidas acima.
A regressão logística também pode ser propensa ao sobreajuste, particularmente quando há um alto número de variáveis do preditor dentro do modelo. A regularização normalmente é usada para penalizar grandes parâmetros de coeficientes quando o modelo sofre de alta dimensionalidade.
O scikit-learn (link externo a ibm.com) fornece documentação valiosa para saber mais sobre o modelo de aprendizado de máquina de regressão logística.
A regressão logística é comumente usada para problemas de previsão e classificação. Alguns desses casos de uso incluem:
A regressão logística binária pode ajudar os banqueiros a avaliar o risco de crédito. Veja como você pode usar uma amostra aleatória para criar um modelo de regressão logística e classificar os clientes em riscos bons ou ruins.
O First Tennessee Bank aumentou a lucratividade usando análise preditiva e logística com o software IBM SPSS e obteve aumentos de até 600% em campanhas de vendas cruzadas. O First Tennessee está usando técnicas de análise preditiva e análise logística em uma solução de análise para obter mum maior insight sobre todos os seus dados.
Dê o próximo passo para começar a operacionalizar e ajustar a escala da IA generativa e aprendizado de máquina para os negócios.
Impulsione o retorno sobre o investimento com uma ferramenta de ciência de dados de arrastar e soltar.
Crie e treine modelos de IA e aprendizado de máquina, prepare e analise dados — tudo isso em um ambiente de nuvem híbrida flexível.
Saiba como treinar seu próprio modelo de regressão binária personalizado. Saiba como gerar probabilidades, classificar exemplos e entender a descida do gradiente.
Crie um Jupyter Notebook que contenha código Python para definir a regressão logística e, em seguida, use o TensorFlow para implementá-la.
Pesquisadores da IBM mostram que o uso do esquema de criptografia homomórfica CKKS pode treinar um grande número de modelos de regressão logística simultaneamente.