O que é regressão logística?

A regressão logística estima a probabilidade de ocorrência de um evento, como voto ou não voto, com base em um determinado conjunto de dados de variáveis independentes.

Esse tipo de modelo estatístico (também conhecido como modelo logit) frequentemente é usado para classificação e análise preditiva. Como o resultado é uma probabilidade, a variável dependente é limitada entre 0 e 1. Na regressão logística, uma transformação logit é aplicada à chance, isto é, a probabilidade de sucesso dividida pela probabilidade de fracasso. Isso também é comumente conhecido como chance logarítmica, ou logaritmo natural da chance, e essa função logística é representada pelas seguintes fórmulas:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Nessa equação de regressão logística, logit(pi) é a variável dependente ou de resposta, e x é a variável independente. O parâmetro beta (ou coeficiente) nesse modelo normalmente é estimado por meio da estimativa de máxima verossimilhança (MLE). Esse método testa diferentes valores de beta por meio de várias iterações para otimizar o melhor ajuste da chance logarítmica. Todas essas iterações produzem a função de verossimilhança logarítmica, e a regressão logística busca maximizar essa função para encontrar a melhor estimativa de parâmetros. Depois que o coeficiente ideal (ou coeficientes, se houver mais de uma variável independente) for encontrado, as probabilidades condicionais de cada observação poderão ser calculadas, registradas e somadas para gerar uma probabilidade prevista. Para a classificação binária, uma probabilidade menor que 0,5 prevê 0, enquanto que uma probabilidade maior que 0 prevê 1. Depois que o modelo tiver sido calculado, a melhor prática é avaliar o quanto o modelo prevê a variável dependente, o que é chamado de grau de adequação. O teste de Hosmer-Lemeshow é um método popular para avaliar a adequação do modelo.

Por que a governança da IA é um imperativo empresarial para dimensionar a IA empresarial

Saiba mais sobre as barreiras à adoção de IA, especialmente a falta de soluções de governança de IA e gerenciamento de riscos.

Conteúdo relacionado

Inscreva-se para receber o e-book sobre Presto

Interpretação da regressão logística

Pode ser difícil entender a chance logarítmica em uma análise de dados de regressão logística. Como resultado, é comum exponenciar as estimativas beta para transformar os resultados em uma razão de chance (OR), facilitando a interpretação dos resultados. A OR representa a chance de que um resultado ocorra dado um evento específico, em comparação com a chance de o resultado ocorrer na ausência desse evento. Se a OR for maior que 1, o evento estará associado a uma chance maior de gerar um resultado específico. Por outro lado, se a OR for menor que 1, o evento estará associado a uma chance menor de ocorrência desse resultado. Com base na equação acima, a interpretação de uma razão de chance pode ser denotada da seguinte forma: a chance de sucesso muda em exp(cB_1) vezes para cada aumento de unidade c em x. Para usar um exemplo, digamos que estivéssemos estimando a chance de sobrevivência no Titanic, dado que a pessoa era do sexo masculino, e a razão de chance para homens era de 0,0810. Interpretaríamos a razão de chance como se a chance de sobrevivência dos homens diminuísse por um fator de 0,0810 quando comparada à das mulheres, mantendo todas as outras variáveis constantes.

Veja o whitepaper

Regressão linear vs regressão logística

Tanto a regressão linear quanto a regressão logística estão entre os modelos mais populares da ciência de dados, e ferramentas de código aberto, como o Python e R, tornam o cálculo para elas rápido e fácil.

Modelos de regressão linear são utilizados para identificar a relação entre uma variável dependente contínua e uma ou mais variáveis independentes. Quando há apenas uma variável independente e uma variável dependente, é conhecida como regressão linear simples, mas à medida que o número de variáveis independentes aumenta, é chamada de regressão linear múltipla. Para cada tipo de regressão linear, procura plotar uma linha de melhor ajuste por meio de um conjunto de pontos de dados, que normalmente é calculado usando o método dos mínimos quadrados.

Semelhante à regressão linear, a regressão logística também é usada para estimar a relação entre uma variável dependente e uma ou mais variáveis independentes, mas é usada para fazer uma previsão sobre uma variável categórica versus uma variável contínua. Uma variável categórica pode ser verdadeira ou falsa, sim ou não, 1 ou 0 etc. A unidade de medida também difere da regressão linear porque produz uma probabilidade, mas a função logit transforma a curva S em uma linha reta.

Embora ambos os modelos sejam usados na análise de regressão para fazer previsões sobre resultados futuros, a regressão linear normalmente é mais fácil de entender. A regressão linear também não requer um tamanho de amostra tão grande quanto a regressão logística precisa de uma amostra adequada para representar valores em todas as categorias de resposta. Sem uma amostra maior e representativa, o modelo pode não ter poder estatístico suficiente para detectar um efeito significativo.

Tipos de regressão logística

Existem três tipos de modelos de regressão logística, que são definidos com base na resposta categórica.

Regressão logística binária: nessa abordagem, a resposta ou variável dependente é de natureza dicotômica, ou seja, tem apenas dois resultados possíveis (por exemplo, 0 ou 1). Alguns exemplos populares de seu uso incluem prever se um e-mail é spam ou não, ou se um tumor é maligno ou não. Dentro da regressão logística, essa é a abordagem mais comumente usada e, de forma mais geral, é um dos classificadores mais comuns para classificação binária.
Regressão logística multinomial: nesse tipo de modelo de regressão logística, a variável dependente tem três ou mais resultados possíveis; no entanto, esses valores não têm uma ordem especificada. Por exemplo, os estúdios de cinema querem prever o gênero de filme que um espectador provavelmente verá para comercializar os filmes com mais eficiência. Um modelo de regressão logística multinomial pode ajudar o estúdio a determinar a força da influência que a idade, o gênero e a situação de relacionamento de uma pessoa podem ter sobre o tipo de filme que ela prefere. Então, o estúdio pode orientar uma campanha publicitária de um filme específico para um grupo de pessoas que provavelmente irá assisti-lo.
Regressão logística ordinal: esse tipo de modelo de regressão logística é utilizado quando a variável de resposta tem três ou mais resultados possíveis, mas, nesse caso, esses valores têm uma ordem definida. Exemplos de respostas ordinais incluem escalas de classificação de A a F ou escalas de classificação de 1 a 5.

Um vislumbre da mente de um cientista de dados

Regressão logística e aprendizado de máquina

Dentro do aprendizado de máquina, a regressão logística pertence à família de modelos supervisionados de aprendizado de máquina . Também é considerada um modelo discriminativo, o que significa que tenta distinguir entre classes (ou categorias). Ao contrário de um algoritmo generativo, como Naïve Bayes, não pode, como o nome indica, gerar informações, como uma imagem, da classe que está tentando prever (por exemplo, uma imagem de um gato).

Anteriormente, mencionamos como a regressão logística maximiza a função de probabilidade logarítmica para determinar os coeficientes beta do modelo. Isso muda ligeiramente no contexto do aprendizado de máquina. Dentro do aprendizado de máquina, a probabilidade logarítmica negativa usada como função de perda, usando o processo de descida do gradiente para encontrar o máximo global. Essa é apenas outra maneira de chegar às mesmas estimativas discutidas acima.

A regressão logística também pode ser propensa ao sobreajuste, particularmente quando há um alto número de variáveis do preditor dentro do modelo. A regularização normalmente é usada para penalizar grandes parâmetros de coeficientes quando o modelo sofre de alta dimensionalidade.

O scikit-learn (link externo a ibm.com) fornece documentação valiosa para saber mais sobre o modelo de aprendizado de máquina de regressão logística.

Casos de uso de regressão logística

A regressão logística é comumente usada para problemas de previsão e classificação. Alguns desses casos de uso incluem:

Detecção de fraudes: os modelos de regressão logística podem ajudar as equipes a identificar anomalias nos dados, que são preditivas de fraudes. Certos comportamentos ou características podem ter uma maior associação com atividades fraudulentas, o que é particularmente útil para instituições bancárias e outras instituições financeiras na proteção de seus clientes. As empresas baseadas em SaaS também começaram a adotar essas práticas para eliminar contas de usuários falsas de seus conjuntos de dados ao conduzir análises de dados sobre o desempenho dos negócios.
Previsão de doenças: na medicina, essa abordagem analítica pode ser usada para prever a probabilidade de doenças ou enfermidades para uma determinada população. As organizações de saúde podem estabelecer cuidados preventivos para indivíduos que apresentam maior propensão a doenças específicas.
Previsão de rotatividade: comportamentos específicos podem ser indicativos de rotatividade em diferentes funções de uma organização. Por exemplo, equipes de recursos humanos e gerenciamento podem querer saber se há pessoas de alto desempenho na empresa que correm o risco de deixar a organização; esse tipo de insight pode estimular conversas para entender áreas problemáticas dentro da empresa, como cultura ou remuneração. Ou então, a organização de vendas pode querer saber quais de seus clientes correm o risco de levar seus negócios para outro lugar. Isso pode levar as equipes a criar uma estratégia de retenção para evitar a perda de receita.

Exemplos de sucesso de regressão logística

Avalie o risco de crédito

A regressão logística binária pode ajudar os banqueiros a avaliar o risco de crédito. Veja como você pode usar uma amostra aleatória para criar um modelo de regressão logística e classificar os clientes em riscos bons ou ruins.

Aumente os lucros no setor bancário

O First Tennessee Bank aumentou a lucratividade usando análise preditiva e logística com o software IBM SPSS e obteve aumentos de até 600% em campanhas de vendas cruzadas. O First Tennessee está usando técnicas de análise preditiva e análise logística em uma solução de análise para obter mum maior insight sobre todos os seus dados.

Soluções relacionadas

watsonx.ai

Dê o próximo passo para começar a operacionalizar e ajustar a escala da IA generativa e aprendizado de máquina para os negócios.

Explore o watsonx.ai

IBM SPSS Modeler

Impulsione o retorno sobre o investimento com uma ferramenta de ciência de dados de arrastar e soltar.

Conheça o SPSS Modeler

IBM Watson Studio

Crie e treine modelos de IA e aprendizado de máquina, prepare e analise dados — tudo isso em um ambiente de nuvem híbrida flexível.

Conheça o Watson Studio

Recursos relacionados

Implementação da regressão logística a partir do zero no Python

Saiba como treinar seu próprio modelo de regressão binária personalizado. Saiba como gerar probabilidades, classificar exemplos e entender a descida do gradiente.

Realize regressão logística usando o TensorFlow

Crie um Jupyter Notebook que contenha código Python para definir a regressão logística e, em seguida, use o TensorFlow para implementá-la.

Treinamento homomórfico de 30.000 modelos de regressão logística

Pesquisadores da IBM mostram que o uso do esquema de criptografia homomórfica CKKS pode treinar um grande número de modelos de regressão logística simultaneamente.

Dê o próximo passo

Crie uma estratégia de IA para o seu negócio em uma plataforma colaborativa de IA e dados chamada IBM watsonx onde você pode treinar, validar, ajustar e implementar modelos de IA para ajudar você a escalar e acelerar o impacto da IA com dados confiáveis em todo o seu negócio.

Explore o watsonx

Agende uma demonstração em tempo real