As SVMs lineares são usadas com dados linearmente separáveis; isso significa que os dados não precisam passar por nenhuma transformação para separá-los em classes diferentes. O boundary e os vetores de suporte formam a aparência de uma rua, e o professor Patrick Winston, do MIT, usa a analogia de "ajustar na rua mais larga possível " 2 para descrever esse problema de otimização quadrática. Matematicamente, esse hiperplano separador pode ser representado como:
wx + b = 0
em que w é o vetor de peso, x é o vetor de entrada e b é o termo de viés.
Há duas abordagens para calcular a margem, ou a distância máxima entre as classes, que são a classificação com margem rígida e a classificação com margem flexível. Se usarmos SVMs de margem rígida, os pontos de dados serão perfeitamente separados fora dos vetores de suporte, ou "fora da rua", para continuar com a analogia do Professor Hinton. Isso é representado pela fórmula,
(wxj + b) yj ≥ a,
E, em seguida, a margem é maximizada, o que é representado como: max ɣ = a / ||w||, onde é a margem projetada sobre w.
A classificação de margem flexível, como o próprio nome diz, é mais flexível, permitindo alguns erros de classificação por meio do uso de variáveis de folga ('ξ'). O hiperparâmetro, C, ajusta a margem; um valor C maior estreita a margem para a classificação incorreta mínima, enquanto um valor C menor a amplia, permitindo a classificação incorreta de mais dados3.