Configuração de avaliações de equidade

Você pode configurar avaliações de imparcialidade para determinar se o seu modelo produz resultados tendenciosos. Use avaliações de imparcialidade para identificar quando seu modelo mostra uma tendência a fornecer resultados favoráveis com mais frequência para um grupo do que para outro.

Configuração de avaliações de imparcialidade para modelos de aprendizado de máquina

Se você registrar dados de carga útil ao preparar-se para avaliações de modelos, poderá configurar avaliações de equidade.

Você pode configurar avaliações de justiça manualmente ou você pode executar um notebook personalizado para gerar um arquivo de configuração. Você pode fazer o upload do arquivo de configuração para especificar as configurações para a sua avaliação.

Ao configurar avaliações de justiça manualmente, você pode especificar o grupo de referência (valor) que você espera representar resultados favoráveis. Você também pode selecionar os atributos do modelo correspondente (features) para monitorar por viés (por exemplo, Idade ou Sexo), que serão comparados contra o grupo de referência. Dependendo dos seus dados de treinamento, você também pode especificar o tamanho mínimo e máximo da amostra para as avaliações.

Selecionar resultados favoráveis e desfavoráveis

Você deve especificar resultados favoráveis e desfavoráveis ao configurar avaliações de imparcialidade. Os valores que representam um resultado favorável são derivados da coluna label nos dados de treinamento. Por padrão, a coluna predictedLabel é configurada como a coluna prediction. Os valores favoráveis e desfavoráveis devem ser especificados usando o valor da coluna prediction como um tipo de dados de sequência de caracteres, como 0 ou 1, ao fazer upload de dados de treinamento.

Selecionar recursos

Você deve selecionar os recursos que são os atributos do modelo que deseja avaliar para detectar a tendência. Por exemplo, você pode avaliar recursos como Sex ou Age quanto à tendência. São suportados apenas os recursos que são de tipo de dados de imparcialidade categórico, numérico (número inteiro), valor flutuante ou duplo.

Os valores dos recursos são especificados como um grupo de referência ou monitorado. O grupo monitorado representa os valores que têm maior risco de fornecer resultados propensos. Por exemplo, para o recurso Sex, é possível configurar Female e Non-binary como os grupos monitorados. Para um recurso numérico, como Age, é possível configurar [18-25] como o grupo monitorado. Todos os outros valores para o recurso são, então, considerados como o grupo de referência, por exemplo, Sex=Male ou Age=[26,100].

Definir limite de equidade

Você pode definir o limite de imparcialidade para especificar uma diferença aceitável entre a porcentagem de resultados favoráveis do grupo monitorado e a porcentagem de resultados favoráveis do grupo de referência. Por exemplo, se a porcentagem de resultados favoráveis para um grupo em seu modelo for 70% e o limite de justiça estiver configurado como 80%, então o monitor de justiça detecta uma propensão em seu modelo.

Configurar o tamanho da amostra

Os tamanhos das amostras são usados para especificar como processar o número de transações que são avaliadas. Você deve definir um tamanho mínimo de amostra para indicar o menor número de transações que deseja avaliar. Você também pode definir um tamanho máximo de amostra para indicar o número máximo de transações que deseja avaliar.

Teste para viés indireto

Se você selecionar um campo que não seja um recurso de treinamento, chamado de campo adicionado, a tendência indireta será identificada ao encontrar valores associados nos recursos de treinamento. Por exemplo, a profissão "estudante" pode implicar um indivíduo mais jovem, embora o campo Idade tenha sido excluído do treinamento de modelo. Para obter detalhes sobre a configuração de avaliações de imparcialidade para considerar a parcialidade indireta, consulte Configuração do monitor de imparcialidade para parcialidade indireta.

Mitigação de viés

O debiasing passivo e ativo é usado para avaliações de modelos de aprendizado de máquina. A remoção de propensão passiva revela a propensão, enquanto a remoção de propensão ativa evita que você leve essa propensão adiante mudando o modelo em tempo real para o aplicativo atual. Para obter detalhes sobre interpretação de resultados e mitigação de viés em um modelo, consulte Revisando resultados de uma avaliação de Fairness.

Configuração de avaliações de equidade em watsonx.governance

Ao avaliar modelos de prompt, você pode revisar um resumo dos resultados da avaliação de imparcialidade para as tarefas de classificação de texto.

Selecionar resultados favoráveis e desfavoráveis

Você deve especificar resultados favoráveis e desfavoráveis ao configurar avaliações de imparcialidade. Os valores que representam um resultado favorável são derivados da coluna label nos dados de teste fornecidos por você. Por padrão, a coluna predictedLabel é configurada como a coluna prediction. Os valores favoráveis e desfavoráveis devem ser especificados usando o valor da coluna prediction como um tipo de dados de cadeia de caracteres, como 0 ou 1 quando você estiver carregando dados de treinamento.

Selecione os metacampos

Você deve selecionar metacampos para permitir que watsonx.governance identifique campos que não estejam especificados como recursos nos dados de teste que você fornecer.

Definir limites de equidade

Para configurar avaliações de equidade com suas próprias definições, você pode definir um tamanho mínimo e máximo de amostra para cada métrica. O tamanho mínimo ou máximo da amostra indica o número mínimo ou máximo de transações de modelo que você deseja avaliar.

Você também pode configurar dados de linha de base e definir valores de limite para cada métrica. Os valores de limite criam alertas na página de resumo da avaliação que aparecem quando as pontuações de métricas violam seus limites. Você deve definir os valores entre o intervalo de 0 a 1. As pontuações do índice devem ser menores do que os valores de limite para evitar violações.

Configurar o tamanho da amostra

Watsonx.governance usa tamanhos de amostra para entender como processar o número de transações que são avaliadas durante as avaliações. Você deve definir um tamanho mínimo de amostra para indicar o menor número de transações que deseja que o watsonx.governance avalie. Você também pode definir um tamanho máximo de amostra para indicar o número máximo de transações que deseja que o watsonx.governance avalie.