Définitions de classification

Une définition de classification affecte une valeur à une classe. La définition peut inclure des informations supplémentaires sur la valeur et affecter d'autres valeurs similaires.

Une définition de classification est constituée des éléments suivants :
Valeur
Chaîne d'un ou plusieurs caractères pour laquelle vous voulez ajouter une définition.
Valeur standard
Orthographe ou représentation normalisée de la valeur qui peut être utilisée dans le cadre d'une action ou d'une condition dans une règle ; identique à la valeur si vous n'indiquez pas une valeur standard.

La valeur standard peut être une abréviation ou une variante développée du mot. Par exemple, la valeur standard pour WEST peut être W, et la valeur standard pour POB peut être "PO BOX".

Dans la table des classifications (précédemment appelé fichier .CLS), la longueur maximale d'une valeur standard est égale à 25 caractères.

Dans la définition de classification pour une valeur dans la classe NULL, la valeur standard n'est pas obligatoire.

Classe
Classe à laquelle la valeur est affectée. La classe est représentée par un libellé de classe à un caractère. Pour plus d'informations sur les types de classe, voir Types de classe.
Seuil de similitude (précédemment appelé poids de seuil)

Le degré de variation qui peut exister dans l'orthographe ou la représentation de la valeur. Si vous voulez que la définition de classification affecte des valeurs différentes de la valeur de la définition, vous pouvez définir le seuil de similitude au-dessous de la valeur par défaut 900.

Le seuil de similitude doit être un entier compris entre 700 et 900. Les entiers représentent les degrés de variation suivants :
900
Les chaînes doivent être en concordances exacte.
800
Les chaînes sont très probablement identiques
750
Les chaîne sont probablement identiques
700
Les chaînes sont probablement différentes.

Lorsque le jeu de règles qui contient une définition de classification est appliqué aux données, les valeurs présentes dans les données sont comparées et un score est attribué. Ce score indique le degré de similitude entre deux valeurs. La méthode de comparaison de chaînes utilisée peut prendre en compte les erreurs phonétiques, les insertions, suppressions et remplacements de caractères aléatoires, ainsi que les transpositions de caractères.

Le score est pondéré par la longueur de la valeur car des erreurs mineures dans des valeurs longues sont moins graves que des erreurs détectées dans des valeurs courtes. Etant donné que les erreurs dans les valeurs courtes ne sont généralement pas tolérées, n'indiquez pas de seuil de similitude pour les valeurs courtes.