単純パターン・クラスの識別

単純パターン・クラスは、データと意味のあるパターンを結びつけて、パターン・アクションと一致させるために使用されます。

単純パターン・クラスは、単一文字で表されます。

パターン内部では、拡張文字の円記号 (¥) を使用して、 パターン表の構文が特定の単一文字クラスの影響を受けないようにする必要があります。単一文字クラスの、ハイフン -、スラッシュ /、 番号記号 #、左括弧と右括弧 ()、およびアンパーサンド & には、拡張文字の円記号 (¥) を使用します。

SEPLIST および STRIPLIST エントリーを指定する場合は注意が必要です。 例えば、アンパーサンドを単一トークンとして認識させるには、この記号を SEPLIST に組み込み、STRIPLIST には組み込みません。 円記号 が SEPLIST にあると、 そのクラスは ¥ (円記号) になります。円記号をパターンの中で使用する場合は拡張文字を付ける必要があり、 パターンの中では 2 つの円記号 (¥¥) にします。リストへの解析ルールの適用も参照してください。

NULL クラス (0) は、 この単一文字クラスのリストには含まれていません。NULL クラスは、 トークンを NULL にするために分類 (.CLS) または RETYPE アクションで 使用されます。NULL クラスに一致するものは何もないため、これはパターンでは使用されません。

単純パターン・クラスには次のものがあります。
表 1. 単純パターン・クラスのリストと説明
クラス 説明
A から Z 分類からのユーザー提供のクラス

A から Z のクラスは、 分類においてユーザーがコーディングしたクラスに対応します。例えば、APARTMENT に分類の U クラスが 指定されている場合、APARTMENT は単純パターン U と一致します。

^ 数字

クラス ^ (キャレット) は単一の数値 (例えば、数値 123 など) を表します。 ただし、数値 1,230 の場合は 3 つのトークン (数値 1、コンマ、および数値 230) を使用します。

? 分類にない、1 つ以上の連続したワード。

クラス ? (疑問符) は 、1 つ以上の連続する英字ワードを表します。 例えば、MAIN、CHERRY HILL、および SATSUMA PLUM TREE HILL は それぞれ単一の ? クラスと一致します (これらのどのワードもルール・セットの 分類にない場合)。クラス ? は、 通りの名前での使用 (複数ワードの通りの名前と単一ワードの通りの名前を同じように扱う必要がある場合) に役立ちます。

+ 分類にない、単一の英字ワード。
+ (正符号) は、 不明なストリングの各部を区切る場合に役立ちます。 例えば、OWAIN LIAM JONES のような名前の場合は、以下のようにして個々のワードを名、ミドルネーム、および姓の列にコピーします。
+ | + | +
COPY [1] {GivenName}
COPY [2] {MiddleName}
COPY [3] {FamilyName}
& 不特定型の単一トークン
クラス & (アンパーサンド) は、 いずれかのクラスの単一トークンを表します。例えば、アパート・タイプの後に続く単一ワードと一致するパターンは、 次のとおりです。
U | &

SUITE 11 は、 このパターンによって認識されます。しかし、APT 1ST FlOOR などの場合は 、APT 1ST のみがこのパターンで認識されます。

\&
アンパーサンドをリテラルとして使用するには、 アンパーサンドの前に拡張文字の円記号 (¥) を入力します。
< | \& | ? | T
1ST & MAIN ST は、 このパターンによって認識されます。
> 数字先行
クラス > (より大記号) は、後に文字が続く数字を持つトークンを表します。 例えば、123A MAPLE AVE のような番地は、以下のように一致させることができます。
> | ? | T

123A は、 このパターンによって認識されます。 トークンは英字と数字を含みますが、数字が先に来ます。この例では、T は通りの種類を表します。

< 英字先行
クラス < (より小記号) は、 それ自体が先行する英字に一致します。これは、次の例で有用です。
  • A123
  • ALPHA77

トークンは英字と数字を含みますが、 英字が先に来ます。

@ 複雑な混合
クラス @ (アットマーク) は、 例えば A123B, 345BCD789 など、英字と数字が複雑に組み合わされたトークンを表します。例えば 、Hamilton ON L8N 2P1 などの区域情報は、次のように一致させることができます。
+ | P | @ | @ 

この例で 、P は Province (州) を表します。 最初の @L8N を表し、2 番目の @2P1 を表します。

~ 特別な句読点

クラス ~ (ティルド) は、SEPLIST にない特殊文字を表します。 例えば、SEPLIST に $ 記号と % 記号が含まれていなければ、 次のパターンを使用することもできます。

~ | +  

この例では 、$ HELLO および % OFF がこのパターンに一致します。

k 1 つ以上の中国語数字
/ Literal
クラス / (スラッシュ) は、123 ½ MAPLE AVE のような分数の住所に利用できます。 この住所は、次のパターンと一致します。
> | ^ | / | ^ | ? | T
\/ 円記号、スラッシュ

拡張文字の円記号 (¥) を付けたスラッシュは、/ (スラッシュ) クラスを使用するのと同じ方法で使用できます。

- Literal
クラス - (ハイフン) は、アドレス範囲によく使用されます。 例えば、123-127 などの住所範囲は、次のパターンと一致します。
^ | - | ^
\-

拡張文字の円記号 (¥) を付けたハイフンは、- (ハイフン) クラスを使用するのと同じ方法で使用できます。

\# リテラル。拡張文字の円記号 (¥) とともに使用する必要があります (例えば、¥#)。
クラス # (ポンド記号) は、 ユニットの接頭部としてよく使用されます。例えば、suite #12 または unit #9A などの住所は、次のパターンに一致します。
U | ¥# | &
()

Literal

クラス () (括弧) は、 パターン構文の中で、オペランドまたはユーザー変数を囲むために使用されます。 次に、数字先行オペレーターと末尾文字オペレーターを含むパターン構文の例を示します。

> | ? | T
COPY [1](n) {HouseNumber}
COPY [1](-c) {HouseNumberSuffix}
COPY [2] {StreetName}
COPY_A [3] {StreetSuffixType}
EXIT

このパターン構文の例は、住所 123A MAPLE AVE を認識します。 数字 123 は番地として認識され、文字 A は番地の接尾部として認識されます。

括弧付きの注釈を除去するには、左括弧または右括弧とともに拡張文字の円記号 (¥) を使用します。(see Joe, Room 202) などの 括弧付きの注釈を削除するには、このパターンを指定します。

\( | ** | \)
RETYPE [1] 0
RETYPE [2] 0
RETYPE [3] 0

このコード例では、括弧と括弧付きの注釈の内容を除去しています。 さらに、これらのフィールドを NULL に再入力すると、 括弧付きの文は、パターン・アクション・ファイル内で以降に出現する全パターンの検討対象から本質的に除外されます。

NULL クラス (0) は、 この単一文字クラスのリストには含まれていません。NULL クラスは、 トークンを NULL にするために分類または RETYPE アクションで 使用されます。NULL クラスに一致するものは何もないため、これはパターンでは使用されません。

¥( および ¥)

括弧付きの注釈を除去するには、左括弧または右括弧とともに拡張文字の円記号 (¥) を使用します。(see Joe, Room 202) などの 括弧付きの注釈を削除するには、このパターンを指定します。

\( | ** | \)
RETYPE [1] 0
RETYPE [2] 0
RETYPE [3] 0

このコード例では、括弧と括弧付きの注釈の内容を除去しています。 さらに、これらのフィールドを NULL に再入力すると、 括弧付きの文は、パターン・アクション・ファイル内で以降に出現する全パターンの検討対象から本質的に除外されます。