robots.txt ファイルの提供

Web ロボットは、サービスの自動要求を行うプログラムです。 例えば、検索エンジンはロボット (Web クローラーとも呼ばれる) を使用して、検索データベースに組み入れるページを取得します。 robots.txt ファイルを提供して、ロボットがアクセスすべきでない URL を指定できます。

このタスクについて

Web サイトへのアクセス時に、ロボットは次の URL を使用して、robots.txt 文書の要求を行います。
http://www.example.com/robots.txt
ここで、www.example.com は、サイトのホスト名です。 複数のポート番号を使用してアクセスできるホスト名が存在する場合、ロボットは、ホスト名とポート番号の組み合わせごとに robots.txt ファイルを要求します。 ファイルにポリシーをリストし、すべてのロボットに適用するか、特定のロボットを指定することができます。 disallow ステートメントを使用して、ロボットがアクセスできない URL を指定します。 robots.txt ファイルを提供しても、ロボット除外標準に準拠していないロボットは、Web ページにアクセスして索引を作成する可能性があります。
Web ブラウザーが robots.txt ファイルを要求し、それを提供しない場合、 CICS® は Web ブラウザーにエラー応答を送信します。
  • CICS 提供のデフォルトのアナライザー DFHWBAAX を使用している場合は、404 (Not Found (未検出)) 応答が返されます。 この状態では、 CICS メッセージは発行されません。
  • サンプルアナライザ DFHWBADX または同等のアナライザを使用している場合、 CICS 以前で必要とされていた URLのみを解釈できるアナライザでは、パス robots.txt がコンバータ・プログラム名として不正に指定されていると誤って解釈される可能性があります。 この場合は、メッセージ DFHWB0723 が発行され、400 (Bad Request (不正な要求)) 応答が Web ブラウザーに返されます。 この状態を回避するには、robots.txt 要求を認識して、より適切なエラー応答を提供するようアナライザー・プログラムを修正するか、または URIMAP 定義を使用して robots.txt ファイルを提供します。 どちらのアクションも、このような要求の場合はサンプル・アナライザー・プログラムがバイパスされるようになります。

すべてまたは一部のホスト名に対する robots.txt ファイルを提供するには、以下の手順を実行します。

手順

  1. robots.txt ファイルのテキスト・コンテンツを作成します。
    robots.txt ファイルの作成に関する情報と例を、いくつかの Web サイトから入手できます。 robots.txt または ロボット除外標準 で検索し、適切なサイトを選択します。
  2. robots.txt ファイルを保管して提供する方法を決定します。 このファイルは、URIMAP 定義のみを使用するかアプリケーション・プログラムを使用して提供できます。
    • robots.txt ファイルを z/OS® UNIX System Services に保管し、URIMAP 定義を使用してそのファイルを静的応答として提供することができます。 ほとんどの Web サーバーはホスト名のルート・ディレクトリーに robots.txt ファイルを格納します。 CICS に対して、URIMAP定義は z/OS UNIX 上の任意の場所に保存されたファイルを提供でき、同じファイルを複数のホスト名で使用できます。

      z/OS UNIX に保存されたファイルを使用する場合、 CICS 領域は z/OS UNIX へのアクセス権限を持つ必要があり、またファイルを含む z/OS UNIX ディレクトリおよびファイル自体へのアクセス権限も必要です。 CICS の領域に z/OS UNIX のディレクトリとファイルへのアクセス権を付与する方法について説明します。

    • robots.txt ファイルを CICS 文書にし、URIMAP 定義を使用して静的応答として提供するか、アプリケーション・プログラムからの応答として提供することができます。 文書の作成 では、 CICS 文書テンプレートの作成方法について説明しています。 文書テンプレートは、区分データ・セット、 CICS プログラム、ファイル、一時記憶域キュー、一時データ・キュー、出口プログラム、または z/OS UNIX System Services ・ファイルに保持することができます。
    • robots.txt ファイルの内容をアプリケーションプログラムで提供したい場合は HTTP 」 で説明されているように、適切なウェブ対応アプリケーションプログラムを作成します。 例えば、 CICSをFROMオプションとともに使用して、 robots.txt 情報を含むデータのバッファを指定することができます。 あるいは、アプリケーションプログラムを使用して、テンプレートから CICSを配信することもできます。 text/plain のメディア・タイプを指定します。

      アプリケーション・プログラムを使用してロボットからの要求を処理し、どのロボットが Web ページにアクセスしているかを追跡することもできます。 ロボットからの要求の User-Agent ヘッダーはそのロボットの名前を示し、From ヘッダーにはそのロボットの所有者の連絡先情報が含まれています。 アプリケーション・プログラムでこれらの HTTP ヘッダーを読み取り、ログに記録することができます。

  3. Web ロボットが robots.txt ファイルに対して行った要求と一致する URIMAP 定義を、 CICS Explorer® を使用して作成します。
    次の URIMAP 定義属性のサンプルは、任意のホスト名の robots.txt ファイルに対する要求にどのようにして一致させるかを示しています。
    表 1. URIMAP 定義のロボット値の例
    属性 説明
    URIMAP robots URIMAP の名前。
    ・グループ MYGROUP 任意の適切なグループ名。
    説明 Robots.txt  
    ステータス 有効  
    使用法 サーバー HTTP サーバーとしての CICS 用。
    方式 HTTP HTTPS 要求とも一致します。
    Host * * は、どのホスト名とも一致します。 別々の robots.txt ファイルを提供する場合は、ホスト名を指定します。
    パス /robots.txt ロボットはこのパスを使用して robots.txt を要求します。
    TCPIPSERVICE   ブランクにしておくと、どのポートとも一致します。 ポートに応じて異なる robots.txt ファイルを指定する場合は、TCPIPSERVICE 定義名を指定します。
    URL のパス構成要素には大/小文字の区別があることに注意してください。 /robots.txt というパスは小文字で指定する必要があります。
  4. robots.txt ファイルを静的応答として提供する場合は、URIMAP 定義を完成させて、ファイルの場所と、 CICS Web サポートが応答を構成するために使用するその他の情報を指定します。
    例えば、次のような URIMAP 属性を指定することにより、EBCDIC コード・ページ 037 を使用して作成されて /u/cts/CICSHome ディレクトリーに格納された robots.txt ファイルを提供できます。
    表 2. URIMAP 定義の静的文書プロパティーの例
    属性
    メディア・タイプ (Media type) /text/plain
    文字セット iso-8859-1
    ホスト・コード・ページ 037
    HFS ファイル (HFS file) u/cts/CICSHome/robots.txt
    HFS ファイル名では、大/小文字が区別されます。
  5. アプリケーション・プログラムを使用して robots.txt ファイルの内容を提供する場合は、URIMAP 定義を完了して、プログラムが要求を処理する必要があることを指定します。
    例えば、以下のような URIMAP 定義属性を使用することにより、アナライザーもコンバーター・プログラムも関与させることなく、Web 対応アプリケーション・プログラムの ROBOTS に要求を処理させることができます。
    表 3. URIMAP 定義の関連 CICS リソース・プロパティーの例
    属性 説明
    アナライザー いいえ 要求にアナライザーは使用されません。
    コンバーター   ブランクにしておくと、コンバーター・プログラムなしになります。
    トランザクション   ブランクにしておくとデフォルトの CWBA になります。
    プログラム ROBOTS ROBOTS