crawl-url

Noeud qui encapsule tous les états du moteur d'exploration pour une URL spécifique.

Attributs

  • __internal__ (dns_robots uniquement dans certains cas) - Indicateur qui spécifie que crawl-url est destiné au traitement interne uniquement et qu'il ne devrait pas être utilisé dans les journaux ou dans l'index. L'extraction du fichier robots.txt est une utilisation typique de crawl-urls. Utilisation : Interne
  • n-redirs (entier Valeur par défaut : 0) - Nombre de redirections du moteur d'exploration vers une URL spécifique.
  • orig-url (Texte) - URL que le moteur d'exploration a initialement tenté d'explorer avant d'être redirigé vers celle stockée dans l'attribut url.
  • url (Texte) - URL de la ressource représentée par ce crawl-url.
  • crawl-url (Texte) - Utilisation : Interne
  • redir-from (Texte) - URL à partir de laquelle cette URL a été redirigée.
  • redir-to (Texte) - URL vers laquelle cette URL a été redirigée.
  • state (pending, success, warning ou error) - Etat de ce crawl-url. Cet attribut est défini par la requête de statut et peut prendre l'une des valeurs suivantes : pending : la ressource se trouve actuellement dans le pipeline du moteur d'exploration. success : la ressource a quitté le pipeline du moteur d'exploration et le traitement ne s'est pas achevé sur une erreur ou un avertissement. warning : la ressource a quitté le pipeline du moteur d'exploration mais certaines données n'ont pas été correctement indexées. error : la ressource a quitté le pipeline du moteur d'exploration mais aucune donnée n'a été indexée avec succès. Si la mise en file d'attente n'a pas atteint l'indexeur, l'attribut siphoned en indiquera la cause. Sinon, l'enfant du journal indiquera les erreurs.
  • status (starting, applying changes, stopping, refreshing, resuming, input, complete, redir, disallowed by robots.txt, filtered, error, duplicate, killed ou none Valeur par défaut : none) - Statut de ce crawl-url : input : la ressource est sur le point d'être extraite par le moteur d'exploration. complete : la ressource a été extraite et convertie avec succès. redir : la tentative d'extraction de la ressource a entraîné une redirection. disallowed by robots.txt : le fichier robots.txt ne permet pas à la ressource d'être explorée. filtered : les conditions d'exploration ne permettent pas à la ressource d'être explorée, mais crawl-url sera enregistré dans les journaux. killed : les conditions d'exploration ne permettent pas à la ressource d'être explorée et crawl-url ne sera pas enregistré dans les journaux. error : une erreur s'est produite lors d'une tentative d'extraction ou de conversion de l'URL. duplicate : la ressource est le doublon exact d'une ressource qui a déjà été explorée. Les autres valeurs de statut possibles, telles que applying changes, refreshing, resuming, starting et stopping ne sont destinées qu'à une utilisation interne.
  • output-destination (cache ou indexer) - Chaîne qui permet d'acheminer un crawl-url vers une destination spécifique dans le moteur d'exploration. Utilisation : Interne
  • http-status (xs:long) - Code de statut HTTP renvoyé lorsque le moteur d'exploration a tenté d'extraire la ressource de cette URL.
  • input-at (xs:long) - Secondes depuis l'époque auxquelles ce crawl-url a été écrit dans les journaux dans son état d'entrée.
  • recorded-at (xs:long) - Secondes depuis l'époque auxquelles ce crawl-url a été écrit dans les journaux dans son état d'entrée.
  • at-datetime (Date/heure) - Heure à laquelle ce crawl-url a été extrait ou à laquelle son extraction a échoué.
  • at (xs:long) - Secondes depuis l'époque auxquelles ce crawl-url a été extrait ou auxquelles son extraction a échoué.
  • filetime (xs:long) - Secondes depuis l'époque auxquelles la ressource de cette URL a été mise à jour pour la dernière fois.
  • batch-id (Texte) - Valeur utilisée pour déterminer si plusieurs URL dotées d'une vse-key partagée ont été ajoutées à la file d'attente au cours d'une instance de moteur d'exploration unique.
  • change-id (Texte) - Total de contrôle dépendant d'un protocole de différentes métadonnées utilisées pour déterminer si la ressource de cette URL a été modifiée depuis la dernière exploration. Utilisation : Interne
  • input-purged - Indicateur qui spécifie que le crawl-url d'entrée pour ce crawl-url n'est pas disponible étant donné qu'il a déjà été purgé depuis la base de données. Utilisation : Interne
  • content-type (Texte) - Type de contenu de la ressource à cette URL.
  • size (xs:long) - Taille totale en octets de la ressource extraite à cette URL.
  • n-sub (entier) - Nombre total d'enfants schema.x.element.crawl-data sous ce crawl-url.
  • conversion-time (entier) - Temps total en secondes écoulé lors de la conversion de la ressource extraite à cette URL.
  • converted-size (nombre décimal) - Taille totale en octets après avoir effectué toutes les étapes de conversion sur la ressource extraite à cette URL.
  • speed (nombre décimal) - Taille totale en octets de la ressource à cette URL divisée par la durée totale d'extraction en secondes.
  • error (Texte) - Chaîne qui indique la raison pour laquelle le moteur d'exploration n'a pas pu extraire ou convertir la ressource à cette URL.
  • warning (Texte) - Chaîne qui indique les éventuels problèmes rencontrés par le moteur d'exploration lors d'une tentative d'extraction ou de conversion de la ressource à cette URL.
  • hops (entier Valeur par défaut : 0) - Nombre de sauts entre cette URL et l'URL de départ qui ont permis au moteur d'exploration de la trouver pour la première fois.
  • vertex (xs:unsignedInt) - Identificateur unique affecté par le moteur d'exploration à chaque URL qu'il rencontre.
  • exact (Texte) - Chaîne qui représente un total de contrôle appliqué sur le contenu de tous les enfants schema.x.element.crawl-data et leurs attributs ACL. Permet de déterminer si une ressource à une URL est le doublon exact d'une ressource à une URL déjà explorée.
  • error-msg (Texte) - Utilisé pour faire circuler les messages d'erreur dans le moteur d'exploration de manière temporaire. Utilisation : Interne
  • exact-duplicate (exact-duplicate uniquement dans certains cas) - Indicateur qui spécifie que le contenu de l'URL est le doublon exact d'une URL déjà explorée.
  • verbose (verbose uniquement dans certains cas) - La présence de cet indicateur signifie que la progression de ce crawl-url devrait être suivie dans le journal de débogage du moteur d'exploration.
  • uncrawled (unexpired, unchanged, error ou unknown) - Raison générique pour laquelle cette ressource n'a pas été à nouveau explorée : unexpired : une copie précédente de ce crawl-url était toujours valide au moment de l'exploration. unchanged : les métadonnées indiquaient que la ressource à cette URL n'avait pas été modifiée depuis sa dernière extraction. error : une tentative d'extraction de la ressource à cette URL a généré une erreur et la copie extraite précédemment était toujours valide au moment de l'exploration. unknown : la ressource n'a pas été de nouveau explorée pour une raison inconnue. Utilisé avec l'attribut uncrawled-why.
  • uncrawled-why (Texte) - Raison spécifique pour laquelle cette ressource n'a pas été à nouveau explorée. Utilisé avec l'attribut uncrawled.
  • crawled-locally (crawled-locally uniquement dans certains cas) - Indicateur qui permet de spécifier qu'aucun contact avec un serveur distant n'était requis et que cette URL n'aurait pas dû être impliquée dans le calcul du délai.
  • priority (entier Valeur par défaut : 0) - Entier qui indique la priorité de ce crawl-url en relation à d'autres crawl-urls et crawl-deletes dans les files d'attente du moteur d'exploration. Plus la valeur est grande, plus la priorité est élevée.
  • input-priority (entier) - Stocke la priorité réelle dans les URL mises en file d'attente par l'opération resume. Défini en interne par le moteur d'exploration pour une utilisation temporaire. Utilisation : Interne
  • default-acl (Texte) - ACL qui sera appliquée à la ressource lorsqu'aucune autre ACL n'est disponible.
  • ip (Texte) - Adresse IP utilisée pour extraire la ressource de l'URL.
  • i-ip (entier) - Identificateur de type entier qui permet d'associer une adresse IP spécifique à une entrée DNS qui correspond à plusieurs adresses IP.
  • forced-vse-key (Texte) - Impose au moteur d'exploration d'attribuer cette vse-key à ce crawl-url plutôt que d'autoriser le moteur d'exploration à en attribuer une automatiquement.
  • forced-vse-key-normalized (forced-vse-key-normalized uniquement dans certains cas) - Indicateur qui spécifie que la forced-vse-key ne devrait pas être normalisée en incluant automatiquement la base-url dans cette valeur.
  • synchronization (none, enqueued, to-be-indexed, indexed ou indexed-no-sync. Valeurs obsolètes : to-be-crawled Valeur par défaut : enqueued) - Indique à quel moment le moteur d'exploration devrait renvoyer un succès pour un crawl-url ajouté à la file d'attente. Les synchronisations autres que none entraîneront la consignation de la mise en file d'attente dans la mémoire auxiliaire avant qu'une réponse synchrone ne soit émise.
    • none : immédiatement après avoir reçu la mise en file d'attente.
    • enqueued : après que le crawl-url soit reconnu comme satisfaisant aux conditions d'exploration et qu'une tentative d'extraction soit effectuée.
    • to-be-indexed : après que la ressource à l'URL ait été explorée et convertie. Ce mode de synchronisation impose à l'indexeur d'effectuer un travail supplémentaire pour émettre la réponse synchrone de la manière la plus ponctuelle.
    • indexed : après que la ressource convertie ait été enregistrée par l'indexeur.
    • indexed-no-sync : après que la ressource convertie ait été enregistrée par l'indexeur, n'imposant pas à l'indexeur d'effectuer un travail supplémentaire.
  • force-indexed-sync - Indicateur qui permet de forcer l'indexeur à accuser réception des modifications apportées au document dans le journal d'audit, uniquement une fois l'indexation terminée, les modifications étant répercutées dans les résultats de la recherche. Utilisation : Interne
  • enqueue-id (Texte) - Chaîne unique qui identifie une mise en file d'attente spécifique.
  • enqueue-id-for-audit-log (Texte) - Chaîne qui sera utilisée pour identifier cette mise en file d'attente dans le journal d'audit plutôt que la valeur de l'attribut enqueue-id. Utilisation : Interne
  • originator (Texte) - Chaîne unique qui identifie la personne à l'origine de la mise à jour.
  • arena (Texte) - Nom du périmètre dans lequel inclure les données. S'il est spécifié, l'option arena de l'indexer-service de cette collection doit être activée pour que des données puissent y être ajoutées. Si l'option est activée, cet attribut est obligatoire.
  • parent-url (Texte) - URL parent à laquelle cette URL devrait être associée. Permet au graphique interne de rester cohérent lorsque des mises à jour doivent être effectuées en dehors d'un flux de travaux d'exploration normal.
  • parent-url-normalized (parent-url-normalized uniquement dans certains cas) - Indicateur qui spécifie que l'attribut parent-url a déjà été normalisé. S'il est absent, le moteur d'exploration tente de normaliser cette valeur.
  • remote-time (xs:long) - Heure à laquelle la ressource a été extraite sur le serveur distant, en secondes depuis l'époque. Utilisation : Interne
  • remote-dependent (delete ou uncrawled) - Indique que cette mise à jour dépend d'une mise à jour précédente : delete : cette mise à jour supprime un crawl-url existant. uncrawled : cette mise à jour met à jour l'heure d'expiration d'un crawl-url existant. Utilisation : Interne
  • remote-previous-collection (Texte) - Collection pour la mise à jour précédente de ce crawl-url. Utilisation : Interne
  • remote-previous-counter (entier) - Contre-valeur pour la mise à jour précédente de ce crawl-url. Utilisation : Interne
  • remote-depend-collection (Texte) - Collection pour la mise à jour sur laquelle ce crawl-url est basé. Utilisation : Interne
  • remote-depend-counter (entier) - Contre-valeur pour la mise à jour sur laquelle ce crawl-url est basé. Utilisation : Interne
  • remote-collection-id (entier) - ID interne pour le nom de collection dont ce crawl-url est issu. Utilisation : Interne
  • siphoned (duplicate, killed, filtered, terminated, unexpired, uncrawled, unchanged, error, unretrievable, rebasing, replaced, input-full, needed-gatekeeper, aborted, nonexistent, invalid, lc-too-long, remote-conflict ou unknown) - Indique que le moteur d'exploration a rencontré un obstacle qui a empêché crawl-url de procéder à sa synchronisation demandée : duplicate : la ressource à cette URL a déjà été explorée. killed : l'URL a été filtrée par crawl-conditions. filtered : l'URL a été filtrée par crawl-conditions et consignée. terminated : crawl-url n'a pas pu être traité car le moteur d'exploration a été arrêté après que la mise en file d'attente soit entrée dans le pipeline. rebasing : crawl-url n'a pas pu être traité car le moteur d'exploration tente une opération de resynchronisation. unexpired : le crawl-url précédent n'a pas encore expiré. unchanged : la ressource à l'URL n'a pas été modifiée depuis sa copie précédemment extraite. error : la ressource à l'URL n'a pas pu être extraite, mais la copie précédemment extraite est toujours valide. unretrievable : la ressource à l'URL n'a pas pu être extraite. replaced : la mise en file d'attente a été remplacée par une mise en file d'attente plus récente. input-full : la mise en file d'attente n'a pas pu être traitée car la file d'entrée est saturée. needed-gatekeeper : la mise en file d'attente était l'enfant d'un index-atomic node mais aurait dû être placée dans le contrôleur d'accès pour poursuivre. aborted : la mise en file d'attente a été abandonnée dans le cadre d'une transaction. nonexistent : crawl-url ne correspond à aucune crawl-urls dans la base de données du moteur d'exploration. lc-too-long : la taille de l'attribut url dépasse la limite de 499 octets définie en mode moteur d'exploration léger. remote-conflict : le crawl-url n'a pas pu être traité car la collection possède une mise à jour plus récente de cette URL, qui provient soit de la collection elle-même, soit d'un autre noeud d'indexation réparti. unknown : la synchronisation demandée n'a pas pu être respectée pour une raison inconnue.
  • enqueued-offline (enqueued-offline uniquement dans certains cas) - Indicateur qui spécifie que le crawl-url a été ajouté à la file d'attente hors ligne.
  • orphaned-atomic (May only be: orphaned-atomic) - Indicateur qui spécifie que ce crawl-url n'a pas pu être indexé de manière atomique en raison d'une erreur système. En conséquence, cette URL n'a eu aucun effet sur l'index. Utilisation : Interne
  • enqueue-type (none, forced, reenqueued, export ou status Valeur par défaut : none) - Indique la manière dont un crawl-url ajouté à la file d'attente devrait être traité par le moteur d'exploration :
    • none : crawl-url fait l'objet de toutes les vérifications standard : dédoublonnage, limites d'URL et expiration.
    • forced : ignore la vérification de doublons et les limites d'URL lors du traitement de crawl-url.
    • reenqueued : ignore toutes les options de vérification de doublons, limites d'URL et expiration lors du traitement de crawl-url.
    • export : extrait la ressource située dans l'URL et la renvoie à l'appelant. La ressource ne sera ni convertie ni indexée et l'état permanent du moteur d'exploration ne sera modifié d'aucune manière suite à cet ajout à la file d'attente.
    • status : extrait le statut en cours d'une URL spécifique à partir de la base de données du moteur d'exploration.
  • deleted - Indicateur temporaire utilisé par le moteur d'exploration pour suivre les crawl-urls mis en file d'attente pour être supprimés. Utilisation : Interne
  • ignore-expires - Indicateur temporaire utilisé par le moteur d'exploration pour imposer aux répertoires d'être toujours explorés à nouveau. Utilisation : Interne
  • enqueued (Texte) - Total de contrôle représentant les liens sortants issus de ce crawl-url. Cette valeur est utilisée en interne afin de déterminer si les liens ont été modifiés suite à l'actualisation.
  • referrer-vertex (entier) - Attribut temporaire utilisé par le moteur d'exploration pour générer la table link-analysis. Utilisation : Interne
  • remote-collection (Texte) - Nom de la collection d'où provient cette mise à jour distante. Utilisation : Interne
  • remote-counter (entier) - Contre-valeur de la mise à jour distante. Permet de vérifier que les mises à jour sont appliquées de manière séquentielle. Utilisation : Interne
  • remote-packet-id (entier) - Attribut temporaire qui permet de suivre une mise à jour qui sera au final ajoutée au journal. Utilisation : Interne
  • referree-url (Texte) - Attribut temporaire utilisé pour suivre les informations sur les doublons exacts pour les mises à jour distantes. Utilisation : Interne
  • request-queue-redir (output ou indexer-output) - Attribut temporaire utilisé pour vérifier que les liens sortants sont enregistrés en tant qu'entrées avant que le crawl-url de mise en file d'attente soit enregistré comme terminé. Utilisation : Interne
  • prodder (abort ou index) - Attribut qui indique que le crawl-url n'est pas un crawl-url 'réel' : il s'agit d'un déclencheur destiné à un index-atomic qui sera utilisé pour indiquer à l'unité d'exécution indexer_output d'abandonner un index-atomic ou de l'envoyer à l'indexeur. Utilisation : Interne
  • gatekeeper-action (reject, replace ou add-to-queue) - Indique l'action que va effectuer le contrôleur d'accès s'il rencontre ce crawl-url alors qu'un autre crawl-url partageant l'attribut url se trouve dans le pipeline du moteur d'exploration.
    • reject : le contrôleur d'accès rejette ce crawl-url et l'empêche d'entrer dans le pipeline. Il s'agit du comportement par défaut pour les crawl-urls ajoutés à la file d'attente en tant qu'enfants d'un index-atomic dans une situation non répartie.
    • replace : le contrôleur d'accès rejette tous les crawl-urls qui se trouvent actuellement dans sa file d'attente et qui partagent la valeur de l'attribut url de ce crawl-url, en les remplaçant par ce crawl-url unique. Il s'agit du comportement par défaut.
    • add-to-queue : le contrôleur d'accès ajoute ce crawl-url au bout de sa file d'attente. Il s'agit du comportement par défaut pour les crawl-urls envoyés à un client d'indexation réparti en tant qu'enfants d'un index-atomic node.
    Utilisation : Interne
  • index-atomically - Attribut qui permet d'indiquer que crawl-url fait partie d'une opération atomique. Utilisation : Interne
  • gatekeeper-list - Attribut temporaire utilisé pour autoriser une URL à ignorer le mécanisme de contrôleur d'accès si elle a été libérée à partir du contrôleur d'accès ou si elle a été de nouveau ajoutée à la file d'attente. Utilisation : Interne
  • gatekeeper-id (xs:unsignedInt) - Attribut temporaire utilisé pour associer des noeuds à partir du contrôleur d'accès à leur emplacement dans le magasin XML permanent. Utilisation : Interne
  • offline-id (xs:unsignedInt) - Attribut temporaire utilisé pour associer des noeuds à partir de la file d'attente hors ligne à leur emplacement dans le magasin hors ligne. Utilisation : Interne
  • offline-initialize - Attribut temporaire utilisé lors de l'initialisation de noeuds hors ligne. Utilisation : Interne
  • input-on-resume (booléen) - Attribut temporaire permettant d'indiquer à l'unité d'exécution d'entrée du moteur d'exploration que le crawl-url a été saisi à la reprise et qu'il nécessite donc un traitement spécial. Utilisation : Interne
  • switched-status (booléen) - Utilisé de manière temporaire par l'opération apply changes pour indiquer qu'un crawl-url a changé de statut au cours de l'opération. Utilisation : Interne
  • from-input - Utilisation : Interne
  • input-stub - Utilisation : Interne
  • re-events (entier) - Utilisation : Interne
  • remembered (booléen) - Utilisation : Interne
  • notify-id (entier) - Utilisation : Interne
  • reply-id (entier) - Utilisation : Interne
  • obey-no-follow - Utilisation : Interne
  • normalized - Indicateur temporaire qui permet d'inviter l'unité d'exécution de traitement des entrées à éviter de normaliser l'URL ou d'appliquer les conditions d'exploration. Utilisation : Interne
  • url-normalized - Indicateur temporaire qui permet d'inviter l'unité d'exécution de traitement des entrées à éviter de normaliser l'URL tout en continuant d'appliquer les conditions d'exploration. Défini sur les noeuds qui sont de nouveau ajoutés à la file d'attente en raison d'une déconnexion de l'indexeur. Utilisation : Interne
  • wait-on-enqueued - Utilisation : Interne
  • graph-id-high-water (xs:unsignedInt) - Utilisation : Interne
  • last-at (xs:long) - Utilisation : Interne
  • indexed-n-docs (xs:unsignedInt) - Nombre de documents indexés correspondant à cette URL.
  • indexed-n-contents (xs:unsignedInt) - Nombre de contenus indexés correspondant à cette URL.
  • indexed-n-bytes (xs:long) - Nombre d'octets indexés correspondant à cette URL.
  • light-crawler (light-crawler uniquement dans certains cas) - Utilisation : Interne
  • remove-xml-data (always, on-success ou input) - Utilisation : Interne
  • disguised-delete (disguised-delete uniquement dans certains cas) - Indicateur temporaire qui permet d'indiquer que le crawl-url est réellement un crawl-delete en mode moteur d'exploration léger pour une URL pour laquelle le moteur d'exploration ne possède aucun enregistrement. Utilisation : Interne
  • remote-counter-increased (remote-counter-increased uniquement dans certains cas) - Indicateur temporaire qui permet d'indiquer que la mise à jour a engendré l'augmentation en volume de la collection du compteur distant. Utilisation : Interne
  • delete-enqueue-id (Texte) - Utilisation : Interne
  • delete-originator (Texte) - Utilisation : Interne
  • delete-index-atomically (delete-index-atomically uniquement dans certains cas) - Utilisation : Interne
  • purge-pending (purge-pending uniquement dans certains cas) - Indicateur temporaire qui permet d'indiquer que le crawl-url est supprimé des journaux mais pas de l'index. Utilisation : Interne
  • only-input - Attribut temporaire qui permet d'indiquer que crawl-url n'a jamais été consigné dans la table de droits. Utilisation : Interne
  • N'importe quel attribut défini par l'utilisateur

Enfants

  • Utilisez les enfants dans l'ordre indiqué. La séquence peut ne pas être répétée.
    • crawl-pipeline : (1 exactement) - Noeud de conteneur pour les données de profilage.
    • curl-options : (1 exactement) - Conteneur des options utilisées lors de l'extraction d'une URL spécifique.
    • crawl-header : (1 exactement) - Noeud contenant des données d'en-tête HTTP pour une URL associée.
    • old-crawl : (1 exactement) - Conteneur pour la copie précédente d'un crawl-url.
    • crawl-links : (1 exactement) - Utilisé par la recherche répartie.
    • completed-crawl : (1 exactement) - Utilisé par la recherche répartie.
    • indexed-crawl : (1 exactement) - Utilisé par la recherche répartie.
    • log : (1 exactement) - Balise dans laquelle sont collectés les noeuds de journal
    • crawl-data : (Au moins 1) - Noeud qui encapsule tous les états du moteur d'exploration correspondant à un document spécifique.