Crawlers

Os crawlers coletam documentos de origens de dados para que os documentos possam ser analisados, indexados, procurados e extraídos.

Os crawlers possuem as seguintes funções:

Quando você configura um crawler, os processos de descoberta localizam informações sobre as origens que estão disponíveis para que seja efetuado crawl, tais como os nomes de todas as visualizações e pastas em um banco de dados do Lotus Notes ou os nomes de todos os sistemas de arquivo de um servidor UNIX.
Após você selecionar as origens nas quais deseja efetuar crawl e iniciar o crawler, os componentes do crawler coletam dados das origens para que os dados possam ser analisados e indexados.

Uma única conexão pode ter vários crawlers e cada crawler é designado para reunir dados de um determinado tipo de origem de dados. Por exemplo, você pode criar três crawlers para combinar dados de sistemas de arquivo, bancos de dados do Notes e bancos de dados relacionais na mesma coleção. Ou você pode criar vários crawlers do mesmo tipo e configurar diferentes planejamentos de crawling para eles, de acordo com a frequência com que os dados em que está sendo efetuado crawl por cada crawler são alterados.

É possível iniciar e parar crawlers manualmente ou configurar planejamentos de crawling. Se você planejar um crawler, especifique quando ele será executado inicialmente e com que frequência ele deve revisitar as origens de dados para efetuar crawl em documentos novos e alterados.

É possível configurar o crawler da web para executar continuamente. Você especifica em quais URLs (Localizadores Uniformes de Recursos) deseja efetuar crawl e o crawler retorna periodicamente para verificar os dados que são novos ou alterados.

Propriedades do Crawler são um grupo de regras que administram o comportamento de um determinado crawler ao efetuar crawl. Por exemplo, você especifica regras para controlar como o crawler utiliza recursos do sistema. O conjunto de origens elegível para se efetuar crawl constitui o crawl space de um crawler. Após criar um crawler, você pode editar as propriedades do crawler a qualquer momento para alterar o modo como o crawler coleção dados. Também é possível editar o crawl space para alterar o planejamento do crawler, incluir novas origens ou remover as origens que não desejar mais procurar ou extrair.