Procurar caracteres especiais

O OmniFind siporta a indexação e procura de caracteres especiais.

Pode procurar por caracteres especiais como outros termos de procura. Para encontrar um carácter especial num documento, inclua o carácter especial na expressão de procura. Em alguns casos, é necessário ignorar caracteres especiais.

Ignorar caracteres especiais

Os caracteres especiais podem servir para funções diferentes na sintaxe de procura. Por exemplo, os pontos de interrogação (?) podem ser utilizados como caracteres globais. Para procurar por um carácter especial que tem uma função especial na sintaxe de procura, tem de ignorar o carácter especial ao adicionar uma barra invertida antes do mesmo, por exemplo:

Se não ignorar tais caracteres especiais podem ocorrer erros de sintaxe.

Tabela 1. Os caracteres especiais que têm de ser ignorados para serem procurados
Carácter especial Notas de comportamento quando não são ignorados
E comercial (&)  
Asterisco (*) Utilizado como carácter global.
Arroba (@) Um erro de sintaxe é criado quando um arroba é o primeiro carácter de uma procura. Em expressões xmlxp, o sinal de arroba é utilizado para se referir a um atributo.
Parênteses rectos [ ] Utilizados em expressões xmlxp para procurar os conteúdos de elementos e atributos
Chavetas { } Cria um erro de sintaxe.
Barra invertida (\)  
Sinal circunflexo (^) Utilizado para aumentar (intensificar) termos.
Dois pontos (:) Utilizado para procurar nos conteúdos dos campos.
Sinal de igual (=) Cria um erro de sintaxe.
Ponto de exclamação (!) Um erro de sintaxe é devolvido quando um ponto de exclamação é o primeiro carácter de uma procura.
Barra (/) Nas expressões xmlxp, é utilizada uma barra como um separador de caminho do elemento.
Símbolo maior do que (>) Símbolo menor do que (<) Utilizado em expressões xmlxp para comparar o valor de um atributo. De outro modo, estes caracteres criam erros de sintaxe.
Sinal de menos (-) Quando um sinal de menos é o primeiro carácter de um termo, apenas documentos que não contêm o termo são devolvidos.
Parêntesis ( ) São utilizados para agrupamento.
Sinal de percentagem (%) Especifica que um termo de procura é opcional.
Sinal de mais (+)  
Ponto de interrogação (?) Processado como um carácter global.
Ponto e vírgula (;)  
Plica (‘) As plicas são utilizadas para conterem expressões xmlxp.
Til (~) São processados como operadores de procura imprecisa e de proximidade
Barra vertical (|)  

Ignora caracteres especiais que não servem uma função especial é opcional na sintaxe de procura. A seguinte tabela apresenta alguns exemplos de caracteres especiais que não necessitam de ser ignorados.

Tabela 2. Exemplos de caracteres especiais que não necessitam de ser ignorados
Carácter especial Notas de comportamento quando não são ignorados
Vírgula (,)  
Sinal de dólar ($)  
Ponto final (.) Nas expressões xmlxp, um ponto final é utilizado para procurar o conteúdo dos elementos.
Cardinal (#)  
Sublinhado (_)  

Os caracteres especiais adjacentes para procurar termos

Quando um carácter especial está adjacente a uma palavra numa procura, são devolvidos os documentos que contêm o carácter especial e a palavra na mesma ordem. Por exemplo, procurar por “30$” encontra documentos que contêm “30$”, mas não encontra documentos que contêm “$30”. Contudo, procurar por “30 $” (com um espaço) encontra todos os documentos que contêm “30” e “$” em qualquer lugar nos documentos incluindo “30$” e “$30”.

Quando um carácter especial está adjacente a uma palavra de paragem numa procura, a palavra de paragem não é removida da procura. Por exemplo, procurar por “at&t” não remove a palavra de paragem “at”. Contudo, procurar por “at & t” com espaços remove a palavra de paragem “at”.

Quando um carácter especial separa duas palavras, a sequência de símbolos é procurada como uma sequência. Por exemplo, procurar por “jack_jones” encontra documentos que contêm “jack_jones” mas nºao encontra documentos que contêm “jack_and_jones”.

As palavras que estão adjacentes a um carácter especial são lematizadas. Por exemplo, procurar por “cats&dogs” em inglês encontra documentos que contêm “cat&dog”.

Pode utilizar caracteres especiais em expressões de procura com carácter global. Por exemplo, procurar por “ja*_” encontra documentos que contêm “jack_jones”. Contudo, não pode utilizar caracteres globais para encontrar caracteres especiais. Por exemplo, procurar por “ca*s” encontra documentos quem contêm “cats”, “categorias”, ou “cas”, mas não encontra documentos que contêm “ca_s”.

Indexar caracteres especiais

Durante a criação de símbolos e o processamento de idioma, o servidor OmniFind identifica e indexa caracteres especiais como pontuação. Os caracteres especiais são delimitadores de símbolos.

Por exemplo, “jack_jones” está simbolizado como três símbolos separados: “jack”, “_”, e “jones”. Os e-mails, URL e caminhos do ficheiro são decompostos em símbolos, por exemplo:

Os caracteres especiais não ocupam uma posição de símbolo no ficheiro. Por exemplo, "jack_jones" é indexado com o sublinhado na mesma posição do símbolo como "jack". Os caracteres especiais também não ocupam uma posição de símbolo quando os espaços são incluídos. Por exemplo, “jack_jones” é indexado da mesma forma que “jack _ jones”.

A posição do símbolo é utilizada para procura de expressão exacta e para procura de proximidade. Por exemplo, se um documento contem a expressão jack_jones, procurar pela expressão exacta ““jack jones”” encontra este documento.

Quando uma sequência de caracteres especiais são indexados separadamente, estes não são procurados numa ordem em particular. Por exemplo, procurar por “#$” também encontra documentos que contêm “$#”.

Caracteres especiais em idiomas CJK

Para encontrar uma sequência de caracteres que inclui caracteres especiais, a expressão de consulta tem de incluir os caracteres especiais. Se omitir os caracteres especiais da expressão de consulta, a sequência de carácter pode não ser encontrada. Em idiomas não CJK, a sequência de carácter é sempre encontrada, mesmo se a expressão de consulta omitir os caracteres especiais. Por exemplo, se um documento indexado contém john_smith, pode procurar por john_smith ou "john smith" (correspondência exacta, sem o sublinhado) e ambas as consultas devolvem o documento que contém john_smith.

Restrição: Não pode procurar pelos seguintes caracteres especiais em documentos CJK: ? * \