搜索引擎

所有搜索引擎包含四个主要组件:

  1. 搜寻、种子和连接器:搜寻器收集将最终构成搜索结果的原始数据。在搜寻 Web 页面时,搜寻器从用户指定的种子 URL 开始,并且开始下载 Web 页面。搜寻器查找下载的页面上的超链接并调度新发现的页面以执行进一步搜寻。配置信息用于确定需要搜寻的页面以及如何搜寻。
  2. 转换:转换器处理搜寻器发现的原始数据并生成一组或多组可建立索引的数据。可采用任意数量的格式编码原始数据,包括归档、压缩文件、PDF 或 Microsoft Word 文件。大多数搜索引擎不公开转换步骤。在 Watson™ Explorer Engine 搜索引擎中此步骤可进行大量定制,支持极其灵活地处理原始数据,包括复杂的元数据处理和可选生成。Watson Explorer 引擎还提供非常高级的标题抽取器以从 PDF、Word 和其他格式的文档中推断文档标题。转换过程的最终输出将是 IBM XML 格式的 XML。
  3. 建立索引:索引器处理转换器生成的文本数据,并构建数据结构以便更有效地搜索和检索该信息。在 Watson Explorer Engine 搜索引擎中,索引建立还会生成用于在搜索时进行近似重复消除的特征符。每个集合的索引器服务是实际服务结果的过程。
  4. 搜索:搜索过程(名为 query-service)持续运行并代理到正确的索引器服务的请求。

Watson Explorer Engine 管理工具包含一个配置选项卡,对于其中每个组件包含一个子部分。此外,查询服务 配置指定应用于所有集合的选项。

用于搜索的数据和配置被称为集合。可创建的集合数量无限制。每个集合包含实时数据并可能包含暂存数据。实时数据用于当前搜索。在搜寻集合的新副本并建立索引时,暂存数据用于累计信息。实时与暂存部分进一步详述这些概念。要更改和测试新配置,集合还可能具有工作副本

新集合是现有集合配置的副本。这通常是缺省集合。缺省集合可用于指定组织范围内的缺省选项。例如,如果需要代理,那么可在缺省集合中输入代理信息,并且其将用于所有后续创建的集合。

搜寻器基于递归规则系统,提供广泛的搜寻控制。使用开放式可扩展框架生成文档,您可以在其中插入任意程序和脚本以及 XSL 变换或 Watson Explorer Engine 变换