使用 PDF 索引器
Content Manager OnDemand PDF 索引器是一个程序,可以用来从 Adobe PDF 文件中抽取索引数据,或生成有关这些文件的索引数据。
有了 Content Manager OnDemand,索引数据可以增强您存储、检索和查看 PDF 文档的能力。PDF 索引器处理 PDF 输入文件。PDF 文件是 PostScript 文件的一种精练版本,它增添了结构性和有效性。PDF 文件可以通过 Acrobat Distiller 或名为 PDFWriter 的特殊打印机驱动程序来创建。PDF 索引器支持 PDF V1.9 和更低版本的输入和输出文件。有关为 Distiller 准备输入数据的更多信息,请参阅随 Acrobat Distiller 一起提供的文档。
PDF 索引器可将报告从逻辑上分成单独的项,如财务报表、保险单和帐单。对于报告中的每一项,您可以最多定义 128 个索引字段。
PDF 索引器使用坐标系定位用于确定组的起始项和索引值的文本字符串。坐标系使用加在页面上的 x 和 y 对。对于每个文本字符串,您在页面上标识其左上和右下位置。 左上角和右下角形成一个字符串框。字符串框是完整地将文本字符串括起来的最小矩形。原点位于页面的左上角。x 坐标向右边增加而 y 向页面下方增加。您也标识出现文本字符串的页面。Content Manager OnDemand 在 Administrator 中提供一个报告向导,可帮助您为 IBM Content Manager OnDemand PDF Indexer for Multiplatforms 创建索引参数。它还提供了一个 ARSPDUMP 程序,帮助您识别页面上文本字符串的位置。
IBM Content Manager OnDemand for Multiplatforms: Administration Guide 中提供了有关报告向导的详细信息,并给出了有关如何使用报告向导处理行数据输入文件的示例。 使用“报告向导”来处理 PDF 输入文件类似于处理行数据输入文件。
Content Manager OnDemand Indexing Reference 中提供了有关 PDF 索引器的详细信息,并给出了有关如何使用它处理 PDF 输入文件的示例。