RecognizeToPDFOCR_A

スキャンされた 1 つ以上の画像 (.tif) が Adobe Portable Document Format (PDF) ファイルに変換されます。

名前空間のメンバー

RecognitionOCR_A

構文

bool RecognizeToPDFOCR_A ()

パラメーター

なし。

戻り値

無効なレベルでの呼び出しの場合は False。それ以外の場合は True。

レベル

文書レベルまたはページ・レベル。

詳細

スキャンされた 1 つ以上の画像 (.tif) が Adobe Portable Document Format (PDF) ファイルに変換されます。PDF は、認識エンジンで直接読み取ることができるテキストが入っている検索可能なファイルです。このアクションをページ・レベルに配置すると、現在の tif ページが認識され、pdf ファイルに変換されます。このアクションを文書レベルに配置すると、既存の文書内のすべての tif ページが認識され、1 つの pdf ファイルに変換されます。ページが PDF ファイルの場合は、これにより、ページ・レベル PDF を単一 PDF に結合した新しい PDF が作成されます。

文書形式

PDF/A1A 文書を作成するには、RecognizeToPDFOCR_A を呼び出す前に y_pdfA 変数を「1」に設定します。 PDF/A1B 文書を作成するには、RecognizeToPDFOCR_A を呼び出す前に、y_pdfA 変数を「1」に、y_pdfA1B 変数を「1」に設定します。

PDF/A への変換で MRC (Mixed Raster Content) モードを設定する場合は、y_pdfMRCMode を以下のいずれかの値に設定します。

0 - MRC を使用するかどうかをエンジンが決定します。これがデフォルトです。

1 - MRC を常に使用します。

2 - MRC を使用しません。MRC テクノロジーでは、不可逆圧縮アルゴリズムを使用します。

これは、ソース画像のあまり重要でない情報 (背景テクスチャーやガーベッジなど) が失われる可能性があることを意味します。あまり重要でない情報もソース画像から失われることがないようにしたい場合は、MRC を無効にしてください。2 のパラメーターを使用すると、PDF 文書内のテキストが濃すぎる問題に対処できます。

文書の内容

特定のページ・タイプを PDF から除外するには、変数「typesToExclude」に、除外するそれぞれのページ・タイプをコンマで区切って設定します。特定のページ・タイプを PDF から組み込むには、変数「typesToInclude」に、組み込むそれぞれのページ・タイプをコンマで区切って設定します。特定のページ状況を PDF から除外するには、変数「statusToExclude」に、除外するそれぞれのページ状況をコンマで区切って設定します。

複数のフィルターを指定すると、以下の優先順位が適用されます。

-「statusToExclude」は「typesToInclude」を指定変更します。

-「typesToInclude」は「typesToExclude」を指定変更します。

文書レベルでアクションを呼び出すと、タイプと状況のフィルターが文書と子ページの両方に適用されます。

アクションをページ・レベルで呼び出す場合は、タイプと状況のフィルターは、ページにのみ適用されます。デフォルトでは、認識は画像に対して行われ、検索可能なテキストが PDF に作成されます。認識が行われないようにして画像のみの PDF を作成するには、現行 DCO オブジェクトにおいて変数 y_PDFImageOnly を 1 に設定します。

検索可能 PDF を作成する場合、サポートされる言語とそれらの構成方法に関する情報が、OCR/A アクション・ライブラリーのトップレベル・ヘルプにあります。

文書属性

対応する pdf 文書属性を設定するために、以下の変数を使用できます。

y_PDFKeys

y_PDFAuthor

y_PDFTitle

y_PDFSubject

y_PDFProducer

y_pdfCreator

y_PDFQuality

y_pdfDelTmp

自動回転、デスキュー、および画像調整

このアクションでは、回転、デスキュー、および画像調整がサポートされます。これらについては、Recognize アクションのヘルプに説明があります。修正された画像は、新たに作成された PDF に入れられます。元の画像は、ディスク上で未変更のままです。例えば、自動回転が有効な場合、文書は新しい PDF 内で回転されますが、ディスク上の元の画像は回転されません。元の画像も回転する必要がある場合は、PDF を作成する前に回転する必要があります。入力文書が既に正しく回転されていれば、自動回転のような機能は無効にすることができます。一部のアクションは、回転やデスキューなど、認識とユーザーの両方にとって好ましい向上を画像にもたらしますが、その他の機能拡張は、認識品質を向上させても、エンド・ユーザーに対する表示が低下する場合があることに注意してください。

メモリー/ディスク処理

デフォルトでは、変換はメモリー内で行われます。多くのページを含む PDF を作成する場合は、変換時にメモリー不足になる可能性があります。 DCO 変数 y_maxPagesForInMemoryProcessing をメモリー内の処理用の最大ページ数に設定すれば、処理にディスクを使用できます。この値を超えるページが文書に含まれている場合は、メモリーの代わりにディスクが使用されます。上のセクションの変数は、アクション「RecognizeToPDFOCR_A」を呼び出す前に設定する必要があります。

PDF 注釈の組み込み

デフォルトでは、PDF を PDF に変換するときは、ソース PDF ファイルに含まれている注釈は出力 PDF には組み込まれません。ページ DCO 変数 y_IncludeAnnotation を「1」に設定すれば、ソース PDF にある「フリー・テキスト」注釈を出力 PDF に組み込むことができます。

ポップアップ注釈やインク注釈など、他のタイプの PDF 注釈はサポートされません。このフィーチャーが原因で「スティッキー注釈」のテキストが画像に表示されることはありません。この設定に関係なく、最終的な画像にスティッキー注釈アイコンが表示されることはあります。

PDF エクスポートの品質と速度の最適化

DCO 変数 y_pdfExportScenario を使用して、PDF (PDF/A) 形式へのエクスポートのシナリオを設定できます。これにより、いくつかのパラメーターに関してエクスポートが最適化されます。出力 PDF のサイズと品質に影響があります。この設定 y_pdfExportScenario は以下の値をとります。

0 - 結果ファイルが最高品質になるように、PDF (PDF/A) エクスポートを最適化します (これがデフォルトです)。

1 - PDF (PDF/A) エクスポートは、結果ファイルの品質、サイズ、および処理時間の間でバランスが取られます。

2 - 結果ファイルのサイズが最小化されるように、PDF (PDF/A) エクスポートを最適化します。

3 - 処理速度が最高になるように、PDF (PDF/A) エクスポートを最適化します。一部の画質向上はデフォルトで有効になっています。この設定を選択する場合は、速度が最高になるように画質向上を無効にすることをお勧めします。これらの設定は、このアクション・ライブラリーのトップレベル・ヘルプにリストされています。

多くの要素が、これらの設定に影響します。それぞれをテストして、実際の文書で、実際に最適に動作することを確認することをお勧めします。例えば、速度を選択すると、ネットワーク・ドライブ全体でのコピーにより時間がかかる、より大きいファイルが作成されて、パフォーマンスが低下します。

例:

 rrSet("IBM", "@D.y_PDFProducer")
rrSet("75","@D.statusToExclude)
rrSet("Blank","@D.typesToExclude)
rrSet("1", "@X.y_pdfExportScenario)
RecognizeToPDFOCR_A()

上の例では、dco 文書オブジェクトに含まれるすべてのページ (タイプが「Blank」で状況が「75」のページを除く) を使用して PDF 文書を作成します。エクスポートで、PDF の作成時に、「バランスが取られた」シナリオが使用されます。

SetAutomaticRotationOCR_A("False")
rrSet("0","@X.y_correctSkewMode")
rrSet("0","@X.y_pdfGeomCorrect")
rrSet("0","@X.y_applySigmaFilter")
rrSet("0","@X.y_CorrectNegativeImage")
rrSet("3","@X.y_pdfExportScenario")
rrSet("1","@X.y_PDFImageOnly")
RecognizeToPDFOCR_A()

この例では、できるだけ速く PDF が作成されます。最終的な PDF は、「画像のみ」の PDF です。つまり、検索可能なテキストは含まれません。自動回転と画像調整がオフになり、エンジンで、画像回転を修正する試みと PDF に含まれる画像の調整が行われなくなります。エクスポート・シナリオは最高速のモードに設定されます。最終的に、PDFImageOnly が有効になり、 PDF の作成時に認識が行われなくなります。これらの設定により、PDF の作成に必要な時間を大幅に短縮できます。これらの設定の一部のみが有効になるように調整できますが、認識時間が増加します。それどころか、検索可能な PDF を作成するために認識を有効にすると、時間が最大限増加します。