extraction de texte

Extraire du texte pour convertir des documents commerciaux de haute qualité en un format de fichier plus simple pouvant être utilisé par des modèles d'IA ou pour trouver et isoler des éléments d'information clés dans des documents tels que des contrats.

L'extraction de texte est très utile dans les cas où vous souhaitez extraire des entités spécifiques ou des catégories d'informations d'un document sur la base de sa structure.

Compatibilité et spécifications

Plateformes cloud

Types de fichiers d'entrée pris en charge

Vous pouvez extraire du texte de documents rédigés dans différentes langues, ou d'un document contenant un mélange de plusieurs langues. Extraire du texte à partir des types de fichiers suivants :

  • persistance gérée par le bean
  • DOC
  • DOCX
  • format GIF
  • langage HTML
  • JFIF
  • feuilles de route «Just Push Go»
  • Démarque
  • format PDF
  • Portable Network Graphics
  • Table des programmes d'applications
  • pptx
  • TIFF
  • XLSX
Remarque : vous ne pouvez pas utiliser l'API d'extraction de texte pour extraire des données de paires clé-valeur à partir de documents XLSX.
Types de fichiers de sortie pris en charge

Vous pouvez enregistrer le texte extrait dans les formats de fichiers suivants :

  • JavaScript Object Notation
  • Démarque
  • langage HTML
  • TXT

Pour plus d'informations sur le contenu du résultat extrait dans chaque type de fichier de sortie, voir Spécification du format de sortie.

Types de stockage pris en charge

Vous pouvez stocker vos documents d'entrée dans les types de stockage connectés suivants :

  • IBM Cloud Object Storage

  • Amazon S3

  • Tout stockage générique compatible avec Amazon S3

  • Zone

  • IBM watsonx.data SharePoint

  • IBM FileNet P8

    Remarque :La connexion IBM FileNet P8 n'est disponible que dans le centre de données de Toronto et pour un fournisseur de services cloud gérés (MCSP).

Vous pouvez stocker les fichiers de sortie de l'extraction de texte dans les types de stockage connectés suivants :

  • IBM Cloud Object Storage

  • Amazon S3

  • Tout stockage générique compatible avec Amazon S3

  • Zone

    Remarque :L'API d'extraction de texte est certifiée pour une utilisation avec le stockage d'objets génériques Amazon S3 - compatible MinIO.

Pour plus de détails sur la façon de créer une connexion aux différents types de magasins de données dans votre projet, voir Connecteurs pour watsonx.ai.

Modèles de fondations soutenus

L'API d'extraction de texte est certifiée pour utiliser le modèle mistral-small-3-1-24b-instruct-2503 pour l'extraction de paires clé-valeur et la verbalisation d'images. Vous pouvez également utiliser d'autres modèles capables de traiter des données visuelles et de répondre dans un format JSON, par exemple :

  • llama-4-maverick-17b-128e-instruct-fp8
  • mistral-medium-2505

Pour plus de détails sur le modèle de fondation, voir Modèles de fondation pris en charge.

Restrictions

  • Vous pouvez extraire du texte à partir de types de fichiers d'entrée spécifiques et stocker le résultat extrait dans certains types de fichiers. Tous les types de fichiers d'entrée ne peuvent pas être extraits dans tous les formats de sortie pris en charge. Le tableau suivant indique quel type de fichier d'entrée est compatible avec les différents formats de sortie :

    Compatibilité entre le type de fichier d'entrée et le format de sortie extrait pour l'API d'extraction de texte
    Type de fichier d'entrée Formats de fichiers de sortie compatibles
    PDF programmatique Tous les formats
    PDF scanné Tous les formats
    Avancée Tous les formats
    Fichier Microsoft PowerPoint Tous les formats
    Fichier Microsoft Word Tous les formats
    Démarque Tous les formats
    Fichier Microsoft Excel Markdown, JSON, texte brut
    fichier HTML Markdown, JSON, texte brut
  • La verbalisation d'images et l'extraction de paires clé-valeur ne sont prises en charge que pour les documents en anglais.

  • Les résultats d'une requête d'extraction de texte qui traite des paires clé-valeur ne sont disponibles que dans le format de sortie assembly . Les paires clé-valeur ne sont pas extraites dans les formats de sortie HTML, Markdown ou texte brut.

Façons de travailler

Ces méthodes programmatiques vous permettent d'extraire du texte des documents stockés dans votre projet watsonx.ai :

Pour configurer l'accès à l'API d'extraction de texte, voir les ressources pour les développeurs.

API REST

Vous pouvez extraire du texte des fichiers dans IBM watsonx.ai de manière programmatique en utilisant la méthode d'extraction de texte de l'API REST watsonx.ai.

Pour plus d'informations sur la personnalisation d'une demande d'extraction de texte, voir Paramètres d'extraction de texte.

Pour plus de détails sur les méthodes de l'API, voir la documentation de référence de l'API watsonx.ai.

Python

Vous pouvez extraire du texte de fichiers dans l' IBM watsonx.ai par programmation en utilisant la bibliothèque Python.

Voir la classe TextExtractionsV2 de la bibliothèque watsonx.ai Python.

Essayez l'exemple de carnet de notes : Utilisez le service d'extraction de texte watsonx.ai V2 pour extraire le texte d'un fichier.

Node.js

Vous pouvez extraire du texte de fichiers dans l' IBM watsonx.ai par programmation en utilisant le kit de développement logiciel (SDK) Node.js. Pour plus d'informations, voir les ressources suivantes :

Pour en savoir plus, consultez l'exemple de code.

En savoir plus