extraction de texte

Extraire du texte pour convertir des documents commerciaux de haute qualité en un format de fichier plus simple pouvant être utilisé par des modèles d'IA ou pour trouver et isoler des éléments d'information clés dans des documents tels que des contrats.

L'extraction de texte est très utile dans les cas où vous souhaitez extraire des entités spécifiques ou des catégories d'informations d'un document sur la base de sa structure.

Compatibilité et spécifications

Plateformes cloud

Types de fichiers d'entrée pris en charge

Vous pouvez extraire du texte de documents rédigés dans différentes langues, ou d'un document contenant un mélange de plusieurs langues. Extraire du texte à partir des types de fichiers suivants :

persistance gérée par le bean
DOC
DOCX
format GIF
langage HTML
JFIF
feuilles de route «Just Push Go»
Démarque
format PDF
Portable Network Graphics
Table des programmes d'applications
pptx
TIFF
XLSX

Remarque : vous ne pouvez pas utiliser l'API d'extraction de texte pour extraire des données de paires clé-valeur à partir de documents XLSX.

Types de fichiers de sortie pris en charge

Vous pouvez enregistrer le texte extrait dans les formats de fichiers suivants :

JavaScript Object Notation
Démarque
langage HTML
TXT

Pour plus d'informations sur le contenu du résultat extrait dans chaque type de fichier de sortie, voir Spécification du format de sortie.

Types de stockage pris en charge

Vous pouvez stocker vos documents d'entrée dans les types de stockage connectés suivants :

IBM Cloud Object Storage
Amazon S3
Tout stockage générique compatible avec Amazon S3
Zone
IBM watsonx.data SharePoint
IBM FileNet P8

Remarque :La connexion IBM FileNet P8 n'est disponible que dans le centre de données de Toronto et pour un fournisseur de services cloud gérés (MCSP).

Vous pouvez stocker les fichiers de sortie de l'extraction de texte dans les types de stockage connectés suivants :

IBM Cloud Object Storage
Amazon S3
Tout stockage générique compatible avec Amazon S3
Zone

Remarque :L'API d'extraction de texte est certifiée pour une utilisation avec le stockage d'objets génériques Amazon S3 - compatible MinIO.

Pour plus de détails sur la façon de créer une connexion aux différents types de magasins de données dans votre projet, voir Connecteurs pour watsonx.ai.

Modèles de fondations soutenus

L'API d'extraction de texte est certifiée pour utiliser le modèle mistral-small-3-1-24b-instruct-2503 pour l'extraction de paires clé-valeur et la verbalisation d'images. Vous pouvez également utiliser d'autres modèles capables de traiter des données visuelles et de répondre dans un format JSON, par exemple :

llama-4-maverick-17b-128e-instruct-fp8
mistral-medium-2505

Pour plus de détails sur le modèle de fondation, voir Modèles de fondation pris en charge.

Restrictions

Vous pouvez extraire du texte à partir de types de fichiers d'entrée spécifiques et stocker le résultat extrait dans certains types de fichiers. Tous les types de fichiers d'entrée ne peuvent pas être extraits dans tous les formats de sortie pris en charge. Le tableau suivant indique quel type de fichier d'entrée est compatible avec les différents formats de sortie :

Compatibilité entre le type de fichier d'entrée et le format de sortie extrait pour l'API d'extraction de texte
Type de fichier d'entrée	Formats de fichiers de sortie compatibles
PDF programmatique	Tous les formats
PDF scanné	Tous les formats
Avancée	Tous les formats
Fichier Microsoft PowerPoint	Tous les formats
Fichier Microsoft Word	Tous les formats
Démarque	Tous les formats
Fichier Microsoft Excel	Markdown, JSON, texte brut
fichier HTML	Markdown, JSON, texte brut

La verbalisation d'images et l'extraction de paires clé-valeur ne sont prises en charge que pour les documents en anglais.
Les résultats d'une requête d'extraction de texte qui traite des paires clé-valeur ne sont disponibles que dans le format de sortie assembly . Les paires clé-valeur ne sont pas extraites dans les formats de sortie HTML, Markdown ou texte brut.

Façons de travailler

Ces méthodes programmatiques vous permettent d'extraire du texte des documents stockés dans votre projet watsonx.ai :

API REST
Python
Node.js

Pour configurer l'accès à l'API d'extraction de texte, voir les ressources pour les développeurs.

API REST

Vous pouvez extraire du texte des fichiers dans IBM watsonx.ai de manière programmatique en utilisant la méthode d'extraction de texte de l'API REST watsonx.ai.

Pour plus d'informations sur la personnalisation d'une demande d'extraction de texte, voir Paramètres d'extraction de texte.

Pour plus de détails sur les méthodes de l'API, voir la documentation de référence de l'API watsonx.ai.

Python

Vous pouvez extraire du texte de fichiers dans l' IBM watsonx.ai par programmation en utilisant la bibliothèque Python.

Voir la classe TextExtractionsV2 de la bibliothèque watsonx.ai Python.

Essayez l'exemple de carnet de notes : Utilisez le service d'extraction de texte watsonx.ai V2 pour extraire le texte d'un fichier.

Node.js

Vous pouvez extraire du texte de fichiers dans l' IBM watsonx.ai par programmation en utilisant le kit de développement logiciel (SDK) Node.js. Pour plus d'informations, voir les ressources suivantes :

Pour en savoir plus, consultez l'exemple de code.