extraction de texte
Extraire du texte pour convertir des documents commerciaux de haute qualité en un format de fichier plus simple pouvant être utilisé par des modèles d'IA ou pour trouver et isoler des éléments d'information clés dans des documents tels que des contrats.
L'extraction de texte est très utile dans les cas où vous souhaitez extraire des entités spécifiques ou des catégories d'informations d'un document sur la base de sa structure.
Compatibilité et spécifications
- Plateformes cloud
- Types de fichiers d'entrée pris en charge
Vous pouvez extraire du texte de documents rédigés dans différentes langues, ou d'un document contenant un mélange de plusieurs langues. Extraire du texte à partir des types de fichiers suivants :
- persistance gérée par le bean
- DOC
- DOCX
- format GIF
- langage HTML
- JFIF
- feuilles de route «Just Push Go»
- Démarque
- format PDF
- Portable Network Graphics
- Table des programmes d'applications
- pptx
- TIFF
- XLSX
Remarque : vous ne pouvez pas utiliser l'API d'extraction de texte pour extraire des données de paires clé-valeur à partir de documents XLSX.- Types de fichiers de sortie pris en charge
Vous pouvez enregistrer le texte extrait dans les formats de fichiers suivants :
- JavaScript Object Notation
- Démarque
- langage HTML
- TXT
Pour plus d'informations sur le contenu du résultat extrait dans chaque type de fichier de sortie, voir Spécification du format de sortie.
- Types de stockage pris en charge
Vous pouvez stocker vos documents d'entrée dans les types de stockage connectés suivants :
IBM Cloud Object Storage
Amazon S3
Tout stockage générique compatible avec Amazon S3
Zone
IBM watsonx.data SharePoint
IBM FileNet P8
Remarque :La connexion IBM FileNet P8 n'est disponible que dans le centre de données de Toronto et pour un fournisseur de services cloud gérés (MCSP).
Vous pouvez stocker les fichiers de sortie de l'extraction de texte dans les types de stockage connectés suivants :
IBM Cloud Object Storage
Amazon S3
Tout stockage générique compatible avec Amazon S3
Zone
Remarque :L'API d'extraction de texte est certifiée pour une utilisation avec le stockage d'objets génériques Amazon S3 - compatible MinIO.
Pour plus de détails sur la façon de créer une connexion aux différents types de magasins de données dans votre projet, voir Connecteurs pour watsonx.ai.
- Modèles de fondations soutenus
L'API d'extraction de texte est certifiée pour utiliser le modèle
mistral-small-3-1-24b-instruct-2503pour l'extraction de paires clé-valeur et la verbalisation d'images. Vous pouvez également utiliser d'autres modèles capables de traiter des données visuelles et de répondre dans un format JSON, par exemple :llama-4-maverick-17b-128e-instruct-fp8mistral-medium-2505
Pour plus de détails sur le modèle de fondation, voir Modèles de fondation pris en charge.
Restrictions
Vous pouvez extraire du texte à partir de types de fichiers d'entrée spécifiques et stocker le résultat extrait dans certains types de fichiers. Tous les types de fichiers d'entrée ne peuvent pas être extraits dans tous les formats de sortie pris en charge. Le tableau suivant indique quel type de fichier d'entrée est compatible avec les différents formats de sortie :
Compatibilité entre le type de fichier d'entrée et le format de sortie extrait pour l'API d'extraction de texte Type de fichier d'entrée Formats de fichiers de sortie compatibles PDF programmatique Tous les formats PDF scanné Tous les formats Avancée Tous les formats Fichier Microsoft PowerPoint Tous les formats Fichier Microsoft Word Tous les formats Démarque Tous les formats Fichier Microsoft Excel Markdown, JSON, texte brut fichier HTML Markdown, JSON, texte brut La verbalisation d'images et l'extraction de paires clé-valeur ne sont prises en charge que pour les documents en anglais.
Les résultats d'une requête d'extraction de texte qui traite des paires clé-valeur ne sont disponibles que dans le format de sortie
assembly. Les paires clé-valeur ne sont pas extraites dans les formats de sortie HTML, Markdown ou texte brut.
Façons de travailler
Ces méthodes programmatiques vous permettent d'extraire du texte des documents stockés dans votre projet watsonx.ai :
Pour configurer l'accès à l'API d'extraction de texte, voir les ressources pour les développeurs.
API REST
Vous pouvez extraire du texte des fichiers dans IBM watsonx.ai de manière programmatique en utilisant la méthode d'extraction de texte de l'API REST watsonx.ai.
Pour plus d'informations sur la personnalisation d'une demande d'extraction de texte, voir Paramètres d'extraction de texte.
Pour plus de détails sur les méthodes de l'API, voir la documentation de référence de l'API watsonx.ai.
Python
Vous pouvez extraire du texte de fichiers dans l' IBM watsonx.ai par programmation en utilisant la bibliothèque Python.
Voir la classe TextExtractionsV2 de la bibliothèque watsonx.ai Python.
Essayez l'exemple de carnet de notes : Utilisez le service d'extraction de texte watsonx.ai V2 pour extraire le texte d'un fichier.
Node.js
Vous pouvez extraire du texte de fichiers dans l' IBM watsonx.ai par programmation en utilisant le kit de développement logiciel (SDK) Node.js. Pour plus d'informations, voir les ressources suivantes :
Pour en savoir plus, consultez l'exemple de code.