Tutoriel

Azure Document Intelligence

Extraire des données de PDF/Word vers une base de données avec Azure Document Intelligence

Automatisez l’import de données depuis des PDF ou Word vers SharePoint grâce à Azure Document Intelligence et Power Automate.

Elian QUESNEL

24/6/2025

Extraire des données de PDF/Word vers une base de données avec Azure Document Intelligence

Partager l'article

Un projet sur la suite Power Platform ?

Dynamiser mon activité

Résumer cet article avec une IA

L’import de données depuis des fichiers non structurés comme PDF ou Word n’a jamais été facile, mais Azure Document Intelligence et Power Automate offrent une solution puissante pour automatiser ce processus.

Ce guide explique étape par étape comment extraire les données d’un document PDF et les intégrer dans une liste SharePoint, simplifiant ainsi les flux de travail pour divers scénarios professionnels.

‍

Prérequis :

- Abonnement Azure avec une ressource Document Intelligence

- Licence Power Automate ( Premium pour les connecteurs HTTP)

- Site Sharepoint avec une ou plusieurs listes cibles

- Fichiers PDF stockés dans Sharepoint ou OneDrive

‍

Guide étape par étape.

Étape 1 : Configurer une ressource Azure Document Intelligence

Créez une ressource Document Intelligence dans le portail Azure pour traiter vos PDF.

1. Connectez-vous au Portail Azure.

2. Créez une nouvelle ressource Document Intelligence.

‍

Notez le point de terminaison ( https://<votre-ressource>.cognitiveservices.azure.com/) et la clé 1 API dans la section "Clés et point de terminaison", puis accéder au Studio Document Intelligence.

Choisir un modèle prédéfini ou créer votre propre modèle personnalisé, c’est notre cas car nos documents ne sont pas des documents universels comme les factures.

Créer un nouveau modèle personnalisé.

Entraînez un modèle personnalisé dans Document Intelligence Studio pour reconnaître les champs de vos PDF (par exemple, texte, tableaux, cases à cocher).

Le statut du modèle personnalisé doit être réussi.

Étape 2 : Créer un flux Power Automate et analyse de données de document intelligence.

1. Accédez à Power Automate et créez un nouveau flux cloud automatisé.

2. Choisissez le déclencheur "Lorsqu’un fichier est créé (OneDrive for Business)" ou "Lorsqu’un fichier est créé dans un dossier (SharePoint)".

3. Ajoutez l’action "Obtenir le contenu du fichier" (connecteur OneDrive/SharePoint).

4. Sélectionnez l’identifiant du fichier à partir du contenu dynamique du déclencheur (ex. : "Identifiant du fichier").

5. Ajoutez une action "HTTP" (connecteur Premium).

6. Configurez :

Méthode : POST

URL :

- En-têtes :

Ocp-Apim-Subscription-Key: <votre-clé-api>

Content-Type: application/json

‍

7. Analysez l’en-tête "Operation-Location" de la réponse pour interroger les résultats.

8. Ajoutez une action "Délai" (ex. : 5-10 secondes) pour attendre la fin du traitement.

9. Ajoutez une action "HTTP" :

Méthode : GET
URI : Contenu dynamique de l’en-tête "Operation-Location" de l’action HTTP précédente.
En-têtes :

Ocp-Apim-Subscription-Key: <votre-clé-api>

10. Ajoutez une action "Analyser JSON".

11. Définissez le contenu sur le corps de la deuxième action HTTP.

12. Fournissez un schéma JSON basé sur la structure de la réponse de Document Intelligence (ex. : champs, tableaux). Utilisez une réponse d’exemple pour générer le schéma.

13. Ajoutez une action "Appliquer à chacun" pour itérer sur les documents : body('Parse_JSON_2')?['analyzeResult']?['documents'].

14. À l’intérieur, ajoutez des actions "Composer" pour créer des objets JSON correspondant aux champs de la liste (ex. : champs texte, nombres).

15. Utilisez "Filtrer le tableau" pour traiter les données tabulaires (ex. : inclure uniquement les lignes avec des valeurs spécifiques).

16. Ajoutez "Sélectionner" pour reformater les tableaux en objets JSON adaptés aux colonnes SharePoint.

17. Ajoutez une action "Créer un élément".

18. Définissez l’adresse du site SharePoint et le nom de la liste.

19. Mappez les colonnes de la liste avec le contenu dynamique des actions "Composer" ou "Sélectionner".

20. Pour les relations (ex. : colonnes de recherche), utilisez les ID des éléments parents créés précédemment.

Conseils

Sécurité : Vous pouvez utiliser Azure Key Vault pour stocker les clés API pour une meilleure sécurité.
Gestion des erreurs : Consultez les journaux d’exécution pour diagnostiquer les problèmes, vous pouvez même ajouter des listes SharePoint de logs ou envoi de mail en cas d’erreurs.
Performance : Ajustez le délai de polling pour les PDF volumineux.
Précision extraction : Retraînez votre modèle Document Intelligence si l’extraction des données est inexacte et analysez le score de chaque donnée.

Conclusion

En combinant Azure Document Intelligence et Power Automate, vous pouvez automatiser l’extraction de données à partir de PDF non structurés et leur intégration dans une liste SharePoint, cette méthode vous aide à réduire les tâches manuelles.

Ce flux est flexible et peut être adapté à différents formats de PDF et structures de listes.

‍

Un projet sur la suite Power Platform ?

Faites-nous part des défis de votre entreprise et nous vous aideront à dynamiser votre activité grâce à la Power Platform

Votre message a bien été envoyé !

Une erreur s'est produite, veuillez réessayer l'opération.

D'autres articles à ce sujet

Tous nos contenus