Dev

Comment rechercher des informations dans vos fichiers PDF avec LangChain ? (2/4)

Nov 18, 2024

Ferenc
Si vous arrivez directement sur ce second article de notre série sur LangChain, nous vous invitons à lire l’article précédent qui introduit les notions clés à la compréhension de cet article.
Pour illustrer le fonctionnement d’une chaîne dans LangChain, nous vous proposons de concevoir un chatbot permettant de répondre à des questions sur le contenu d’un fichier PDF.
De notre côté, nous nous sommes basés sur un modèle GTP-4 déployé dans Azure AI Studio.
Dans un premier temps, il nous faut lire le fichier pdf que l’on souhaite analyser. Cette petite méthode nous permettra d’arriver à nos fins :

Maintenant que l’on a obtenu le contenu du fichier à traiter, nous devons le passer à notre modèle d’IA afin de pouvoir lui poser des questions.

Nous commençons par créer une chaîne qui permettra de réaliser toute l’action :

On instancie ensuite la chaîne :

Ici chat_model est une instance de AzureChatOpenAI qu’il vous faudra définir.

Puis nous créons deux méthodes pour englober le tout :
Désormais nous pouvons obtenir un résumé du document :

content=”Ceci est le résumé de mon document qui contient des informations sur un sujet en particulier.”

Nous pouvons également lui poser des questions :

Voici les informations de contact des personnes mentionnées dans le document :

  1. Établissement : CLIENT
    • Adresse : 27 bis rue de LangChain 75001 DCUBECITY
    • Téléphone : 01 02 03 04 05
    • Email : langchain@dcube.fr
    • Représenté légalement par : Mr Développeur, Chargé des développements
    • Email de Mr Développeur: developpeur@dcube.fr
    • Téléphone de Mr Développeur : 05 04 03 02 01
  2. Entreprise : dcube
    • Adresse : 4 avenue Desfeux 92100 BOULOGNE-BILLANCOURT
    • SIRET : 01234567891234
    • APE : 1234A
    • Téléphone : 0102030405
    • Représenté légalement par : Damien DORISON, Dirigeant

Et si vous aviez oublié quelle était votre dernière question :

Votre dernière question était : “Quelles sont les informations de contact de toutes les personnes mentionnées sur le document?”

TA-DA 🎉
Vous savez désormais comment faire une chaîne pour obtenir des informations sur un document PDF !
Vous pouvez retrouver un notebook sur le GitHub de dcube avec tout le code pour refaire ce projet ⬇️
Rendez-vous au prochain article de notre série déchaînée pour apprendre à faire communiquer votre chaîne avec vos API !

0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Découvrez nos autres articles

Aller au contenu principal