Trois choses séparent l’IA de LegalProd d’un chatbot juridique : un
moteur de recherche maison qui lit le droit à la source (LegalGraph),
une infrastructure hébergée en France qui ne journalise rien, et une
IA branchée sur votre cabinet qui agit — elle crée un contact, ouvre
un dossier, rédige depuis vos modèles. Voici comment.
01LegalGraph, notre moteur de recherche juridique
Avant de répondre, l’IA doit savoir sur quoi s’appuyer. LegalGraph est
notre moteur de recherche juridique propriétaire : il indexe le droit français et
européen à la source et combine cinq techniques de recherche pour retrouver la
norme réellement applicable — pas un texte « plausible ».
LegalGraph indexe toute la base juridique open source française —
plus des sources que Légifrance n’expose pas. Côté fonds Légifrance / DILA :
LEGI (codes & lois consolidés), JORF
(Journal officiel), KALI (conventions collectives),
ACCO (accords collectifs), CASS &
INCA (Cour de cassation), CAPP (cours d’appel),
JADE (juridictions administratives), CONSTIT
(Conseil constitutionnel), CNIL (délibérations),
DOLE (dossiers législatifs) et SARDE (référentiel
thématique). Au-delà de Légifrance : BODACC (annonces civiles et
commerciales), BOFIP (doctrine fiscale), HUDOC enrichi
(jurisprudence de la CEDH) et EUR-Lex / JURE
(droit et jurisprudence de l’Union européenne).
Et l’index est mis à jour quotidiennement : les nouvelles lois, les
décrets publiés au Journal officiel et les dernières décisions de justice sont intégrés
au fil de l’eau. L’IA travaille toujours sur le droit en vigueur, pas
sur une photographie figée à une date d’entraînement. Et rien n’est ré-indexé en
aveugle : chaque source ne déclenche qu’un diff — seul ce qui change
est retraité (voir l’architecture plus bas).
Chaque requête traverse un pipeline en plusieurs étages, puis tout est fusionné :
- Recherche lexicale (BM25) — le matching mot-à-mot classique, imbattable sur les références précises (numéro d’article, terme exact).
- Recherche sémantique dense (4096 dimensions) — comprend l’intention derrière la question, même sans le bon vocabulaire juridique.
- Autorité (PageRank) — fait remonter les textes et décisions les plus structurants, comme Google classe les pages qui font référence.
- Expansion par graphe de citations — à partir des décisions trouvées, on remonte le graphe pour exposer les articles fondateurs réellement cités.
- Fusion (RRF) + reclassement neuronal — les résultats des moteurs sont fusionnés puis re-triés par un cross-encoder pour ne garder que le plus pertinent.
Pourquoi « Graph » ?
Le droit est un réseau : une décision cite des articles, qui en citent d’autres.
LegalGraph modélise ces liens dans une base de graphe (Neo4j).
Résultat : à partir d’une
jurisprudence, il retrouve automatiquement les fondements légaux que cite la
décision — ce qu’une recherche par mots-clés rate systématiquement.
Sous le capot : l’architecture LegalGraph V2
LegalGraph V2 repose sur trois briques complémentaires : Neo4j
pour le graphe de citations, Qdrant pour la recherche vectorielle,
et Octen Embedding 8B, le modèle maison qui transforme chaque
texte en vecteur sémantique de 4096 dimensions.
On indexe des chunks, pas des fichiers entiers
Chaque texte est découpé en fragments (chunks), hashé, versionné, puis
indexé dans Qdrant avec son payload complet (références, source, dates,
liens). Qdrant ne stocke donc pas des documents entiers mais des
points de recherche : c’est ce qui permet de pointer l’IA sur le
passage exact d’un arrêt ou d’un article — pas sur un PDF de 80 pages.
Quand une source publie du neuf, l’ingestion ne ré-indexe jamais tout : elle part
du diff évoqué plus haut et déroule un pipeline en quatre temps.
- Détection du changement — un diff compare l’empreinte (hash) du texte à la version connue ; seul ce qui a réellement bougé est traité.
- Ingestion dans Neo4j — le nouveau nœud et ses citations sont ajoutés au graphe pour rester à jour.
- Embedding asynchrone — les chunks modifiés sont vectorisés par Octen 8B en tâche de fond, sans bloquer la recherche en cours.
- Activation dans Qdrant — une fois les vecteurs prêts, les points sont activés et deviennent interrogeables.
Les sources qui n’arrivent pas en texte propre — les accords collectifs
(ACCO) et les documents bureautiques — sont d’abord parsées via
LibreOffice / LiteParse pour en extraire un texte fiable avant
vectorisation. Au moment de la requête, ces briques alimentent le pipeline décrit
plus haut : BM25, dense vectoriel, graphe de citations, PageRank, fusion RRF
et reranking.
Pourquoi c’est meilleur qu’un connecteur MCP Légifrance
Il existe plusieurs connecteurs MCP open source vers Légifrance. Tous reposent sur le
même principe : ils branchent un assistant IA sur l’API officielle PISTE
et exposent le moteur de recherche natif de Légifrance — recherche par
mots-clés et par champs, filtres par date ou juridiction, tri par pertinence ou par date.
C’est précieux pour consulter un texte, mais cela reste un tuyau vers une API,
là où LegalGraph est un moteur de recherche à part entière.
Autre limite : un connecteur Légifrance s’arrête au fonds Légifrance.
LegalGraph agrège et unifie des sources que l’API PISTE n’expose pas — la doctrine
fiscale BOFIP, la jurisprudence de la CEDH (via
HUDOC), le droit de l’Union européenne (EUR-Lex / JURE)
et le BODACC.
| Critère | Connecteur MCP Légifrance | LegalGraph |
|---|---|---|
| Mode de recherche | Mots-clés & champs via l’API PISTE (temps réel) | Index hybride : lexical + sémantique + autorité + graphe |
| Compréhension sémantique | Limitée : il faut les bons termes / champs | ✓ vecteurs 4096-d : comprend l’intention |
| Liens entre textes | ✕ aucun graphe de citations | ✓ graphe de citations (article ⇄ jurisprudence) |
| Hiérarchisation | Tri natif Légifrance (pertinence / date) | PageRank + reclassement neuronal (cross-encoder) |
| Périmètre | Fonds Légifrance via l’API PISTE : LEGI, JORF, KALI, ACCO, CASS, INCA, CAPP, JADE, CONSTIT, CNIL, DOLE, SARDE | + sources hors API Légifrance : BODACC, BOFIP, CEDH (HUDOC), droit européen (EUR-Lex) |
| Résultat transmis à l’IA | Liste de résultats à trier | Sources fusionnées, reclassées et pré-qualifiées |
Concrètement : sur une question de vice caché, un connecteur MCP renvoie les
textes contenant ces mots. LegalGraph, lui, part des décisions de la Cour de cassation,
remonte le graphe de citations et fait émerger l’article 1641 du Code
civil parce qu’il est réellement cité par les arrêts pertinents — puis
reclasse l’ensemble. La différence entre « trouver des mots » et « trouver le droit
applicable ».
02Confidentialité & souveraineté : stockage et traitement séparés
Vos dossiers couvrent le secret professionnel. Deux questions comptent : où sont
stockées vos données et où sont-elles traitées. Chez LegalProd
ce sont deux briques distinctes — et c’est précisément ce qui protège vos affaires.
Vos données au repos → Scaleway, cloud souverain français
Vos dossiers, pièces, contacts et modèles (la GED) sont stockés chez
Scaleway, hébergeur 100 % français (groupe Iliad), soumis au seul
droit européen. Le CLOUD Act et le Patriot Act n’ont
aucune prise : l’État américain ne peut ni saisir, ni contraindre
Scaleway. Le secret professionnel reste protégé par le droit français.
Le traitement IA → Vertex AI, en mémoire et sans trace
Quand vous interrogez l’IA, seuls les extraits utiles sont envoyés à Claude via
Google Cloud Vertex AI (région de Paris), traités en mémoire vive,
puis effacés. Politique no-log : ni vos prompts ni les réponses ne
sont journalisés ou réutilisés pour entraîner les modèles.
Cette séparation neutralise le fameux risque de la loi extraterritoriale américaine.
D’un côté, aucune pièce de vos clients n’est stockée durablement chez un acteur
soumis au droit US — vos dossiers dorment en France, chez Scaleway. De l’autre,
le moteur le plus performant du marché traite vos demandes sans en garder la
moindre trace : même une injonction ne pourrait saisir des logs qui n’existent
pas. Vous gagnez la sécurité juridique du stockage et la puissance des
meilleurs modèles.
| IA « grand public » directe | IA LegalProd | |
|---|---|---|
| Stockage de vos dossiers | ✕ chez un acteur souvent US | ✓ Scaleway, cloud souverain français |
| Exposition au CLOUD Act (données stockées) | ✕ oui | ✓ nulle — hébergeur 100 % français |
| Traitement IA | Sur l’infra publique de l’éditeur | Vertex AI, en mémoire, région Paris |
| Journalisation des prompts | Possible / opaque | ✓ no-log — rien à saisir |
| Réutilisation pour l’entraînement | Selon les conditions | ✓ jamais |
| Conformité RGPD | À vérifier au cas par cas | ✓ par conception |
03Une IA connectée à tout votre cabinet
Une IA seule ne connaît rien de vos dossiers. La nôtre est branchée sur tout votre
SaaS : elle lit vos données (contacts, dossiers, GED, agenda…) et
agit à votre place — c’est ce qui la sépare d’un Claude « nu ».
Au cœur : Claude, le meilleur modèle du marché
Nous ne réinventons pas le moteur de raisonnement : nous utilisons
Claude d’Anthropic — toujours dans sa dernière et meilleure version —
aujourd’hui le modèle le plus performant pour le raisonnement juridique, la rédaction
et la rigueur. Selon votre besoin, c’est vous qui choisissez le modèle
à exécuter parmi Haiku, Sonnet et Opus.
La nuance ? Nous l’exécutons via
Vertex AI (cf. plus haut) et — surtout — nous lui donnons des
outils pour agir sur votre cabinet. C’est le meilleur cerveau, branché
sur vos mains.
Elle agit : plus de saisie manuelle
L’IA dispose de plus de 130 actions connectées à votre SaaS
(contacts, dossiers, GED, tâches, agenda, facturation, e-mails…). Au lieu de créer
vos fiches une par une, vous le demandez — elle le fait, directement dans l’outil.
« Crée-moi les fiches contact de tous les signataires de ce protocole. »
→ Elle lit le document, en extrait les parties, et crée chaque contact dans votre CRM. Zéro ressaisie.
« Ouvre un dossier pour ce nouveau litige et planifie l’audience du 14. »
→ Elle crée le dossier, l’événement à l’agenda et la tâche associée, le tout relié au bon client.
Elle s’enrichit : votre GED devient son contexte
L’autre sens est tout aussi puissant. Posez-lui une question, et avant de répondre,
elle peut aller fouiller votre propre base documentaire (GED) :
modèles, dossiers similaires, pièces déjà rédigées. Elle ne part jamais d’une page
blanche — elle s’appuie sur le savoir-faire de votre cabinet.
« Rédige-moi une mise en demeure pour ce dossier. »
→ Elle cherche dans votre GED les modèles et mises en demeure similaires déjà produits, s’en inspire pour le style et la structure, puis rédige une version adaptée au dossier en cours.
« Quelle stratégie a-t-on adoptée sur les dossiers de ce type ? »
→ Elle parcourt les dossiers comparables, lit les pièces, et synthétise l’approche de votre cabinet — pas une réponse générique d’internet.
La boucle vertueuse
LegalGraph apporte le droit, votre GED apporte votre savoir-faire, et Claude
orchestre le tout en lisant et en agissant. Plus vous travaillez,
plus l’IA devient le reflet de votre cabinet.
04Les bénéfices en plus : analyses mutualisées, budget maîtrisé
Quand elle analyse une pièce, son analyse devient accessible à tout le
cabinet. L’IA peut la ranger directement dans le bon dossier client — et,
dans tous les cas, vous la classez dans le dossier en un clic ou la
partagez à une personne précise en un clic. Du coup, si un confrère a
déjà fait décortiquer un contrat la semaine dernière, vous récupérez son analyse en une
question — au lieu de la refaire.
« Analyse les pièces de ce nouveau dossier. »
→ Elle lit chaque fichier et en fait la synthèse. Vous la classez dans le dossier en un clic, ou la partagez à un collaborateur précis tout aussi vite. La prochaine personne qui ouvre le dossier a déjà l’analyse sous les yeux.
« Qu’a donné l’analyse de ce contrat ? »
→ Un collaborateur l’a déjà fait analyser : l’IA réutilise son travail au lieu de relancer une analyse. La même pièce n’est traitée qu’une seule fois — côté budget, vous ne payez jamais deux fois le même travail.
Résultat : l’analyse d’une pièce devient un actif partagé, pas une
dépense qui se répète. Plus le cabinet travaille, plus la base d’analyses s’enrichit —
et plus la facture d’IA baisse, puisque rien n’est traité deux fois.
Des fonctionnalités que les autres outils n’ont pas
Au-delà de l’analyse, l’IA de LegalProd regorge de possibilités qu’on ne trouve pas
partout — et beaucoup restent à découvrir et à tester :
- Prompts en file d’attente — enchaînez vos demandes : l’IA les traite l’une après l’autre, sans que vous ayez à rester devant l’écran.
- Prompts en parallèle — lancez plusieurs discussions en même temps ; chacune avance de son côté pendant que vous faites autre chose.
- Et tout le reste — un ensemble de fonctionnalités à explorer, pensées pour les avocats et pour votre façon de travailler.
Moins de temps, moins de budget, plus de puissance
Une pièce analysée une fois pour tout le cabinet, des prompts qui tournent en file
d’attente ou en parallèle pendant que vous plaidez : l’IA travaille en continu, et
chaque euro investi sert plusieurs fois.

