Wie funktioniert die KI von LegalProd?

Trois choses séparent l’IA de LegalProd d’un chatbot juridique : un
moteur de recherche maison qui lit le droit à la source (LegalGraph),
une infrastructure hébergée en France qui ne journalise rien, et une
IA branchée sur votre cabinet qui agit — elle crée un contact, ouvre
un dossier, rédige depuis vos modèles. Voici comment.

01LegalGraph, notre moteur de recherche juridique

Avant de répondre, l’IA doit savoir sur quoi s’appuyer. LegalGraph est
notre moteur de recherche juridique propriétaire : il indexe le droit français et
européen à la source et combine cinq techniques de recherche pour retrouver la
norme réellement applicable — pas un texte « plausible ».

+6 M

documents juridiques indexés

sources officielles couvertes

4096-d

dimensions par vecteur sémantique

4+1

moteurs fusionnés & reclassés

LegalGraph indexe toute la base juridique open source française —
plus des sources que Légifrance n’expose pas. Côté fonds Légifrance / DILA :
LEGI (codes & lois consolidés), JORF
(Journal officiel), KALI (conventions collectives),
ACCO (accords collectifs), CASS &
INCA (Cour de cassation), CAPP (cours d’appel),
JADE (juridictions administratives), CONSTIT
(Conseil constitutionnel), CNIL (délibérations),
DOLE (dossiers législatifs) et SARDE (référentiel
thématique). Au-delà de Légifrance : BODACC (annonces civiles et
commerciales), BOFIP (doctrine fiscale), HUDOC enrichi
(jurisprudence de la CEDH) et EUR-Lex / JURE
(droit et jurisprudence de l’Union européenne).

Et l’index est mis à jour quotidiennement : les nouvelles lois, les
décrets publiés au Journal officiel et les dernières décisions de justice sont intégrés
au fil de l’eau. L’IA travaille toujours sur le droit en vigueur, pas
sur une photographie figée à une date d’entraînement. Et rien n’est ré-indexé en
aveugle : chaque source ne déclenche qu’un diff — seul ce qui change
est retraité (voir l’architecture plus bas).

Chaque requête traverse un pipeline en plusieurs étages, puis tout est fusionné :

Recherche lexicale (BM25) — le matching mot-à-mot classique, imbattable sur les références précises (numéro d’article, terme exact).
Recherche sémantique dense (4096 dimensions) — comprend l’intention derrière la question, même sans le bon vocabulaire juridique.
Autorité (PageRank) — fait remonter les textes et décisions les plus structurants, comme Google classe les pages qui font référence.
Expansion par graphe de citations — à partir des décisions trouvées, on remonte le graphe pour exposer les articles fondateurs réellement cités.
Fusion (RRF) + reclassement neuronal — les résultats des moteurs sont fusionnés puis re-triés par un cross-encoder pour ne garder que le plus pertinent.

🕸️

Pourquoi « Graph » ?
Le droit est un réseau : une décision cite des articles, qui en citent d’autres.
LegalGraph modélise ces liens dans une base de graphe (Neo4j).
Résultat : à partir d’une
jurisprudence, il retrouve automatiquement les fondements légaux que cite la
décision — ce qu’une recherche par mots-clés rate systématiquement.

Sous le capot : l’architecture LegalGraph V2

LegalGraph V2 repose sur trois briques complémentaires : Neo4j
pour le graphe de citations, Qdrant pour la recherche vectorielle,
et Octen Embedding 8B, le modèle maison qui transforme chaque
texte en vecteur sémantique de 4096 dimensions.

Neo4j

base de graphe : citations article ⇄ jurisprudence

Qdrant

recherche vectorielle sur les points / chunks indexés

Octen 8B

embeddings 4096-d, le sens de chaque chunk

🧩

On indexe des chunks, pas des fichiers entiers
Chaque texte est découpé en fragments (chunks), hashé, versionné, puis
indexé dans Qdrant avec son payload complet (références, source, dates,
liens). Qdrant ne stocke donc pas des documents entiers mais des
points de recherche : c’est ce qui permet de pointer l’IA sur le
passage exact d’un arrêt ou d’un article — pas sur un PDF de 80 pages.

Quand une source publie du neuf, l’ingestion ne ré-indexe jamais tout : elle part
du diff évoqué plus haut et déroule un pipeline en quatre temps.

Détection du changement — un diff compare l’empreinte (hash) du texte à la version connue ; seul ce qui a réellement bougé est traité.
Ingestion dans Neo4j — le nouveau nœud et ses citations sont ajoutés au graphe pour rester à jour.
Embedding asynchrone — les chunks modifiés sont vectorisés par Octen 8B en tâche de fond, sans bloquer la recherche en cours.
Activation dans Qdrant — une fois les vecteurs prêts, les points sont activés et deviennent interrogeables.

Les sources qui n’arrivent pas en texte propre — les accords collectifs
(ACCO) et les documents bureautiques — sont d’abord parsées via
LibreOffice / LiteParse pour en extraire un texte fiable avant
vectorisation. Au moment de la requête, ces briques alimentent le pipeline décrit
plus haut : BM25, dense vectoriel, graphe de citations, PageRank, fusion RRF
et reranking.

Pourquoi c’est meilleur qu’un connecteur MCP Légifrance

Il existe plusieurs connecteurs MCP open source vers Légifrance. Tous reposent sur le
même principe : ils branchent un assistant IA sur l’API officielle PISTE
et exposent le moteur de recherche natif de Légifrance — recherche par
mots-clés et par champs, filtres par date ou juridiction, tri par pertinence ou par date.
C’est précieux pour consulter un texte, mais cela reste un tuyau vers une API,
là où LegalGraph est un moteur de recherche à part entière.

Autre limite : un connecteur Légifrance s’arrête au fonds Légifrance.
LegalGraph agrège et unifie des sources que l’API PISTE n’expose pas — la doctrine
fiscale BOFIP, la jurisprudence de la CEDH (via
HUDOC), le droit de l’Union européenne (EUR-Lex / JURE)
et le BODACC.

Critère	Connecteur MCP Légifrance	LegalGraph
Mode de recherche	Mots-clés & champs via l’API PISTE (temps réel)	Index hybride : lexical + sémantique + autorité + graphe
Compréhension sémantique	Limitée : il faut les bons termes / champs	✓ vecteurs 4096-d : comprend l’intention
Liens entre textes	✕ aucun graphe de citations	✓ graphe de citations (article ⇄ jurisprudence)
Hiérarchisation	Tri natif Légifrance (pertinence / date)	PageRank + reclassement neuronal (cross-encoder)
Périmètre	Fonds Légifrance via l’API PISTE : LEGI, JORF, KALI, ACCO, CASS, INCA, CAPP, JADE, CONSTIT, CNIL, DOLE, SARDE	+ sources hors API Légifrance : BODACC, BOFIP, CEDH (HUDOC), droit européen (EUR-Lex)
Résultat transmis à l’IA	Liste de résultats à trier	Sources fusionnées, reclassées et pré-qualifiées

Concrètement : sur une question de vice caché, un connecteur MCP renvoie les
textes contenant ces mots. LegalGraph, lui, part des décisions de la Cour de cassation,
remonte le graphe de citations et fait émerger l’article 1641 du Code
civil parce qu’il est réellement cité par les arrêts pertinents — puis
reclasse l’ensemble. La différence entre « trouver des mots » et « trouver le droit
applicable ».

02Confidentialité & souveraineté : stockage et traitement séparés

Vos dossiers couvrent le secret professionnel. Deux questions comptent : où sont
stockées vos données et où sont-elles traitées. Chez LegalProd
ce sont deux briques distinctes — et c’est précisément ce qui protège vos affaires.

Scaleway

vos dossiers stockés en France, cloud souverain

log de vos requêtes — rien n’est conservé côté modèle

RGPD

hébergement & traitement sous droit européen

🇫🇷

Vos données au repos → Scaleway, cloud souverain français
Vos dossiers, pièces, contacts et modèles (la GED) sont stockés chez
Scaleway, hébergeur 100 % français (groupe Iliad), soumis au seul
droit européen. Le CLOUD Act et le Patriot Act n’ont
aucune prise : l’État américain ne peut ni saisir, ni contraindre
Scaleway. Le secret professionnel reste protégé par le droit français.

⚡

Le traitement IA → Vertex AI, en mémoire et sans trace
Quand vous interrogez l’IA, seuls les extraits utiles sont envoyés à Claude via
Google Cloud Vertex AI (région de Paris), traités en mémoire vive,
puis effacés. Politique no-log : ni vos prompts ni les réponses ne
sont journalisés ou réutilisés pour entraîner les modèles.

Cette séparation neutralise le fameux risque de la loi extraterritoriale américaine.
D’un côté, aucune pièce de vos clients n’est stockée durablement chez un acteur
soumis au droit US — vos dossiers dorment en France, chez Scaleway. De l’autre,
le moteur le plus performant du marché traite vos demandes sans en garder la
moindre trace : même une injonction ne pourrait saisir des logs qui n’existent
pas. Vous gagnez la sécurité juridique du stockage et la puissance des
meilleurs modèles.

	IA « grand public » directe	IA LegalProd
Stockage de vos dossiers	✕ chez un acteur souvent US	✓ Scaleway, cloud souverain français
Exposition au CLOUD Act (données stockées)	✕ oui	✓ nulle — hébergeur 100 % français
Traitement IA	Sur l’infra publique de l’éditeur	Vertex AI, en mémoire, région Paris
Journalisation des prompts	Possible / opaque	✓ no-log — rien à saisir
Réutilisation pour l’entraînement	Selon les conditions	✓ jamais
Conformité RGPD	À vérifier au cas par cas	✓ par conception

03Une IA connectée à tout votre cabinet

Une IA seule ne connaît rien de vos dossiers. La nôtre est branchée sur tout votre
SaaS : elle lit vos données (contacts, dossiers, GED, agenda…) et
agit à votre place — c’est ce qui la sépare d’un Claude « nu ».

Au cœur : Claude, le meilleur modèle du marché

Nous ne réinventons pas le moteur de raisonnement : nous utilisons
Claude d’Anthropic — toujours dans sa dernière et meilleure version —
aujourd’hui le modèle le plus performant pour le raisonnement juridique, la rédaction
et la rigueur. Selon votre besoin, c’est vous qui choisissez le modèle
à exécuter parmi Haiku, Sonnet et Opus.
La nuance ? Nous l’exécutons via
Vertex AI (cf. plus haut) et — surtout — nous lui donnons des
outils pour agir sur votre cabinet. C’est le meilleur cerveau, branché
sur vos mains.

Elle agit : plus de saisie manuelle

L’IA dispose de plus de 130 actions connectées à votre SaaS
(contacts, dossiers, GED, tâches, agenda, facturation, e-mails…). Au lieu de créer
vos fiches une par une, vous le demandez — elle le fait, directement dans l’outil.

L’IA agit

« Crée-moi les fiches contact de tous les signataires de ce protocole. »

→ Elle lit le document, en extrait les parties, et crée chaque contact dans votre CRM. Zéro ressaisie.

L’IA agit

« Ouvre un dossier pour ce nouveau litige et planifie l’audience du 14. »

→ Elle crée le dossier, l’événement à l’agenda et la tâche associée, le tout relié au bon client.

Elle s’enrichit : votre GED devient son contexte

L’autre sens est tout aussi puissant. Posez-lui une question, et avant de répondre,
elle peut aller fouiller votre propre base documentaire (GED) :
modèles, dossiers similaires, pièces déjà rédigées. Elle ne part jamais d’une page
blanche — elle s’appuie sur le savoir-faire de votre cabinet.

L’IA s’enrichit

« Rédige-moi une mise en demeure pour ce dossier. »

→ Elle cherche dans votre GED les modèles et mises en demeure similaires déjà produits, s’en inspire pour le style et la structure, puis rédige une version adaptée au dossier en cours.

L’IA s’enrichit

« Quelle stratégie a-t-on adoptée sur les dossiers de ce type ? »

→ Elle parcourt les dossiers comparables, lit les pièces, et synthétise l’approche de votre cabinet — pas une réponse générique d’internet.

⚡

La boucle vertueuse
LegalGraph apporte le droit, votre GED apporte votre savoir-faire, et Claude
orchestre le tout en lisant et en agissant. Plus vous travaillez,
plus l’IA devient le reflet de votre cabinet.

04Les bénéfices en plus : analyses mutualisées, budget maîtrisé

Quand elle analyse une pièce, son analyse devient accessible à tout le
cabinet. L’IA peut la ranger directement dans le bon dossier client — et,
dans tous les cas, vous la classez dans le dossier en un clic ou la
partagez à une personne précise en un clic. Du coup, si un confrère a
déjà fait décortiquer un contrat la semaine dernière, vous récupérez son analyse en une
question — au lieu de la refaire.

1 fois

chaque pièce analysée une seule fois, jamais deux

Mutualisé

le travail d’un collaborateur profite à tout le cabinet

Budget

maîtrisé : aucune analyse payée ni refaite en double

L’IA agit

« Analyse les pièces de ce nouveau dossier. »

→ Elle lit chaque fichier et en fait la synthèse. Vous la classez dans le dossier en un clic, ou la partagez à un collaborateur précis tout aussi vite. La prochaine personne qui ouvre le dossier a déjà l’analyse sous les yeux.

L’IA mutualise

« Qu’a donné l’analyse de ce contrat ? »

→ Un collaborateur l’a déjà fait analyser : l’IA réutilise son travail au lieu de relancer une analyse. La même pièce n’est traitée qu’une seule fois — côté budget, vous ne payez jamais deux fois le même travail.

Résultat : l’analyse d’une pièce devient un actif partagé, pas une
dépense qui se répète. Plus le cabinet travaille, plus la base d’analyses s’enrichit —
et plus la facture d’IA baisse, puisque rien n’est traité deux fois.

Des fonctionnalités que les autres outils n’ont pas

Au-delà de l’analyse, l’IA de LegalProd regorge de possibilités qu’on ne trouve pas
partout — et beaucoup restent à découvrir et à tester :

Prompts en file d’attente — enchaînez vos demandes : l’IA les traite l’une après l’autre, sans que vous ayez à rester devant l’écran.
Prompts en parallèle — lancez plusieurs discussions en même temps ; chacune avance de son côté pendant que vous faites autre chose.
Et tout le reste — un ensemble de fonctionnalités à explorer, pensées pour les avocats et pour votre façon de travailler.

💡

Moins de temps, moins de budget, plus de puissance
Une pièce analysée une fois pour tout le cabinet, des prompts qui tournent en file
d’attente ou en parallèle pendant que vous plaidez : l’IA travaille en continu, et
chaque euro investi sert plusieurs fois.