Outil d'aide au déchiffrage d'acte

105rn · August 17, 2025, 3:07pm

Existe-t-il un addon pour aider à la transcription d’un acte ?
Fonction équivalente à transcript ou GenScriber (que je n’ai pas essayés car fonction intégrée à mon logiciel actuel)
J’ai regardé la liste des addons, je n’ai pas trouvé ..
Merci

ursus · August 17, 2025, 4:43pm

Pour Windows, j’utilise Genscriber.
Vous le trouverez sur

https://genscriber.com/download/Windows/genscriber_272_win64.zip

Je ne sais pas s’il existe un plugin.

PLegoux · August 17, 2025, 8:21pm

Vois peut-être si l’addon WebSearch, qui permet de s’interconnecter à une IA, peut faire ça (??)

105rn · August 17, 2025, 8:38pm

Merci,
s’il n’existe pas de plugin, ce sera l’occasion de tester Genscriber

105rn · August 17, 2025, 8:42pm

Bah, je ne voulais pas parler d’une IA pour retranscrire un texte manuscrit (comme l’annonce Généatique)
Mais d’un “simple” utilitaire permettant de zoomer, changer le contraste, .. d’un acte avec une fenêtre pour saisir la transcription sans avoir à faire des aller/retour incessants ..
Mais merci pour l’info sur l’IA, ça peut toujours servir !

romjerome · August 18, 2025, 12:12pm

J’utilise transkribus :

puis, si besoin d’un formatage spécifique pour saisir les données dans Gramps, j’utilise une IA (des “instructions/prompts”) afin de générer un tableur ou séparer les données.

PLegoux · August 18, 2025, 6:00pm

Hello Jérôme

Tu aurais pas un petit tuto qui traine ?

Edit: Ah je viens de voir le fil sur un addon Transkribus auquel tu as répondu. Je vais suivre ça

romjerome · August 20, 2025, 1:38pm

En suivant quelques liens, on découvre des projets liés (ou des interfaces alternatives à Transkribus). Certains sont intéressants pour les généalogistes et l’indexation des données nominatives en France métropolitaine.

etc.

romjerome · August 21, 2025, 6:02am

En fait, j’utilise Transkribus car certains modèles sont très performants avec la langue allemande. Certaines périodes historiques nécessitent un déchiffrage long et fastidieux.

L’IA générative prenant parfois trop de libertés ou semble malheureusement nourrie à la sémantique des écoles de commerce… Je passais plus de temps à corriger les hallucinations. Certes, cela peut être amusant de découvrir un texte romancé, sauf quand on fait des recherches généalogiques via des pistes factuelles.

Dans gramps, mes besoins se limitaient à une aide à la transcription (et traduction dans le cas de l’allemand). Un petit gramplet ou outil, une API ouverte et une clé d’API (ou ACCESS_TOKEN) suffisaient à mon bonheur.

Puis en creusant un peu le sujet, je suis tombé sur cette vidéo:

Cool ! Tout un écosystème en python et bases de données au format SQLite, export aux formats json ou texte…

Environnement sans doute bien adapté pour le français, le norvégien, peut être l’espagnol, le suédois et l’anglais (les déductions ne sont pas le privilège de l’IA…). La reconnaissance des lettres devrait également bien fonctionner avec l’italien ou le portugais. Il me manque quand même une belle référence à l’allemand (Allemagne, Autriche, Suisse, Belgique, Luxembourg, etc.)

Un cercle généalogique, une association, une archive municipale, etc. peut très bien déployer ce genre de solutions. En effet, qui n’a jamais pesté contre un ancien agent d’état-civil ou recenseur à la tentative de déchiffrage d’un document manuscrit ? Quelques heures pour entraîner l’outil et plusieurs jours semaines de disponibles afin d’analyser plus en profondeur ces données déchiffrées !

Pour les prédictions (variable température dans certaines IA), c’est clairement pour des corpus plus complexes que l’état-civil ou les recensements.

arkindex peut fournir une alternative au déploiement local, à Transkribus, escriptorium ou à un gramplet dédié.

105rn · August 21, 2025, 9:53am

Désolé pour mon ignorance dans ce domaine fascinant
est-ce que cela veut dire qu’à chaque changement d’écriture (changement de curé par exemple) il faut relancer l’apprentissage ?

romjerome · August 21, 2025, 3:30pm

Comme les paroissiens de l’époque !
Plus sérieusement, par défaut, un texte manuscrit “moderne” en français ne pose pas de grosses difficultés (LLMs, API, transformers, IA, etc.). Ces modèles ont une telle expérience avec ces archives ‘partenaires’ en France et au Québec, qu’il faudrait tomber sur le seul officiant dyslexique du royaume ou de la république, auteur du lot de documents à déchiffrer !

Avec une écriture particulière ou à “pattes de mouche”, cela commence effectivement à nécessiter un “dictionnaire” ou des estimations et probabilités. Une cinquantaine de lettres (minuscules + majuscules) à déchiffrer, un mini index pour notre pierre de Rosette semble être le minimum. J’imagine que c’est de toute façon la première étape commune à la plupart des méthodes avant un déchiffrage de texte inconnu ? Même inconsciente, cette étape prend un peu de temps.

Dans la vidéo, cela évoque deux heures d’apprentissage (il me semble) pour un petit projet (moins de 20 documents → LLMs). C’est pour cela qu’utiliser un modèle IA déjà éprouvé pour l’écriture manuscrite en français est suggéré avant d’entrainer un nouveau modèle personnalisé. Transkribus et les autres plateformes de services sont plus présentables, offrant des fonctions plus pointues en un claquement de doigt, mais là aussi il faut adapter ou corriger le déchiffrage.

En Alsace, il y a des registres paroissiaux en allemand (souvent les protestants), parfois un méli-mélo de “latin-français-alsacien”. Par défaut, un modèle orienté “français” aura des difficultés, tout comme n’importe qui découvrant les documents dans la région. Par ailleurs, pour un autre projet, je devais traduire un lot de documents administratifs en allemand (corpus). Tous avaient plus ou moins la même structure, mais pas toujours… Bref, rapidement on cherche une aide, un outil pour ces tâches répétitives, de préférence semi-automatique. On passe évidemment derrière pour la révision finale.

Dans mon utilisation, cela se rapproche du manuel d’aide (ou assistant) des logiciels des années 1990/2000… C’est une base commune que l’on alimente avec nos entrées locales. Il est difficile de fournir une liste de suggestions sans avoir alimenté un minimum le socle commun.

Selon moi, un changement de curé, c’est surtout un changement…
Je suis presque sûr que ces outils peuvent détecter ce changement et adapter le modèle (transition en douceur).

105rn · August 22, 2025, 9:15am

Merci
Mais en pratique, on parle de quels outils ?
LLMs, c’est si je ne m’abuse, ChatGPT, Gemini, … pour lesquels il n’y a pas d’apprentissage (propriétaire). J’ai déjà essayé les 2 suscités, la première impression est Waouh puis à la relecture, on voit qu’il y a pas mal d’hallucinations

romjerome · August 22, 2025, 8:05pm

Idem avec Mistral! On sent bien la volonté d’appuyer sur l’imaginaire et un pseudo-processus créatif. Après un recadrage rapide et assez sévère au début, on évite généralement pas mal de “déviances”.

Actuellement, on a quand même l’impression que certains “gros/grands” projets d’IA flirtent avec l’escroquerie !

Pour l’analyse de l’écriture manuscrite (ou imprimée/tapée), il y a des modèles (outils LLMS) moins “universel/grand public”(s).

Ceci peut expliquer certains projets et orientations de Microsoft! L’Alsacien (badois, suisse allemand ou yiddish), c’est le nouvel Enigma de l’autre côté de l’Atlantique…

C’est souvent la même impression, celle du commercial qui doit avoir réponse à tout pour son business. Sauf qu’aux dernières nouvelles, l’universalité de la langue française est un mythe.

Les transcriptions puis traductions de sources françaises sont un casse-tête pour Family Search ou la plupart des entreprises américaines. ChatGPT ou Gemini ont, pour l’instant, quand même des difficultés avec les subtilités culturelles. J’ai bien compris que la langue française, c’est un peu comme l’écossais pour les locuteurs en anglais: du klingon (ou espéranto) avec le phrasé de maître Yoda!

Pour recentrer sur les modèles IA. J’utilisais mistral pour le reformatage et transkribus pour la transcription par facilité (interface, coût/temps, etc.). Si effectivement mistral utilise également les modèles de telkia pour ses transcriptions, tout en rajoutant ses couches d’hallucinations, alors pourquoi ne pas tester en local, un LLM de Telkia ?

romjerome · August 22, 2025, 8:41pm

On est plus proche de possibles fonctionnalités additionnelles pour gramps-web mais en localhost pour gramps…

Le retour de transcritption “brut” via l’API n’est pas simple à optimiser via un gramplet et les options (prompt/query) par défaut.

romjerome · August 22, 2025, 8:51pm

oh, cette rétro-saisie serait sympa dans Gramps…

105rn · August 23, 2025, 11:56am

Donc en dehors du contexte Gramps, essayer avec transkribus?

romjerome · August 23, 2025, 12:52pm

… ou arkindex [Traitement complet des documents (Classification, Analyse de la structure, Reconnaissance de texte, Reconnaissance des Entités)], eScriptorium [Reconnaissance de texte (imprimée et manuscrite), Reconnaissance du tableau], etc.

	Arkindex	Transkribus	eScriptorium
Reconnaissance du texte
Détection de la ligne de texte
Détection et reconnaissance des tableaux
Reconnaissance des formulaires
Classification des pages
Reconnaissance de la stucture sur mesure
Reconnaissance de l’entité désignée
Extraction de la valeur clé
Open-source
Auto-hébergement
Accès à l’API	Accès total	Limité au téléchargement et au traitement	Limité
Exportation de modèles formés
Intégration d’algorithmes personnalisés

105rn · August 23, 2025, 1:12pm

Merci, j’ai quelques vidéos à voir

105rn · August 23, 2025, 6:52pm

J’ai essayé 2 documents (actes notariés 1874 assez correctement écrits)
1er : quelques mots trouvés
2dn : rien de trouvé !
Bref, décevant (et moins bon que Gemini,..)

romjerome · August 24, 2025, 11:02am

Les quelques modèles de base sur la démo ‘web’ d’Ocelus sont très limités par rapport aux possibilités de leurs modèles personnalisés. De plus je trouve qu’ils devraient fournir quelques pistes pour un pré-traitement par l’utilisateur*rice avant l’envoi pour le test. Par exemple, il m’arrive souvent d’avoir de meilleurs résultats après le passage d’un filtre genre “négatif via Gimp”. Il y a bien des blogs “pédagogiques”

etc.

or ceci est rarement illustré dans les articles de Telkia.

… et en plus il faut corriger les fotheux !

github.com/sbiay/CdS-edition

htr/Corriger_une_prediction.ipynb

main

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "pycharm": {
     "name": "#%% md\n"
    }
   },
   "source": [
    "Corriger une prédiction HTR\n",
    "===\n",
    "<br>\n",
    "\n",
    "Nous reprenons ici la démarche exposée par Floriane Chiffoleau dans la documentation du projet [DAHN](https://github.com/FloChiff/DAHNProject/blob/8df8dfc6053a7dd57a6c5510d1e56bb336ce1d04/Project%20development/Documentation/Post-OCR%20correction%20for%20TEXT%20files.md)."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {

Ce fichier a été tronqué. afficher l'original

Topic		Replies	Views
GrampsChat Addon for 6.0 Ideas third-party-addon , ai	21	458	March 24, 2025
[Please create a] Transkribus addon Ideas third-party-addon , handwritten-text	9	172	August 22, 2025
Une IA locale pour Gramps? Français (French) ai , ia	8	159	March 19, 2025
Duplication des sources Français (French)	29	151	August 24, 2025
FamilySearch Gramplet Help third-party-addon , familysearch	134	4738	February 8, 2025

Related topics