Outil d'aide au déchiffrage d'acte

Existe-t-il un addon pour aider à la transcription d’un acte ?
Fonction équivalente à transcript ou GenScriber (que je n’ai pas essayés car fonction intégrée à mon logiciel actuel)
J’ai regardé la liste des addons, je n’ai pas trouvé ..
Merci

Pour Windows, j’utilise Genscriber.
Vous le trouverez sur

https://genscriber.com/download/Windows/genscriber_272_win64.zip

Je ne sais pas s’il existe un plugin.

1 Like

Vois peut-être si l’addon WebSearch, qui permet de s’interconnecter à une IA, peut faire ça (??)

1 Like

Merci,
s’il n’existe pas de plugin, ce sera l’occasion de tester Genscriber :slightly_smiling_face:

Bah, je ne voulais pas parler d’une IA pour retranscrire un texte manuscrit (comme l’annonce Généatique)
Mais d’un “simple” utilitaire permettant de zoomer, changer le contraste, .. d’un acte avec une fenêtre pour saisir la transcription sans avoir à faire des aller/retour incessants ..
Mais merci pour l’info sur l’IA, ça peut toujours servir !

J’utilise transkribus :

puis, si besoin d’un formatage spécifique pour saisir les données dans Gramps, j’utilise une IA (des “instructions/prompts”) afin de générer un tableur ou séparer les données.

1 Like

Hello Jérôme :waving_hand:

Tu aurais pas un petit tuto qui traine ?

Edit: Ah je viens de voir le fil sur un addon Transkribus auquel tu as répondu. Je vais suivre ça

En suivant quelques liens, on découvre des projets liés (ou des interfaces alternatives à Transkribus). Certains sont intéressants pour les généalogistes et l’indexation des données nominatives en France métropolitaine.

etc.

2 Likes

En fait, j’utilise Transkribus car certains modèles sont très performants avec la langue allemande. Certaines périodes historiques nécessitent un déchiffrage long et fastidieux.

L’IA générative prenant parfois trop de libertés ou semble malheureusement nourrie à la sémantique des écoles de commerce… Je passais plus de temps à corriger les hallucinations. Certes, cela peut être amusant de découvrir un texte romancé, sauf quand on fait des recherches généalogiques via des pistes factuelles.

Dans gramps, mes besoins se limitaient à une aide à la transcription (et traduction dans le cas de l’allemand). Un petit gramplet ou outil, une API ouverte et une clé d’API (ou ACCESS_TOKEN) suffisaient à mon bonheur.

Puis en creusant un peu le sujet, je suis tombé sur cette vidéo:

Cool ! Tout un écosystème en python et bases de données au format SQLite, export aux formats json ou texte…

Environnement sans doute bien adapté pour le français, le norvégien, peut être l’espagnol, le suédois et l’anglais (les déductions ne sont pas le privilège de l’IA…). La reconnaissance des lettres devrait également bien fonctionner avec l’italien ou le portugais. Il me manque quand même une belle référence à l’allemand (Allemagne, Autriche, Suisse, Belgique, Luxembourg, etc.)

Un cercle généalogique, une association, une archive municipale, etc. peut très bien déployer ce genre de solutions. En effet, qui n’a jamais pesté contre un ancien agent d’état-civil ou recenseur à la tentative de déchiffrage d’un document manuscrit ? Quelques heures pour entraîner l’outil et plusieurs jours semaines de disponibles afin d’analyser plus en profondeur ces données déchiffrées !

Pour les prédictions (variable température dans certaines IA), c’est clairement pour des corpus plus complexes que l’état-civil ou les recensements.

arkindex peut fournir une alternative au déploiement local, à Transkribus, escriptorium ou à un gramplet dédié.

2 Likes

Désolé pour mon ignorance dans ce domaine fascinant
est-ce que cela veut dire qu’à chaque changement d’écriture (changement de curé par exemple) il faut relancer l’apprentissage ?

Comme les paroissiens de l’époque ! :thinking:
Plus sérieusement, par défaut, un texte manuscrit “moderne” en français ne pose pas de grosses difficultés (LLMs, API, transformers, IA, etc.). Ces modèles ont une telle expérience avec ces archives ‘partenaires’ en France et au Québec, qu’il faudrait tomber sur le seul officiant dyslexique du royaume ou de la république, auteur du lot de documents à déchiffrer !

Avec une écriture particulière ou à “pattes de mouche”, cela commence effectivement à nécessiter un “dictionnaire” ou des estimations et probabilités. Une cinquantaine de lettres (minuscules + majuscules) à déchiffrer, un mini index pour notre pierre de Rosette semble être le minimum. J’imagine que c’est de toute façon la première étape commune à la plupart des méthodes avant un déchiffrage de texte inconnu ? Même inconsciente, cette étape prend un peu de temps.

Dans la vidéo, cela évoque deux heures d’apprentissage (il me semble) pour un petit projet (moins de 20 documents → LLMs). C’est pour cela qu’utiliser un modèle IA déjà éprouvé pour l’écriture manuscrite en français est suggéré avant d’entrainer un nouveau modèle personnalisé. Transkribus et les autres plateformes de services sont plus présentables, offrant des fonctions plus pointues en un claquement de doigt, mais là aussi il faut adapter ou corriger le déchiffrage.

En Alsace, il y a des registres paroissiaux en allemand (souvent les protestants), parfois un méli-mélo de “latin-français-alsacien”. Par défaut, un modèle orienté “français” aura des difficultés, tout comme n’importe qui découvrant les documents dans la région. Par ailleurs, pour un autre projet, je devais traduire un lot de documents administratifs en allemand (corpus). Tous avaient plus ou moins la même structure, mais pas toujours… Bref, rapidement on cherche une aide, un outil pour ces tâches répétitives, de préférence semi-automatique. On passe évidemment derrière pour la révision finale.

Dans mon utilisation, cela se rapproche du manuel d’aide (ou assistant) des logiciels des années 1990/2000… C’est une base commune que l’on alimente avec nos entrées locales. Il est difficile de fournir une liste de suggestions sans avoir alimenté un minimum le socle commun.

Selon moi, un changement de curé, c’est surtout un changement…
Je suis presque sûr que ces outils peuvent détecter ce changement et adapter le modèle (transition en douceur).

Merci
Mais en pratique, on parle de quels outils ?
LLMs, c’est si je ne m’abuse, ChatGPT, Gemini, … pour lesquels il n’y a pas d’apprentissage (propriétaire). J’ai déjà essayé les 2 suscités, la première impression est Waouh :star_struck: puis à la relecture, on voit qu’il y a pas mal d’hallucinations :confused:

Idem avec Mistral! On sent bien la volonté d’appuyer sur l’imaginaire et un pseudo-processus créatif. Après un recadrage rapide et assez sévère au début, on évite généralement pas mal de “déviances”.

Actuellement, on a quand même l’impression que certains “gros/grands” projets d’IA flirtent avec l’escroquerie !

Pour l’analyse de l’écriture manuscrite (ou imprimée/tapée), il y a des modèles (outils LLMS) moins “universel/grand public”(s).

Ceci peut expliquer certains projets et orientations de Microsoft! L’Alsacien (badois, suisse allemand ou yiddish), c’est le nouvel Enigma de l’autre côté de l’Atlantique…

C’est souvent la même impression, celle du commercial qui doit avoir réponse à tout pour son business. Sauf qu’aux dernières nouvelles, l’universalité de la langue française est un mythe.

Les transcriptions puis traductions de sources françaises sont un casse-tête pour Family Search ou la plupart des entreprises américaines. ChatGPT ou Gemini ont, pour l’instant, quand même des difficultés avec les subtilités culturelles. J’ai bien compris que la langue française, c’est un peu comme l’écossais pour les locuteurs en anglais: du klingon (ou espéranto) avec le phrasé de maître Yoda! :roll_eyes:

Pour recentrer sur les modèles IA. J’utilisais mistral pour le reformatage et transkribus pour la transcription par facilité (interface, coût/temps, etc.). Si effectivement mistral utilise également les modèles de telkia pour ses transcriptions, tout en rajoutant ses couches d’hallucinations, alors pourquoi ne pas tester en local, un LLM de Telkia ?

1 Like

On est plus proche de possibles fonctionnalités additionnelles pour gramps-web mais en localhost pour gramps:face_in_clouds:

Le retour de transcritption “brut” via l’API n’est pas simple à optimiser via un gramplet et les options (prompt/query) par défaut.

oh, cette rétro-saisie serait sympa dans Gramps…


1 Like

Donc en dehors du contexte Gramps, essayer avec transkribus?

… ou arkindex [Traitement complet des documents (Classification, Analyse de la structure, Reconnaissance de texte, Reconnaissance des Entités)], eScriptorium [Reconnaissance de texte (imprimée et manuscrite), Reconnaissance du tableau], etc.

Arkindex Transkribus eScriptorium
Reconnaissance du texte :white_check_mark: :white_check_mark: :white_check_mark:
Détection de la ligne de texte :white_check_mark: :white_check_mark: :white_check_mark:
Détection et reconnaissance des tableaux :white_check_mark: :white_check_mark: :stop_sign:
Reconnaissance des formulaires :white_check_mark: :white_check_mark: :stop_sign:
Classification des pages :white_check_mark: :stop_sign: :stop_sign:
Reconnaissance de la stucture sur mesure :white_check_mark: :stop_sign: :stop_sign:
Reconnaissance de l’entité désignée :white_check_mark: :stop_sign: :stop_sign:
Extraction de la valeur clé :white_check_mark: :stop_sign: :stop_sign:
Open-source :white_check_mark: :stop_sign: :white_check_mark:
Auto-hébergement :white_check_mark: :stop_sign: :white_check_mark:
Accès à l’API Accès total Limité au téléchargement et au traitement Limité
Exportation de modèles formés :white_check_mark: :stop_sign: :white_check_mark:
Intégration d’algorithmes personnalisés :white_check_mark: :stop_sign: :stop_sign:
1 Like

Merci, j’ai quelques vidéos à voir :grinning_face:

J’ai essayé 2 documents (actes notariés 1874 assez correctement écrits)
1er : quelques mots trouvés
2dn : rien de trouvé !
Bref, décevant (et moins bon que Gemini,..)

Les quelques modèles de base sur la démo ‘web’ d’Ocelus sont très limités par rapport aux possibilités de leurs modèles personnalisés. De plus je trouve qu’ils devraient fournir quelques pistes pour un pré-traitement par l’utilisateur*rice avant l’envoi pour le test. Par exemple, il m’arrive souvent d’avoir de meilleurs résultats après le passage d’un filtre genre “négatif via Gimp”. Il y a bien des blogs “pédagogiques”

etc.

or ceci est rarement illustré dans les articles de Telkia.

… et en plus il faut corriger les fotheux ! :face_with_bags_under_eyes: