Accueil > Reconnaissance de texte > Ne retapez plus ! Récupérez le texte ! Toutes mes astuces…

Ne retapez plus ! Récupérez le texte ! Toutes mes astuces…

Je profite de la météo exécrable de ce weekend de Pentecôte pour vous communiquer toutes mes combines pour récupérer du texte réutilisable sans avoir à retaper ou très peu.

Il y a peu j’ai assisté à une présentation de produits scolaires numériques par un grand groupe d’édition. Leurs pièges habituels pour emprisonner la clientèle m’ont sérieusement agacé !

J’espérais des ouvertures mais… Les textes ne sont toujours pas récupérables pour transformation.
Il est possible de modifier des contenus et parfois de les exporter mais JAMAIS dans des formats interopérables !
Les partages des créations ou des modifications sont autorisés exclusivement avec d’autres possesseurs des produits identiques de l’éditeur.

Tous les éditeurs de contenus numériques procèdent de la sorte pour se protéger…
Nous savons pourtant que c’est un combat d’arrière garde, on le voit bien avec la musique ou la vidéo.
Certains acteurs des médias ont su s’adapter pour proposer de nouvelles formes d’accès à leurs contenus.
Et le partage est une belle idée qui gagnerait à se développer davantage chez les enseignants.

À ce propos, Je signale à ceux qui ne le savent pas encore que les manuels de Sesamath et lelivrescolaire.fr sont sous licence libre et téléchargeables.

La plupart des documents supports pédagogiques ne présentent pas des caractéristiques de lisibilité suffisantes pour des élèves ayant un handicap, mais pour de nombreux autres élèves également :

  • Le contenu est trop serré, trop dense,
  • La police, l’espacement des caractères ne sont pas adaptés,
  • Il y a trop d’informations parasites,
  • Des titres soulignés ou des lettrines ont été utilisés,
  • La mise en page est complexe, touffue, trop chargée.

Nous devons privilégier les formats ouverts ou semi ouverts et interopérables !

ODT, Open Document Texte d’Open Office – Libre Office – Neo Office (les suites bureautiques libres en général), mais parfaitement géré par Microsoft Word tant en enregistrement qu’en lecture. ODT peut même être le format d’enregistrement par défaut de Microsoft Word. Open Document Texte est le format de fichier le plus ouvert et interopérable possible à l’heure actuelle.

PDF, est un format ouvert qui préserve la mise en forme d’un fichier telle qu’elle a été définie par son auteur, et cela quels que soient le logiciel, le système d’exploitation et l’ordinateur utilisés pour l’imprimer ou le visualiser.

Le Portable Document Format (PDF) dispose de beaucoup de fonctionnalités intéressantes, notamment en matière d’accessibilité, mais il peut être utilisé comme un simple conteneur d’images et alors devenir un piège. Le cas le plus courant est la numérisation d’une page de manuel avec un scanner ou un photocopieur qui va délivrer un fichier PDF. Dans cette situation le fichier ne permettra pas l’accès au texte, car il ne contient qu’une photographie de texte. Il faut alors traiter ce fichier image pour en extraire le texte.

EPUB, pour les livres électroniques et HTML pour les pages web sont de la même famille de langages de balisage. Les deux sont parfaitement accessibles.

Pour récupérer le texte des documents supports d’apprentissage, il existe maintenant une foule de solutions alternatives au scanner classique pour la reconnaissance optique de caractères dite ROC ou OCR en anglais :

Avec un smartphone Android ou Windows Phone. Envoyez à Google Drive qui se chargera de la reconnaissance du texte.

Avec un Smartphone ou une tablette Android installez l’application « Google Drive » elle se connecte automatiquement à votre compte Google. Lancez l’appli et appuyez sur le bouton d’ajout de document, puis sur « prendre une photo »

Ajouter une photo dans Google Drive

Gérez les options de ROC par le menu paramètres d’importation de Google Drive depuis le navigateur Chrome installé sur un PC ou depuis Firefox sur tablette (choisir l’option « Voir version ordinateur » Cf capture ci-dessous )

réglages de Firefox sous android

Une fois dans Google Drive maintenez l’appui, ou cliquez droit sur le fichier et choisissez ouvrir avec « Google Documents »

La ROC se fera à la volée !

« Google Drive », le disque dur virtuel des détenteurs d’un compte GMail (compte créé en 5’) dispose d’une fonctionnalité de ROC à l’importation d’un document image ou PDF.
Cette conversion en texte se règle dans les options des paramètres d’importation de documents.

Vos documents importés à l’unité ou par lots sont alors convertis en documents Google Docs et généralement l’essentiel du texte aura été reconnu à condition que ce soit à partir d’un imprimé avec une police de caractère suffisamment standard et lisible.

Les documents Google Docs, sont ensuite très simplement exportables dans les formats courants.

Si votre Tablette ou Smartphone est de marque Samsung, vous pouvez exploiter hors connexion le module PhotoReader (cf article dédié)

 

 

Sur Windows Phone... Une puissante ROC hors connexion
(www.windowsphone.com/fr-FR/how-to/….)

1. Appuyez sur le bouton Rechercher du téléphone, puis sur Recherche visuelle .

2. Pointez votre téléphone vers le texte à analyser, puis appuyez sur Analyser texte.

3. Le texte est reconnu (même si des langues sont mélangées)

4. Appuyez sur Autres > Copier tout.

5. Ouvrez le fichier, l’application ou le message dans lequel vous voulez coller le texte.

6. Appuyez sur l’emplacement où vous voulez coller le texte.

7. Dans la barre de suggestion de texte au-dessus du clavier, appuyez sur Coller .

Collez le texte dans Word qui équipe votre Windows Phone par défaut. Le document est automatiquement enregistré dans votre espace Skydrive accessible depuis n’importe quel PC et  sur votre WindowsPhone par le menu Office.

Vous pouvez encore prendre le document en photo et l’envoyer à Google Drive avec l’application Gdrive.
Lancez Gdrive puis appuyez sur le bouton + pour ajouter une image, et enfin appuyez sur le bouton photo. Votre image est envoyée à Google Drive à la volée.

Relisez plus haut pour savoir comment ouvrir Google Drive et convertir à la volée…

 

Pour les seuls documents PDF, dans lesquels le texte n’est pas sélectionnable, un logiciel de lecture de PDF gratuit comporte un module additionnel d’OCR dans plusieurs langues dont le français. Ce logiciel présente de multiples fonctionnalités pratiques pour manipuler des fichiers PDF. Il se nomme PDF-XChange Viewer. On pourra se référer avec satisfaction aux fiches techniques réalisées par Yann Le Mentec au pôle Tice du CDRP de Bourgogne :

http://www.cndp.fr/crdp-dijon/Travailler-avec-des-fichiers-PDF.html

 

Vous êtes sur PC, si le texte affiché n’est pas sélectionnable faites des captures d’écran ou utilisez un scanner à main pour les documents papier.

 

Pour capturer tout l’écran, il suffit simplement d’appuyer sur la touche « Print » ou « Scrn » ou encore « Impr écran Syst » (située juste à côté de la touche « F12″).
Ensuite, pour l’insérer dans un document, il faut appuyer sur les touches « Ctrl+V » ou cliquer, avec l’aide du bouton droit de la souris, sur « Coller ».

Puis suivez cette documentation pour coller dans Paint par exemple ou dans tout autre logiciel de traitement d’image

http://www.commentcamarche.net/faq/5606-montrer-une-copie-d-ecran

Sous Windows Vista, 7 et 8 vous avez un outil de capture très pratique disponible voir :

http://windows.microsoft.com/fr-fr/windows7/products/features/snipping-tool

Pour des versions antérieures de Windows il existe plusieurs utilitaires dont Greenshot qui est libre et gratuit ou PicPick qui est gratuit pour un usage personnel.
Xnview
, logiciel gratuit de traitement d’image a des fonctionnalités intéressantes pour la capture également.

Pour un PC portable ma solution préférée est le scanner portable avec Direct OCR c’est très efficace !

Il y a peu j’ai testé un petit scanner Hyundai MagicScan dont le coût avoisine les 50 Euros.

Il est tout petit, la moitié de la taille d’une souris de portable ; on le branche sur un port USB.

On le glisse sur le texte à reconnaître de gauche à droite et hop c’est bon ! Le texte rentre directement reconnu dans votre application (de Traitement de texte ou autre).

Cela fonctionne à la perfection avec Open Office. Open Office est ouvert et là où se trouve le curseur le texte se colle reconnu. Deux langues seulement peuvent être reconnues, le français que l’on indique et et l’anglais nativement.

Le résultat est sans bavure à ceci près que des caractères invisibles de paragraphe sont présents à chaque fin de ligne. Cela se rectifie facilement en utilisant la fonction de rechercher remplacer. On remplace tous les signes de paragraphe par un espace. En voici l’illustration pour OpenOffice Writer. (c’est le caractère $ qui symbolise le paragraphe).

rechercher remplacer caractère parapgraphe

Voilà ! C’est fait !

Et puis pensez à prendre en photo les notes manuscrites ou autres documents.
La copie à la main c’est dépassé !

Categories: Reconnaissance de texte Tags:
  1. 11/06/2013 à 17:23 | #1

    Bonsoir et merci pour cette astuce que je m’empresse de tester… Ca devrait faire gagner du temps a pas mal d’avs et d’élève !


− un = 2