Extraire un texte ou une image d’un PDF

                                                                                                                                                                                                                                          LogoWIN LogoLINUX

Extraire un texte ou une image d’un PDF avec « Okular »

Pour préparer un document Open Office ou Microsoft Office 365, il peut être utile d’extraire les parties d’un texte ou des images d’un pdf et de les insérer ensuite. Pour cela le logiciel « Okular » est plus simple et plus rapide qu’une application OCR (reconnaissance de caractères).

Le logiciel Okular est beaucoup plus qu’une visionneuse de pdf. Il permet aussi d’extraire du texte et des images et de les utiliser ensuite dans un traitement de texte. Il existe deux méthodes pour extraire du texte, l’une sans conserver la mise en forme et l’autre en la conservant et il existe une méthode pour extraire et rogner des images.

Marche à suivre pour extraire du texte sans conserver la mise en forme:

Il faut d’abord ouvrir le document pdf et ensuite, il y deux alternatives possibles:

Méthode 1 :

Cliquer sur le bouton qui s’affiche par défaut en haut au centre de l’écran « sélection de texte ».

 

Sélectionner le texte que l’on désire extraire du document:

Faire un clic droit pour faire apparaître le menu et appuyer sur «copier du texte».

La dernière étape est de coller dans un traitement de texte:

Méthode 2

Sélectionner le bouton «sélection d’une zone» en déroulant le menu en haut à droite à l’aide de la petite flèche à droite:

Le curseur prend alors la forme d’un plus   » +  » en se mettant en mode sélection de précision.

Sélectionner la zone dans laquelle se trouve le texte à extraire et un menu déroulant en 2 parties apparaît automatiquement.

Dans la partie supérieure « texte », sélectionner « copier dans le presse papier ».

pourrait le faire

Il ne reste plus qu’à coller dans le traitement de texte:

Les avantages de ces deux méthodes sont  la qualité des textes extraits, il est impossible de déceler que le texte a été extrait d’un document pdf, si l’on a bien pris soin de d’adapter le format du texte à celui du reste du document.

Les désavantages de ces deux méthodes sont  la perte du format. Si cela est important pour vous, il existe un manière de procéder sans perte de format.

Marche à suivre pour extraire du texte en conservant la mise en forme:

Sélectionner le bouton « capture d’une zone » en déroulant le menu en haut à droite: le curseur prend alors la forme d’un plus   » +  » en se mettant en mode sélection de précision.

Sélectionner la zone dans laquelle se trouve le texte à extraire. Faire un clic droit avec la souris et un menu apparaît. Considérer la partie «image» qui est dans le bas du menu. Cliquer sur «copier dans le presse papier» pour une utilisation immédiate. 

En collant dans un traitement de texte, on obtient:

Il est aussi possible de cliquer sur «enregistrer vers un fichier» qui donnera un fichier image de format PNG pour l’utiliser plus tard si par exemple vous souhaitez extraire plusieurs textes.

Les avantages de cette méthode sont la simplicité et la rapidité ainsi que  la conservation de la mise en page et du format du document, ce qui peut être important par exemple pour un schéma.

Le désavantage est la perte de qualité. Attention à utiliser, dans le document final, la même police que celle extraite.

Marche à suivre pour extraire une image:

Sélectionner le bouton « capture d’une zone », tracer un rectangle autour de l’image à capturer et suivre la même démarche que celle décrite juste ci-dessus.

En collant dans un traitement de texte, on obtient:

Bien que rapide et simple, le désavantage de cette méthode est la légère perte de qualité de l’image. Pour éviter cela, il faudrait posséder l’original de l’image insérée ou alors faire un scan du document duquel on veut extraire l’image, si toutefois le résolution proposée par l’appareil est supérieure à celle d’Okular.

En résumé, Okular offre une fonctionnalité puissante d’extraction de texte d’un PDF. Il permet ainsi de manipuler le contenu en version éditable. Son atout est dans la qualité du texte extrait sans erreur d’orthographe, ce qui n’est parfois pas le cas d’un logiciel OCR. En revanche il est moins bon dans le layout. L’autre atout du logiciel Okular est la capture d’image. Comme tout le reste cette fonctionnalité  est gratuite, ce qui n’est pas le cas de Acrobat Reader en version non payante

Références du logiciel

  • Configuration scolaire des ateliers PC, dossier « bureautique »
  • Lien web: https://okular.kde.org/fr/
  • Lien de téléchargement de la version Windows: https://okular.kde.org/fr/download/
République et canton de Genève | DIP connexion