26/12/2025

Comment récupérer les infos cachées dans un PDF censuré ?

Par admin

Comment récupérer les infos cachées dans un PDF censuré ?

Bon, vous avez tous vu passer
cette histoire
des documents Epstein mal censurés, j’imagine ?

En effet, des journalistes ont réussi à récupérer une bonne partie des informations censées être masquées dans les fichiers judiciaires… ça peut impressionner mais n’allez pas croire que ce soit quelque chose de compliqué et ces techniques sont à la portée de n’importe qui.

C’est pourquoi aujourd’hui, j’vais pas vous parler du scandale (y’a assez de monde dessus), mais des techniques pour récupérer ce qui se cache derrière ces fameux rectangles noirs. Du pur OSINT appliqué au forensique documentaire.

Commençons par le plus basique et pourtant le plus courant : le bon vieux copier-coller. Ouais, je sais, ça paraît con dit comme ça, mais vous seriez surpris du nombre de documents "confidentiels" qui sont censurés en posant simplement un rectangle noir par-dessus le texte dans Word ou Adobe Acrobat. Le texte original pourtant est encore là, bien au chaud sous cette couche graphique. Il suffit donc de sélectionner la zone, un petit Ctrl+C, et hop, on colle dans un éditeur de texte. Boom, le texte "caché" apparaît en clair.

C’est d’ailleurs exactement ce qui s’est passé avec des documents du Pentagone en 2005, et plus récemment avec des fichiers judiciaires américains. Bizarrement, les gens confondent "masquer visuellement" et "supprimer", alors que c’est pas du tout la même chose ^^.

Pour vérifier si un PDF est vulnérable à cette technique, vous pouvez utiliser
pdftotext
(inclus dans poppler-utils sur Linux) :

pdftotext document_censure.pdf - | less

Si le texte sous les rectangles noirs apparaît, bingo. Vous pouvez aussi utiliser PyMuPDF en Python pour extraire le texte brut :

import fitz
doc = fitz.open("document.pdf")
for page in doc:
 print(page.get_text())

Maintenant, passons aux documents scannés. Là c’est plus subtil parce que techniquement, y’a pas de "texte" à copier, juste une image. Sauf que les scanners et les logiciels de numérisation ajoutent souvent une couche OCR invisible par-dessus l’image. Cette couche contient le texte reconnu automatiquement, et elle peut inclure ce qui a été censuré AVANT le scan si le masquage était mal fait.

Mais même sans couche OCR, y’a des trucs à tenter. Si la censure a été faite avec un marqueur physique (genre un Sharpie sur le document papier avant scan), il est parfois possible de jouer avec l’exposition et le contraste de l’image pour faire ressortir le texte en dessous. Les marqueurs noirs ne sont pas toujours 100% opaques, surtout sur du papier fin.

Avec GIMP ou Photoshop, vous pouvez don extraire les pages du PDF en images (pdftoppm ou convert) puis jouer avec les niveaux, courbes et exposition, inverser les couleurs ou encore appliquer des filtres de détection de contours

Ça marche pas à tous les coups, mais quand ça marche, c’est magique ^^.

Maintenant, la technique qui a fait des ravages c’est l’exploitation des sauvegardes incrémentales. Car vous ne le savez peut-être pas mais les fichiers PDF disposent d’un système de sauvegarde qui ajoute les modifications à la fin du fichier plutôt que de réécrire le document entier. Chaque "version" est ainsi séparée par un marqueur %%EOF (End Of File).

Concrètement, si quelqu’un ouvre un PDF, ajoute des rectangles noirs de masquage, puis sauvegarde, l’ancienne version du document est souvent toujours là, juste avant le dernier %%EOF. C’est comme un système de versioning intégré, sauf que personne n’y pense jamais.

Pour exploiter ça, il faut extraire la version originale (avant la dernière modification) comme ceci :

head -c [offset_avant_dernier_EOF] document.pdf > version_originale.pdf

L’outil
QPDF
permet aussi d’analyser la structure interne :

qpdf --show-xref document.pdf
qpdf --json document.pdf | jq '.objects'

Et les métadonnées ?? Je vous en ai pas parlé encore mais un PDF c’est pas juste du contenu visible. C’est aussi une mine d’or d’informations cachées. Le nom de l’auteur, la date de création, le logiciel utilisé, l’historique des modifications, parfois même des commentaires ou des annotations invisibles.

Et pour cela,
ExifTool
est votre meilleur ami :

exiftool -a -u -g1 document.pdf

Vous pouvez aussi utiliser
pdfinfo
:

pdfinfo -meta document.pdf

Dans les documents judiciaires qui ont récemment fuité, les métadonnées ont révélé les noms des personnes qui avaient édité les fichiers, les dates exactes des modifications, et parfois des chemins de fichiers sur les serveurs internes… Oups.

Maintenant, la technique la plus vicieuse ça reste quand même l’analyse des positions de glyphes. En effet, des chercheurs ont publié un papier intitulé "
Story Beyond the Eye
" qui démontre qu’on peut parfois deviner le contenu masqué en analysant la largeur des zones masquées.

Le principe c’est que dans un PDF, chaque caractère a une largeur précise définie par sa police de caractère. Si vous savez quelle police est utilisée (et c’est souvent le cas, puisque les tribunaux américains adorent Times New Roman par exemple), vous pouvez calculer combien de caractères tiennent dans la zone noire. Et si vous avez du contexte (comme le début ou la fin d’une phrase), vous pouvez parfois deviner le mot exact.

Avec des polices à chasse fixe comme Courier, c’est encore plus facile puisque chaque caractère fait exactement la même largeur. Comptez alors les pixels, divisez par la largeur d’un caractère, vous avez le nombre de lettres.

Un outil qui facilite tout ça c’est
X-Ray
, développé par le Free Law Project qui est capable d’analyser les PDF et de détectre automatiquement les censures défectueuses.

Autre outil sympa que je vous conseille, c’est
unredactor
, qui tente de reconstruire automatiquement le texte sous les blocs de masquage en utilisant diverses heuristiques.

Ça c’est pour les PDF, mais pour les images PNG ou les captures d’écran censurées, y’a aussi des trucs à faire. Leurs métadonnées EXIF peuvent contenir des informations sur l’appareil, la géolocalisation, la date, mais surtout, si l’image a été éditée avec certains logiciels, des données résiduelles peuvent trainer.

La technique du "thumbnail" est par exemple particulièrement fourbe puisque certains logiciels génèrent une miniature de l’image AVANT les modifications et l’embarquent dans les métadonnées. Donc vous ouvrez la miniature, et vous voyez l’image originale non censurée. C’est arrivé plusieurs fois dans des affaires judiciaires. Voici comment l’extraire avec Exiftool :

exiftool -b -ThumbnailImage image_redactee.jpg > thumbnail.jpg

Pour les professionnels du forensique, y’a aussi la technique de l’analyse des données compressées. Comme les algorithmes JPEG et PNG ne sont pas parfaits, les zones éditées ont parfois des artefacts de compression différents du reste de l’image. Cela peut révéler où des modifications ont été faites.

Bon et maintenant que vous savez comment récupérer des infos censurées, parlons maintenant de comment BIEN censurer un document, histoire de pas vous planter.

En fait, la seule méthode vraiment sûre c’est de supprimer définitivement le contenu. Je répète : Ne masquez pas le contenu, supprimez le !

Adobe Acrobat Pro a par exemple une fonction "Redact" qui fait ça correctement car cette fonction supprime réellement le texte et les métadonnées associées.

Alternativement, vous pouvez aussi exporter le document en PDF (ça aplatit toutes les couches), utiliser des outils comme pdf-redact-tools qui suppriment vraiment le contenu, et le convertir en image puis le reconvertir en PDF (bourrin mais efficace)

Et SURTOUT, vérifiez toujours le résultat avec les techniques mentionnées plus haut avant de diffuser quoi que ce soit.

Voilà, vous avez maintenant un petit arsenal de techniques OSINT pour analyser des documents "confidentiels". Bien sûr, comme d’hab, utilisez ces connaissances de manière responsable et éthique car une fois encore, le but c’est de comprendre les failles pour mieux se protéger, et pas de violer la vie privée des gens.

Voilà… Et la prochaine fois que vous verrez un document officiel avec des gros rectangles noirs, vous saurez que c’est peut-être pas aussi opaque que ça en a l’air. Niark niark…

Source : korben.info