← L'articolo precedente L'articolo successivo →

I problemi con il PDF

Pubblicato il 14 . 11 . 2012

PDF si è oramai affermato come un formato di documenti ubiquo. Fletcher Penney ha tra l’altro messo a punto un rigoroso sistema di gestirli, per il suo lavoro, che io trovo un po’ complesso e macchinoso, ma che non è scevro di spunti interessanti.

Ciò non ostante, si tratta di un formato ben lontano dall’essere comodo ed efficiente. Innanzi tutto si fonda su un’ambiguità, quella tra immagine e testo. Benché contenga testo, non necessariamente un PDF lo rappresenta in quanto tale, informaticamente. Nulla cambia per l’occhio umano, ma molto cambia per il computer, e quindi per il lettore: se il testo non è riconosciuto come tale, non è neppure possibile effettuare una ricerca testuale.

Ricerca di testo infruttuosa in un PDF

La parola presidente è ben presente in questo documento, ma non può essere trovata dal computer: il PDF (credo sia stato generato da Microsoft Word in una versione di Windows anteriore alla 8) è in formato immagine, ed il testo resta invisibile agli occhi del computer. Storie dell’arte segnalava l’impossibilità della ricerca testuale per le pubblicazioni messe a disposizione da MetPublications. Il problema è analogo a quello del documento soprastante: non si tratta di libri che sono stati scanditi, ma di documenti informatici trasformati in PDF immagine.

Il PDF è inoltre un formato molto complesso. Talmente complesso che non esistono garanzie che un documento venga visualizzato correttamente da altri che il programma che l’ha prodotto. Di seguito lo stesso documento è stato aperto rispettivamente con Adobe Reader, visualizzato all’interno di Firefox e, ultimo, dal programma di sistema di Mac OS X Anteprima, con differenze rilevanti.

Un PDF leggibile Un PDF leggibile, ma tipograficamente malconcio Un PDF assolutamente illeggibile

In sintesi: un PDF pone il problema di distinguere tra formato immagine (tra l’altro, generalmente più pesante da archiviare) e testo, e se viene visualizzato male (contenuto alterato, illeggibile, o anche completamente assente), non necessariamente è perché il documento è danneggiato.

Per chi volesse leggere questi documenti con il navigatore Firefox (il migliore a mio avviso), consiglio l’ottima estensione PDF.js, un lettore PDF in Javascript.

Una discussione al riguardo, che segnala anche la potenziale pericolosità di PDF è sul Forum di Tevac, qui.