Learn

284 artículosCategoría: Todo
Metadatos

Riesgos invisibles que quedan en PDF

Los PDF parecen seguros porque su apariencia queda fija.

Sin embargo, en un PDF puede quedar información distinta del texto que se muestra en pantalla.

Nombre de autor, aplicación de creación, fecha de actualización, anotaciones, archivos incrustados, texto oculto y rastros del documento original.

Al compartir documentos de forma anónima, es peligroso pensar "lo convertí a PDF, así que está bien".

Este artículo organiza los riesgos invisibles que quedan en PDF y los puntos que conviene revisar antes de publicar.

El PDF no se puede juzgar solo por la apariencia

El PDF es un formato práctico que puede mostrarse como papel.

Pero dentro de un archivo PDF puede haber información distinta de las páginas visibles.

InformaciónContenidoPunto de atención para el anonimato
AutorNombre de usuario o información de la aplicación que creó el documentoAcerca a la persona u organización
Fecha de creaciónHora de creación o actualizaciónSe conecta con hora de actividad o envío
AnotacionesComentarios, marcadores, notasSe ve el proceso de edición o personas relacionadas
IncrustadosAdjuntos, fuentes, imágenesQuedan datos originales o entorno de creación
Texto ocultoOCR, texto para copiarPuede quedar información que se creía tachada

Que un PDF se vea limpio no significa que su información interna esté limpia.

En anonimato, se revisan por separado las páginas visibles y la información interna del archivo.

Qué cambia y qué queda al convertir a PDF

Al convertir documentos Office o imágenes a PDF, parte de la información cambia.

Pero no desaparecen todos los riesgos.

Lo que cambia al convertirLo que puede quedar
Un documento editable se vuelve visualización fijaAutor, aplicación de creación, fecha de creación
Se incrusta como imagenTexto dentro de la imagen, fondo, reflejos
Se fijan fuentes y diseñoFuentes incrustadas e información de la aplicación
Los comentarios pueden desaparecerAnotaciones o historial de cambios pueden quedar de otra forma
Parece que se hizo un tachadoPuede quedar el texto de debajo

Convertir a PDF puede ser útil en algunos casos.

Pero "convertir a PDF" y "terminar la revisión de anonimato" son cosas distintas.

Tachado y texto oculto

Algo especialmente peligroso en PDF es ocultar información como si se hubiera tachado.

Si solo se coloca un rectángulo negro encima, el texto de debajo puede quedar dentro del archivo.

Aunque no se lea visualmente, el texto original puede verse al copiar, buscar, extraer o analizar internamente.

MétodoRiesgo
Superponer una figura negraPuede quedar el texto de debajo
Poner el texto del color del fondoPuede verse al copiar o buscar
Convertir en captura de pantallaQuedan pérdida de calidad, texto legible por OCR e información de fondo
Usar una función dedicada de redacciónHace falta volver a revisar después del procesamiento

En documentos que requieren redacción, usa funciones dedicadas y después revisa búsqueda, copia y metadatos.

En documentos de alto riesgo, considera consultar a especialistas o apoyo confiable en vez de decidir solo con este artículo.

Información organizativa que queda en PDF

En denuncias de irregularidades o materiales periodísticos, la información organizativa dentro del PDF se vuelve un problema importante.

No solo el nombre de autor: plantillas, nombres de departamento, rutas de archivo, anotaciones, números de distribución, marcas de agua y formato de numeración de páginas también son pistas.

PistaQué permite saber
Nombre de autorAutor del documento o cuenta del dispositivo
Nombre de empresaOrganización o entorno de creación
PlantillaDepartamento o flujo de trabajo
Persona anotadoraQuien participó en la edición
Marca de agua o número de distribuciónDestino de distribución u origen del material

Un PDF parece una "versión final".

Pero precisamente por parecer final, puede conservar rastros de haber sido creado dentro de una organización.

Por qué es especialmente peligroso en denuncias o materiales de investigación

En denuncias de irregularidades o materiales de investigación, la información dentro del PDF puede mostrar "quién podía conocer ese material".

Aunque el documento en sí no tenga nombre, si quedan alcance de distribución, fecha de actualización, anotaciones, marca de agua, número de página, número de documento o plantilla propia del departamento, las personas candidatas se reducen.

Pista dentro del PDFQué se infiere
Número de distribuciónA qué departamento o persona se distribuyó el material
Marca de aguaInformación para identificar lector o destino de distribución
Nombre de anotadorPersona revisora o relacionada
Fecha de actualizaciónQuién podía trabajar en ese momento
PlantillaOrganización, departamento o flujo de trabajo

Aunque esta información no signifique nada para lectores generales, para gente dentro de la organización puede ser una pista fuerte.

En anonimato se piensa no solo cómo se ve para quien no sabe, sino cómo se ve para quien sí sabe.

Cuidado también con la extracción de texto en PDF

Un PDF puede parecer una imagen visualmente, pero tener texto interno.

En PDF con OCR, puede haber texto de búsqueda detrás de la imagen escaneada.

Aunque se tache o difumine sobre la imagen, si el texto de búsqueda conserva los caracteres originales es peligroso.

EstadoQué revisar
PDF escaneadoSi tiene texto OCR
PDF tachadoSi al copiar o buscar aparece texto original
PDF con imágenesSi quedan texto dentro de la imagen o fondo
PDF con anotacionesSi se puede extraer texto de anotaciones o comentarios
PDF de formularioSi quedan campos de entrada o estados seleccionados

Antes de publicar un PDF, no basta con leerlo visualmente: revisa búsqueda, copia y metadatos.

"No se ve en pantalla" no es prueba de seguridad.

Herramientas que pueden servir para revisar

Si usas servicios en línea para revisar, convertir, redactar o eliminar metadatos de PDF, el archivo original, el nombre de archivo, la información interna y datos de acceso pueden pasar al servicio. En documentos de alto riesgo, no subas archivos a servicios externos; revísalos en un entorno local y vuelve a comprobarlos con otro método después de procesarlos.

ExifTool se usa a veces para revisar metadatos de PDF.

URL: https://exiftool.org/

qpdf también puede ser candidato para revisar estructura o convertir PDF. qpdf es una herramienta usada para revisar la estructura de archivos PDF y convertirlos, y su uso puede consultarse en la documentación oficial.

URL: https://qpdf.readthedocs.io/

Pero usar una herramienta no vuelve algo seguro automáticamente.

Hay que leer la información mostrada y volver a revisar después de eliminar o regenerar.

Revisión antes de publicar

Antes de publicar un PDF, revisa en este orden.

OrdenQué revisarRazón
1Mirar autor y fecha de creaciónConfirmar que no se conecten con persona u hora de trabajo
2Mirar anotaciones y comentariosConfirmar que no queden proceso de edición o personas relacionadas
3Revisar partes tachadasVer si queda texto debajo
4Mirar archivos incrustados e imágenesConfirmar que no queden datos originales u otros archivos
5Mirar el nombre de archivoConfirmar que no queden nombre, departamento o caso
6Volver a revisar después de eliminarConfirmar que el procesamiento funcionó

El PDF es un formato que se copia fácilmente después de publicar.

Por eso es importante revisar antes de publicar.

Decidir no publicar un PDF

En PDF de alto riesgo, eliminar o convertir puede no ser suficiente.

El propio contenido del material puede estrechar la fuente.

Por ejemplo, si quedan una cronología que solo conocen quienes asistieron a una reunión, abreviaturas usadas solo por un departamento o expresiones distintas por destino de distribución, las personas candidatas se reducen aunque se borren los metadatos.

En ese caso, hace falta decidir si no publicar el PDF tal cual: resumir el contenido, generalizar nombres propios, pedir a un punto de consulta confiable que revise solo el alcance necesario o llevarlo a especialistas o apoyo.

En anonimato, limpiar un archivo y poder publicarlo son cosas distintas.

Resumen

El PDF parece seguro porque su apariencia queda fija, pero dentro pueden quedar autor, fecha de creación, anotaciones, incrustados y texto oculto.

Convertir a PDF no completa el anonimato.

Presta especial atención a tachados, anotaciones, información organizativa, números de distribución y nombres de archivo.

Herramientas como ExifTool y qpdf ayudan a revisar, pero la seguridad no se decide solo por el nombre de la herramienta.

Antes de publicar, revisa apariencia, información interna, nombre de archivo y nueva comprobación después de eliminar.

Herramientas relacionadas

Metadata inspection

ExifTool

Recurso externo relacionado con este artículo. Ábrelo solo si encaja con tu situación y tu modelo de amenaza.

Por qué aparece aquí: Puede ayudar con el tema del artículo, pero está fuera de Anonymity Sense y conviene revisarlo antes de usarlo.

URL : https://exiftool.org/

Abrir sitio externo
Metadata removal

MAT2

Recurso externo relacionado con este artículo. Ábrelo solo si encaja con tu situación y tu modelo de amenaza.

Por qué aparece aquí: Puede ayudar con el tema del artículo, pero está fuera de Anonymity Sense y conviene revisarlo antes de usarlo.

URL : https://0xacab.org/jvoisin/mat2

Abrir sitio externo
PDF inspection

qpdf

Recurso externo relacionado con este artículo. Ábrelo solo si encaja con tu situación y tu modelo de amenaza.

Por qué aparece aquí: Puede ayudar con el tema del artículo, pero está fuera de Anonymity Sense y conviene revisarlo antes de usarlo.

URL : https://qpdf.readthedocs.io/

Abrir sitio externo

Artículos relacionados