¿La printing de un PDF a PDF degrada su calidad?

Digamos que tengo un PDF de un website que es muy largo. Después de leer un poco, decido que hay páginas extrañas; pero en lugar de encontrar el website cada vez que decido eliminar una página, quiero imprimirlo en PDF y simplemente no seleccionar esa página para imprimir (usando CUPS-PDF). ¿Esto degradará la calidad del PDF, particularmente si tuviera que hacerlo varias veces? ¿Hay una mejor manera de lograr lo que estoy buscando? Intenté PDFEdit, con resultados mixtos, y me gustaría algo más confiable. Por supuesto, siempre puedo regresar al sitio y save una nueva versión, usando la misma técnica de descuidar aquellas páginas que no quiero.

En principio, es posible imprimir un PDF a través de una cadena de progtwigs que termina en una generación de PDF sin pérdida de calidad.

Deben ocurrir dos cosas importantes para garantizar una conversión perceptualmente sin pérdidas:

  1. Cada eslabón de la cadena debe comprender todos los elementos del documento y poder pasarlos a la siguiente pieza de la cadena sin pérdidas:

    • Si el documento contiene fonts incrustadas, la fuente también debe instalarse en algún lugar donde el escritor de PDF pueda encontrarla para que pueda volver a incrustarla, o la fuente incrustada debe pasar de alguna manera a través de la cadena.

    • Si el documento contiene applets embeddeds – JavaScript, Flash, Postscript … – deben pasarse intactos.

    • Si el documento contiene hyperlinks, formularios activos, capas de text OCR, numeración de páginas personalizada, marcas no impresas, comentarios, metadatos, etc., todas las piezas de la cadena deben saber cómo pasar estos datos al escritor.

    • Si el documento contiene tamaños de página mixtos, los progtwigs de la cadena deben ser capaces de ese truco también.

  2. Ningún enlace en la cadena puede reinterpretar ningún dato que pase por él. Es común en las cadenas de PDF que las imágenes sean remuestreadas y convertidas a formattings con pérdidas más eficientes, por ejemplo. Incluso si las imágenes en su PDF original son JPEG de baja resolución, las piezas de la cadena pueden elegir un DPI diferente o tener una configuration de nivel de compression diferente.

    (Por cierto, el mero hecho de que haya un JPEG en uno o ambos extremos de la cadena de PDF a PDF técnicamente significa que la cadena no es sin pérdida, a less que los datos en bruto JPEG se transmitan de la manera que lo es. es posible que un paso de recompression sea perceptiblemente sin pérdidas. Sin embargo, esto no siempre sucede, a veces a propósito).

Hasta ahora, he considerado solo la calidad perceptual. Es posible lograr una conversión perceptualmente sin pérdidas pero perder editabilidad o terminar con un file sustancialmente más grande:

  • Un documento PDF que contenga text creado a partir de una fuente primaria (es decir, no un escaneo o conversión desde otro formatting de presentación de documento) generalmente contiene el text y los datos de fuente que permiten que el lector de PDF dibuje el text en la pantalla de la misma manera que un procesador de texts.

    Es posible convertir dicho text en arte de ttwig o vector 2D de una manera perceptible sin pérdidas. PDF incluso le permite conservar la capacidad de búsqueda y el acceso al lector de pantalla mediante el uso de capas de text OCR no impresas. Sin embargo, una conversión de este tipo boostía el tamaño del file y dificultaría la edición.

  • Las imágenes vectoriales pueden ser rasterizadas, utilizando DPI igual o incluso múltiplo de la printing / visualización de DPI.

  • La cadena podría convertir todos los files JPEG a TIFF, para no perder absolutamente ninguna calidad de image.

  • La cadena podría include JPEG a JPEG, sin cambio de DPI, pero utiliza una configuration de alta calidad fija para evitar la creación de artefactos perceptibles.

Para su caso simple, eliminar una página, es bastante fácil get una garantía sin pérdida, si utiliza un progtwig que entiende el formatting de file PDF lo suficientemente bien como para simplemente eludir los datos de la página. Esto es completamente factible, ya que las páginas en PDF son más o less independientes. Solo se trata de encontrar una herramienta que sepa lo suficiente sobre la variante de PDF particular con la que están codificados sus files existentes. PDF es un formatting de file muy complejo, por lo que es común que los progtwigs que afirman ser compatibles con PDF solo tengan soporte parcial en realidad. Puede ser que solo haya un progtwig que realmente entienda el 100% de PDF: Adobe Acrobat Pro. No me sorprendería saber que cada uno de los otros progtwigs que se ocupan de PDF en realidad está hablando de un subset.

En pocas palabras, no esperaría que una cadena PDF-a-imprimir-desde-PDF otorgue tales garantías de calidad. Hay demasiadas oportunidades para la interpretación y la intermediación.

Si entiendo tu objective principal correctamente, no tienes que pasar por ninguna molestia al imprimir en PDF. Puede usar una herramienta de command-line como pdftk para extraer cualquier set de páginas directamente de un file PDF y savelas como una nueva. (También permite muchas más operaciones como optimizar, agregar / eliminar passwords, rotar algunas páginas, etc.). La herramienta está disponible en repositorys de packages de (probablemente) todas las distribuciones de escritorio de Linux.

La operación principal de pdftk que usaría es cat . Funciona de manera bastante intuitiva, por ejemplo:

 pdftk input_file.pdf cat 3-23 50-end output output_file.pdf 

creará un file output_file.pdf compuesto de las páginas 3 a 23 y 50 hasta el final del file original input_file.pdf . Mire en man pdftk para más ejemplos (al final del manual).

En general, no, la pérdida de calidad no debería ocurrir. Si lo hace, el progtwig tiene la culpa, no el formatting. Algunas cosas que podrían ocurrir que podrían interpretarse como pérdida de calidad:

  • Las imágenes pueden recomprimirse (lo que puede causar pérdida de generación)
  • El text (y otros vectores) se pueden convertir en splines, lo que puede causar problemas de usabilidad (imposibilidad de copyr text), etc.

Nunca he usado CUPS-PDF o PDFEdit , así que estos son meras suposiciones sobre lo que puede ocurrir, es decir, no sé si es probable que lo hagan o no.