Convierte files html vinculados en un file pdf?

Me gustaría convertir un libro en línea ( files html vinculados) en un file pdf.

Intenté el path de dos pasos en http://kmkeen.com/mirror/2009-02-05-14-00-00.html

  1. Primero, descargue los files html por

    wget -nd -mk http://www.unknownroad.com/rtfm/gdbtut/ 

    Pero ha descargado una gran cantidad de files no relacionados. Entonces, tengo que eliminar los files no relacionados.

  2. Luego, trato de convertir el libro html descargado en un file pdf:

     htmldoc --webpage -f gdb.pdf html/index.html html/*.html 

    pero el order de las páginas en el file pdf no es correcto.

Me pregunto qué buena manera de download y convertir un libro en línea (files html vinculados) en un file pdf?

Mi sistema operativo es Ubuntu 12.04.

Como se menciona en las instrucciones que vinculó:

La expansión global pnetworkingeterminada coloca las páginas en order alfabético.

La página de índice enlaza a nueve documentos diferentes, cuyos nombres no están en order alfabético. Cuando dice htmldoc ... *.html , las herramientas las ven en ese order y las coloca en el documento alfabéticamente. htmldoc enumerar los files en la línea de command en el order en que desee que htmldoc procese.

En este caso específico, puede generar una list orderada de nombres de files, ya que están vinculados en el índice con:

 awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq 

asi que

 htmldoc --webpage -f gdb.pdf index.html $(awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq) 

tendrá el efecto que desee.