¿Cómo get el text de una página usando wget sin html?

Si pruebo wget en una página web, obtengo la página como html. ¿Es posible recuperar solo el text de un file sin html asociado? (Esto es necesario para mí, ya que algunas de las páginas HTML contienen c progtwig que se descarga con tags html. Tengo que abrirlo en el browser y copyr manualmente el text para crear un file .c).

wget solo recuperará el documento. Si el documento está en HTML, lo que desea es el resultado de analizar el documento.

Podrías, por ejemplo, usar lynx -dump -nolist , si tienes lince alnetworkingedor.

lynx es un browser web liviano y simple, que tiene la function -dump , utilizada para generar el resultado del process de análisis sintáctico. -nolist evita la list de enlaces al final, que aparecerá si la página tiene algún hyperlink.

Como mencionó @Thor, los enlaces también se pueden usar para esto, ya que también tiene una opción -dump (y tiene -no-references para omitir la list de enlaces). Puede ser especialmente útil si caminas a través de un sitio usando "frames" (MTFBWY).

Además, tenga en count que, a less que la página sea realmente solo código C con tags HTML, deberá verificar el resultado, solo para asegurarse de que no haya nada más que código C.

Si no tiene estas otras herramientas instaladas, solo wget, y la página no tiene formatting, solo text y enlaces, por ejemplo, código fuente o una list de files, puede quitar el HTML usando sed de esta manera:

 wget -qO- http://address/of/page/you/want/to/view/ | sed -e 's/<[^>]*>//g' 

Esto usa wget para volcar el origen de la página a STDOUT y sed para eliminar cualquier <> par y cualquier cosa entre ellos.

A continuación, puede networkingirigir la salida del command sed al file que desea crear usando>:

 wget -qO- http://.../ | sed -e 's/<[^>]*>//g' > downloaded_file.txt 

NB: puede encontrar que tiene espacios en blanco adicionales en el file que no desea (por ejemplo, las líneas tienen sangría en algunas columnas)

Puede ser más fácil usar su editor de text para orderar el file (o un formateador de origen cuando está descargando el código fuente de C).

Si necesita hacer lo mismo para cada línea del file, puede include un command para hacerlo en el command sed (aquí quitando un espacio principal):

 wget -qO- http://.../ | sed -e 's/<[^>]*>//g;s/^ //g' > downloaded_stripped_file.txt 

solo para agregar otra herramienta. Prefiero w3m , que es un browser de console de lynx . Es posible que desee comprobar lo que ya está disponible en su sistema.

 w3m -dump website.html