Lynx lee las URL de los files y enlaces de descarga

  1. Tengo 500 urls en mi file.
  2. Necesito extraer todos los enlaces que aparecen en estas URL.

¿Cómo leer un file con Lynx y extraer enlaces dentro del file?

Muestra de file.txt continuación, 1 enlace por fila y 500 filas en total

 https://itunes.apple.com/ https://play.google.com/ 

… y así

Aquí hay un script mejorado:

 #!/bin/sh cat file.txt |while read url do lynx -listonly -dump "$url" done | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \ sort -u 

permitiendo cualquier tipo de URL reconocida por lynx (incluido ftp, por ejemplo). El script ordera el resultado, elimina los duplicates (que lynx no hará por sí mismo).

Otras lecturas:

  • La Guía del usuario de Lynx

Llamando list.txt tu list:

 for i in $(cat list.txt) do lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/" done 

Sugiero networkingirigir la salida en algún file.