¿Existen otras buenas herramientas además de SeleniumRC que puedan get páginas web, incluido el contenido post-pintado por JavaScript?

Una de las principales deficiencias de curl es que cada vez más wepages está pintando su contenido principal mediante una respuesta JavaScript AJAX que ocurre después de la respuesta HTTP inicial. curl nunca recoge este contenido pintado.

Así que para search estos types de páginas web desde la command-line, me he visto networkingucido a escribir guiones en Ruby que manejan el SeleniumRC para iniciar una instancia de Firefox y luego devolver el código fuente HTML después de que se hayan completado estas llamadas AJAX.

Sería mucho mejor tener una solución de línea de command más sencilla para este tipo de problema. ¿Alguien sabe de alguna?

Recientemente comencé a usar WebDriver de Selenium 2 en Java. Hay un controller llamado HtmlUnitDriver que admite completamente JavaScript pero no enciende un browser real.

No es una solución ligera, pero hace el trabajo bien.

Diseñé el código para ejecutarlo desde la línea de command y guardo los datos web en files.

¿Has considerado a Watir?

http://watir.com/

Cuando haya agregado el package, puede ejecutarlo como un file independiente o desde irb , línea por línea, después de include 'watir-webdriver' . He encontrado que es más receptivo que selenium-webdriver , pero sin la GUI de grabación de testing para ayudar a resolver condiciones de testing complejas.