Wget
De gacq wiki
Solo baja archivo robots
Cuando solo de baja el archivo robots.txt Quiere decir que esta activada un funcionalidad para proteger el servidor Se puede arreglar agregandoo la siguiente opcion:
wget -e robots=off url...
Usar con responsabilidad
Para bajar recursivamente grandes sitios
wget -c -t 50 -T 5 -w 1 -e robots=off -r URL
Para bajar archivos muy grandes en redes malas
wget -c -t 0 -T 5 -w 2 URL