wget으로 웹페이지에 링크돼 있는 문서들 다 받기

Posted at 2008/03/06 13:43 // in Tips/Utility programs // by Daniel
리눅스의 유틸리티 wget은 http나 https, ftp로 파일을 다운로드 받을 때 커맨드라인에서 쉽게 받을 수 있는 프로그램입니다.
웹페이지가 있고 그 페이지에 여러 페이지나 자료의 링크가 있는데 이걸 다 받고 싶은 경우 wget 의 옵션을 사용하면 됩니다.
(예를 들어 강의 페이지의 자료들을 한꺼번에 받고 싶을 때 말이죠)

일단 해당 페이지를 받습니다.
$ wget URL

예를 들어
$ wget html://rommance.net/misc_path/a.html

그 다음 이 웹 페이지에서 나온 링크들을 전부 받습니다.
이제 사용하는 옵션은
-i : 뒤에 나오는 파일 안에 있는 URL을 다 다운로드 합니다.
-F : 파일을 html로 인식한다.
-B : Base URL(상대경로의 링크일 때 기본 베이스 주소)
이 세가지를 쓰면 됩니다.

$ wget -i a.html -F -B http://rommance.net/misc_path/

이런 식으로 사용하면 a.html 안에 있는 링크된 페이지와 자료들이 다 다운로드 됩니다.
크리에이티브 커먼즈 라이센스
Creative Commons License