用wget下载整个网站或索引目录

一直不知道nginx或者apache建立的索引目录是怎么下载的,偶然听到一个朋友说wget可以,在网上一查果真行,哎哎,终于可以满足自己的下载欲望了。记录命令使用情况如下。

$ wget -c -r -nd -np -k -L -p -A c,h www.xxx.com/doc/path/

-c 断点续传
-r 递归下载,下载指定网页某一目录下(包括子目录)的所有文件
-nd 递归下载时不创建一层一层的目录,把所有的文件下载到当前目录
-np 递归下载时不搜索上层目录。

如wget -c -r www.xxx.com/doc/path/ 没有加参数-np,就会同时下载path的上一级目录pub下的其它文件

-k 将绝对链接转为相对链接,下载整个站点后脱机浏览网页,最好加上这个参数

-L 递归时不进入其它主机,如wget -c -r www.xxx.com/ 如果网站内有一个这样的链接: www.yyy.com,不加参数-L,就会像大火烧山一样,会递归下载www.yyy.com网站
-p 下载网页所需的所有文件,如图片等
-A 指定要下载的文件样式列表,多个样式用逗号分隔
-i 后面跟一个文件,文件内指明要下载的URL。

下载有索引目录
wget -m http: //www.xxx.com/dir/ 这个最强力了!前提是目录必须是索引目录!

下载一个目录,例如网站的yourdir

wget -U “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)” -r -p -k -np -Pmydir -nc -o down.log http://www.xxx.com/yourdir/index.html

如果要想下载整个网站,最好去除-np参数。

wget -U “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; GTB5)” -r -p -k -nc -o down.log http://www.xxx.com/index.html

-U 修改agent,伪装成IE货firefox等
-r 递归;对于HTTP主机,wget首先下载URL指定的文件,然后(如果该文件是一个HTML文档的话)递归下载该文件所引用(超级连接)的所有文件(递归深度由参数-l指定)。对FTP主机,该参数意味着要下载URL指定的目录中的所有文件,递归方法与HTTP主机类似。
-c 指定断点续传功能。实际上,wget默认具有断点续传功能,只有当你使用别的ftp工具下载了某一文件的一部分,并希望wget接着完成此工作的时候,才需要指定此参数。
-nc 不下载已经存在的文件
-np 表示不跟随链接,只下载指定目录及子目录里的东西;
-p 下载页面显示所需的所有文件。比如页面中包含了图片,但是图片并不在/yourdir目录中,而在/images目录下,有此参数,图片依然会被正常下载。
-k 修复下载文件中的绝对连接为相对连接,这样方便本地阅读。

2 Comments
    1. 那个是php来的,还不一样

Leave a Reply

Time limit is exhausted. Please reload the CAPTCHA.