[实践OK]linux wget 抓取整个网站网页包括css背景图片，对一些前端做了不让打开F12的JS提示文件搜索，PHP wget 获取文件

jackx 2011-9-1 23:06

-r, –recursive（递归） specify recursive download.（指定递归下载）
-k, –convert-links（转换链接） make links in downloaded HTML point to local files.（将下载的 HTML 页面中的链接转换为相对链接即本地链接）
-p, –page-requisites（页面必需元素） get all images, etc. needed to display HTML page.（下载所有的图片等页面显示所需的内容）
-np, –no-parent（不追溯至父级） don’t ascend to the parent directory.
另外断点续传用 - nc 参数日志用 - o 参数
http://www.mokeyjay.com/archives/959

整站下载后用grep 实现找JS提示文案，定位JS文件名称：

示例用wget下载整个目录包括图片和CSS&HTML：
root@116.255.139.240:/home/admin/wget#
wget -r -x  http://c.jackxiang.com/login/index.html?url=http://bbs.jackxiang.com/passport.php
查看下载情况：
root@116.255.139.240:/home/admin/wget/c.jackxiang.com/login# ls
css  images  index.html?url=http:%2F%2Fbbs.jackxiang.com%2Fpassport.php

wget 是一个命令行的下载文件工具,它支持HTTP，HTTPS和FTP协议，可以使用HTTP代理。Linux用户经常需要使用它。下此介绍几个wget使用的技巧。
wget技巧大全:
1>下载 http://www.linux.com 网站上 packs 目录中的所有文件
$ wget -r -np -nd http://www.linux.com/packs/
-np 的作用是不遍历父目录
-nd 表示不在本机重新创建目录结构。
2>下载整个http或者ftp站点
$ wget -r -x http://www.linux.com
-x  的作用强制建立服务器上一模一样的目录
这个命令会按照递归的下载服务器上所有的目录和文件，就是下载整个网站。在下载的时候，被下载网站指向的所有地址都会被下载，如果这个网站引用了其他网站，被引用的网站也会被下载下来！！！
注意: 可以用-l number参数来指定下载的层次。例如只下载两层，那么使用-l 2。
如: wget -r -x -l 2 http://www.linux.com
3>wget选择性的只下载某类文件
$ wget -r -np -nd –accept=iso http://www.linux.com/i386/
–accept=iso 选项，这指示wget仅下载 i386 目录中所有扩展名为 iso 的文件。你也可以指定多个扩展名，只需用逗号分隔即可。
4>批量下载
wget -i downloads.txt
如果有多个文件需要下载，那么把所有需要下载文件的地址放到downloads.txt中(每个文件的URL写一行)，然后 wget 就会自动为你下载所有文件了。
5>断点续传
$ wget -c -t 100 -T 120 http://www.linux.com/big-file.iso
当文件特别大或者网络特别慢的时候，往往一个文件还没有下载完，连接就已经被切断，此时就需要断点续传。wget的断点续传是自动的。
-c 选项的作用为断点续传。
-t 参数表示重试次数(例如需要重试100次，那么就写-t 100，如果设成-t 0，那么表示无穷次重试，直到连接成功。)
-T 参数表示超时等待时间，例如-T 120，表示等待120秒连接不上就算超时。
6>镜像一个网站
$ wget -m -k (-H) http://www.linux.com/
如果网站中的图像是放在另外的站点，那么可以使用 -H 选项。

在php中，wget还是用到的比较多的，因为有时候会抓一下资源或者图片等等，
这个时候file_get_contents就不大好用了，而且wget可以设置抓取的次数，时间等等，
这些都是file_get_contents所不具备的，
wget是shell命令，php如果想要调用直接用exec()函数就好了。 exec("wget -i xxxxx xxxxx");

脚本实现：
============================================================
介绍一下这个脚本的细节：
第3行用于设置要下载的网站的地址。
第10行用于将文件名转换为windows兼容的格式。windows对文件名格式的要求比unix更为苛刻一点，这里指定为windows也可以兼容unix系统。总的来说，wget的这个功能稍微弱了一点，面对一些更苛刻的系统就没有办法了。
第13行用于忽略robots.txt。很多网站的css、js文件都是在robots.txt中被定义为spider不可访问的。
第15、16行用于忽略某些目录和文件。因为没有了robots.txt的限制，wget可能会去访问一些不需要的东西。这里可以根据具体情况做限制。
第19～24行下载css中链接的文件。
第26～29行修正css中的链接。

参考：http://www.wduw.com/read.php?110
        http://www.wduw.com/read.php?110
        http://blog.csdn.net/jianglei421/article/details/6547826

作者：jackx@向东博客专注WEB应用构架之美 --- 构架之美，在于尽态极妍 | 应用之美，在于药到病除
地址：http://jackxiang.com/post/4593/
版权所有。转载时必须以链接形式注明作者和原始出处及本声明！

最后编辑： jackx 编辑于2021-8-13 23:56

[个人原创]Linux用GDB调试时如何打印数组，结构体的全值打印及其修

[人个原创]使用Linux的rsync命令实现：网站镜像和代码分发及备

评论列表

向东博客专注WEB应用构架之美 --- 构架之美，在于尽态极妍 | 应用之美，在于药到病除|赢在IT，Playin' with IT,Focus on Killer Application,Marketing Meets Technology.

[实践OK]linux wget 抓取整个网站网页包括css背景图片，对一些前端做了不让打开F12的JS提示文件搜索，PHP wget 获取文件

分类

最新日志

链接

向东博客 专注WEB应用 构架之美 --- 构架之美，在于尽态极妍 | 应用之美，在于药到病除|赢在IT，Playin' with IT,Focus on Killer Application,Marketing Meets Technology.

[实践OK]linux wget 抓取整个网站网页包括css背景图片，对一些前端做了不让打开F12的JS提示文件搜索，PHP wget 获取文件

分类

最新日志

链接

向东博客专注WEB应用构架之美 --- 构架之美，在于尽态极妍 | 应用之美，在于药到病除|赢在IT，Playin' with IT,Focus on Killer Application,Marketing Meets Technology.