在 Linux 上构建 Web spider（6）其他问题

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-7-20 08:49 | 只看该作者

在 Linux 上构建 Web spider（6）其他问题

Linux spider 工具现在您已经学会如何实现 scraper 和 spider 了。有一些 Linux 工具也可以提供类似功能。
wget 命令（代表 Web get 之义）是一个获取 Web 内容的有用工具，它可以递归遍历 Web 站点并从中提取感兴趣的内容。其中 Web 站点、所感兴趣的内容以及其他一些管理选项都可以自定义。这个命令随后就可以将这些文件下载到本地主机上。例如，下面这个命令可以连接到所指定的 URL 上并对其进行递归遍历，不过深度不会超过 3 层，然后会从中提取扩展名为 mp3、mpg、mpeg 或 avi 的内容。
wget -A mp3,mpg,mpeg,avi -r -l 3 http://<some URL>
curl 命令也可以类似地进行操作，其优点是现在它仍然在积极的开发完善之中。可以使用的其他类似命令还有 snarf、fget 和 fetch。
合法性问题在 Internet 上使用 Web spider 进行数据挖掘已经导致了一些法律纠纷，这些纠纷解决得不太顺利。Farechase 公司最近就被 American Airlines 以屏幕 scrape（实时进行的）为由而起诉。American Airlines 先是控告搜集数据行为违反了 American Airlines 的用户协议（可以在 Terms and Conditions 中找到）。当这种控告不成立之后，American Airlines 又指责这是一种侵入行为，并由此胜诉。其他的一些法律纠纷的缘由则是 spider 和 scraper 所占用的带宽影响了合法用户的使用。这些都是有效的权利声明，因此使得礼貌原则变得更加重要。更多信息请参阅部分。
展望在 Web 上爬行和搜索可能会非常有趣，有时也会非常有益。不过正如前面介绍的那样，这里也有一些合法性问题。在进行这种操作时，一定要遵循服务器上提供的 robots.txt 文件的指示，并将其结合到您的礼貌原则当中。一些新的协议，例如 SOAP，会让爬行对于普通的 Web 操作来说更为容易，并且所受的干扰更小。将来的一些努力，例如语义 Web，将会使得爬行更加简单，因此爬行的解决方案和方法还会不断发展。

收藏分享评分

回复引用

订阅 TOP

返回列表