首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

在 Linux 上构建 Web spider(6)其他问题

在 Linux 上构建 Web spider(6)其他问题

Linux spider 工具 现在您已经学会如何实现 scraper 和 spider 了。有一些 Linux 工具也可以提供类似功能。
wget 命令(代表 Web get 之义)是一个获取 Web 内容的有用工具,它可以递归遍历 Web 站点并从中提取感兴趣的内容。其中 Web 站点、所感兴趣的内容以及其他一些管理选项都可以自定义。这个命令随后就可以将这些文件下载到本地主机上。例如,下面这个命令可以连接到所指定的 URL 上并对其进行递归遍历,不过深度不会超过 3 层,然后会从中提取扩展名为 mp3、mpg、mpeg 或 avi 的内容。
wget -A mp3,mpg,mpeg,avi -r -l 3 http://<some URL>
curl 命令也可以类似地进行操作,其优点是现在它仍然在积极的开发完善之中。可以使用的其他类似命令还有 snarf、fget 和        fetch。
合法性问题在 Internet 上使用 Web spider 进行数据挖掘已经导致了一些法律纠纷,这些纠纷解决得不太顺利。Farechase 公司最近就被 American Airlines 以屏幕 scrape(实时进行的)为由而起诉。American Airlines 先是控告搜集数据行为违反了 American Airlines 的用户协议(可以在 Terms and Conditions 中找到)。当这种控告不成立之后,American Airlines 又指责这是一种侵入行为,并由此胜诉。其他的一些法律纠纷的缘由则是 spider 和 scraper 所占用的带宽影响了合法用户的使用。这些都是有效的权利声明,因此使得礼貌原则变得更加重要。更多信息请参阅  部分。
展望 在 Web 上爬行和搜索可能会非常有趣,有时也会非常有益。不过正如前面介绍的那样,这里也有一些合法性问题。在进行这种操作时,一定要遵循服务器上提供的 robots.txt 文件的指示,并将其结合到您的礼貌原则当中。一些新的协议,例如 SOAP,会让爬行对于普通的 Web 操作来说更为容易,并且所受的干扰更小。将来的一些努力,例如语义 Web,将会使得爬行更加简单,因此爬行的解决方案和方法还会不断发展。
返回列表