首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

python--爬虫--获取和解析存储网页内容--以薄荷网为例(7)

python--爬虫--获取和解析存储网页内容--以薄荷网为例(7)

requests实例
实例1:京东商品页面的爬取

现在我们利用requests库爬取京东的商品信息

首先引入requests库

import requests



复制代码然后爬取页面

r =requests.get("https://item.jd.com/4645290.html")



复制代码然后我们测试状态码,编码和内容

r.status_code
r.encoding
r.text[:1000]



可以看到输出了获取到的页面内容前1000个字符。

到此,说明我们已经成功利用requests库获取到了商品页面的信息。

完整的爬取代码

import requests
url = "https://item.jd.com/4645290.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")
返回列表