python3[爬虫实战] 使用selenium,xpath爬取京东手机

2019-03-25 17:45:41 浏览数 (1)

使用selenium ,可能感觉用的并不是很深刻吧,可能是用scrapy用多了的缘故吧。不过selenium确实强大,很多反爬虫的都可以用selenium来解决掉吧。

思路:

入口:

这里使用的Chrome 浏览器,方便能看到信息是否录入正确, 这里,我们首先找到输入框,然后填上 zuk z2 手机 然后再找到 搜索按钮,选中点击后, 然后再找到zuk z2手机(蓝色的字体)

这样子点完之后,我们就会出现第一页的那个图片,显示的手机商品信息

这样子我们就把整个逻辑走完了,剩下的就交给代码了,里面的注释还算详细。

代码语言:javascript复制
# -*- coding: utf-8 -*-


import re
import time
from selenium import webdriver
import os
from lxml import etree


#如果没有配置chromedriver.exe的环境变量,要写完整路径
# chromedriver = "C:Program Files (x86)GoogleChromeApplicationchromedriver.exe"
chromedriver = "chromedriver.exe"
browser = webdriver.Chrome(chromedriver)

url = "https://www.jd.com/"
browser.get(url)
time.sleep(5)
#手机号登录
phoneLogin = browser.find_element_by_xpath('//*[@id="key"]')
phoneLogin.send_keys('ZUK Z2手机')

time.sleep(3)
# 搜索
btnNext = browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')
btnNext.click()

#加上延迟时间,不然可能拿不到数据
time.sleep(3)
btnPhone = browser.find_element_by_xpath('//*[@id="J_searchWrap"]/div[2]/a')
btnPhone.click()
page = browser.page_source
html = etree.HTML(page)

links = html.xpath("//*[@id='J_goodsList']/ul[@class='gl-warp clearfix']")
print('links',links)
for link in links:
    # 通过xpath获取商品链接
    verlink = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-img']/a/@href")

    #通过xpath获取商品价格
    price = link.xpath("./li[@class='gl-item']/div[@class='gl-i-wrap']/div[@class='p-price']/strong")
    print(price)
    print(verlink)

print(len(links))

这里控制台打印了一下链接信息(需求如此):

文章参考:http://www.jianshu.com/p/d07ec60e8b6f

0 人点赞