京东百亿补贴上线,电商巨头价格战卷起来

2023-03-06 16:16:36 浏览数 (2)

随着全力拼经济的号角吹响,扩内需、促消费、提振经济已经成为当下的主旋律。扩大消费不仅需要政策层面的细致引导,还需要不断挖掘新的消费热点来激发消费市场潜力。为响应政策,尽快恢复和扩大国内消费需求,提振经济发展信心,京东百亿补贴3月6日晚8点全面上线,他们都在讨论,京东上线百亿补贴策略目标是对标拼多多,毕竟之前看到百亿补贴大家都立马想到的是拼多多,看来价格战似乎又要在电商巨头间打响。

作为爬虫,日常工作就是获取各种数据,电商数据目前还是比较有价值的,现在又开始进行价格大比拼,那我们就用python采集四大电商平台商品价格数据进行对比,并作可视化数据分析。这篇文章就以京东上关于电子产品类的价格为需求进行爬取。

1、分析网页结构,查看网页。

2、分析网站,电商类的网站一般都比较难爬取,会有各种反爬机制阻止爬虫。这里我们可以使用代理 IP、修改请求头部信息、降低请求频率或使用其他语言库,如 aiohttp、 Scrapy、Selenium 等,来进行复杂的反爬处理。比如这里我们可以使用aiohttp、爬虫代理加强版IP和随机User-Agent实现数据采集。

代码语言:javascript复制
import urllib.parse
import asyncio
import aiohttp
import lxml.html
import random

URL_TEMPLATE = 'https://search.jd.com/search?keyword=手机/{}'
HEADERS_LIST = [
    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',
    'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; AS; rv:11.0) like Gecko',
    # 添加更多 User-Agent
]

# 代理服务器( www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "16yun"
proxyPass = "16ip"

PROXIES = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

async def query(content):
    async with aiohttp.ClientSession(headers=get_random_headers()) as session:
        url = URL_TEMPLATE.format(urllib.parse.quote(content))        
        async with session.get(url, proxy=PROXIES) as response:
            html = lxml.html.fromstring(await response.read())
            sen_list = html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmaWgt-lemmaSummary")]//text()')
            sen_list_after_filter = [item.strip('n') for item in sen_list]
            return 'n'.join(sen_list_after_filter).encode('utf-8')

async def main():
    async for content in get_input():
        result = await query(content)
        print("查询结果:n%s" % result.decode('utf-8'))

async def get_input():
    while True:
        yield input('查询词语:')

def get_random_headers():
    return {'User-Agent': random.choice(HEADERS_LIST)}

if __name__ == '__main__':
    asyncio.run(main())

这段代码实现了一个基于 asyncio 和 aiohttp 的异步京东手机类价格的查询,具有较高的并发性能和响应速度,同时通过爬虫代理加强版IP和随机User-Agent能够提高采集的效率。此办法我们也可以使用在其他电商数据的爬取上。

0 人点赞