书接上文
如果雇一个人7d×24h每10秒刷新一次Power BI,我需要每月支付他多少钱?
上次我们说到,使用selenium来操控浏览器打开网页,模拟点击进行刷新。
但是这种方式仍然有一个小小的问题,就是需要打开一个新的浏览器页面,并且如果按照10秒模拟点击一次,其实内存消耗还是比较大的,尤其是配置比较低的电脑。
好像遇到了一点小小的障碍……
障碍?
我们换个思路, 在点击刷新按钮的时候,右键网页-查看元素-网络,我们发现每一次刷新,其实就是代表着这一个post请求,那么只要我们将这个post请求的内容用Python发送出去,不就达到我们的目的了吗
那么
1.首先,用Firefox浏览器打开以下的页面:
2.右键空白处-查看元素-网络,然后点一下刷新按钮,在里面找到这个post
https://wabi-mc-sha-redirect.analysis.chinacloudapi.cn/powerbi/content/packages/xxxxxxxx/refresh/
这个网址就是让powerbi刷新的post请求,packages后面的数字替换成自己的就ok了,但是这个网址可不是直接复制到地址栏按enter就行的,因为这不是get请求,所以会得到这个结果。
那应该怎么办呢?很明显要用Python构建一个POST去请求了。
3.点击这个post链接,查看消息头
4.点击编辑和重发(注意先不要点击发送)
上图我们可以得到需要POST的网址和请求头内容,也就是用python来模拟浏览器的方式,包括cookies
5.开始Python大法
首先是需要用到的库,Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。
代码语言:javascript复制import requests
requests用法特别简单,refresh_url为以上获取的刷新链接,直接用requests.post请求这个链接即可。
代码语言:javascript复制refresh_url= 'https://wabi-mc-sha-redirect.analysis.chinacloudapi.cn/powerbi/content/packages/xxxxxxx/refresh/'
response = requests.post(refresh_url)
print(response)
打印一下响应,发现得到的是<Response [403]>,登录错误,看一下我们的代码,没有任何登录的信息,肯定是无法刷新的。
这里我们就加上请求头内容,请求头里包含了很多信息,其中就有包含登录信息的cookies,还有一些编码信息。
好,接下来我们直接将原网页的请求头复制下来,到python中,当然,需要注意格式,手动编辑一下。
代码语言:javascript复制headers = {
'Host': 'wabi-mc-sha-redirect.analysis.chinacloudapi.cn',
'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0',
'Accept': 'application/json, text/plain, */*',
'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Accept-Encoding': 'gzip, deflate, br',
'ActivityId': 'xxxxxxxxxxx',
'RequestId': 'xxxxxxxxx',
'Authorization': 'Bearer xxxxxxxxxxxxxxxxxxxxxxxxxxxx',
'Content-Type': 'application/json;charset=UTF-8',
'Origin': 'https://app.powerbi.cn',
'Connection': 'keep-alive',
'Referer': 'https://app.powerbi.cn/groups/xxxxxxxxxx/list/datasets?tenant=xxxxxxx&UPN=xxxxxxx@xxxxxxxxxx',
'Content-Length': '0',
'TE': 'Trailers'}
然后在POST语句中添加headers=headers这个参数,这样就把请求头的内容放进POST中了
代码语言:javascript复制response = requests.post(refresh_url,headers=headers)
print(response)
再打印一下响应,<Response [200]>,ok,搞定!
最后这条就是刚刚完成的POST刷新。
接下来还是每10秒刷新一次,并且加上一个刷新的时间记录,并打印出来,以便我们随时观察有没有什么问题。
代码语言:javascript复制from datetime import datetime
while True:
print(datetime.now())
response = requests.post(refresh_url,headers=headers)
print(response)
time.sleep(10)
这样,我们就又完成了操作。
偶尔观察一下打印结果,每次都是<Response [200]>,应该是没问题的,可以观察一段时间。
以下是刷新纪录
运行代码,葛优躺喝咖啡,甚至可以抽空来个大保健,美滋滋。
好了,做个总结,我们来对比一下今天讲的response方法和上一篇讲的selenium模拟刷新的优缺点:
用selenium登录Firefox模拟点击的办法很方便,而且能够肉眼看见刷新,也不影响用户对电脑做其他操作,只不过对于配置较低的电脑会造成占用内存较大的问题;
使用response来POST刷新链接,比selenium更进一步,甚至不需要打开浏览器,全部操作都是在后台进行,几乎不会占用内存,几乎对用户无任何影响。
那么还是那个问题,如果雇一个人7d×24h不简单每10秒刷新一次Power BI,我需要每月支付他多少钱?
完整源代码请关注公众号【学谦堂】回复“pbi自动刷新2”获取。
————————
留一个悬念,用response来POST刷新链接有一个问题,就是每当刷新一小时后,就会再次出现401错误,为什么呢?
因为powerbi这个网页虽然一直保持登录状态,但是cookies里的Authorization已经发生了变化,比如最开始的时候结尾是……QEgilBRFwTX3ZKUSA,但是过了一段时间,变成了……pyMyPKkznf1bAKSSVg。
所以cookies发生了变化,肯定登录就失效了,登录失效了,自然无法刷新,response也就不是200了。
那么问题就来了,如何得到最新的Authorization呢?