如果雇一个人7d×24h每10秒刷新一次Power BI,我需要每月支付他多少钱?【2】

2020-04-14 15:25:16 浏览数 (1)

书接上文

如果雇一个人7d×24h每10秒刷新一次Power BI,我需要每月支付他多少钱?

上次我们说到,使用selenium来操控浏览器打开网页,模拟点击进行刷新。

但是这种方式仍然有一个小小的问题,就是需要打开一个新的浏览器页面,并且如果按照10秒模拟点击一次,其实内存消耗还是比较大的,尤其是配置比较低的电脑。

好像遇到了一点小小的障碍……

障碍?

我们换个思路, 在点击刷新按钮的时候,右键网页-查看元素-网络,我们发现每一次刷新,其实就是代表着这一个post请求,那么只要我们将这个post请求的内容用Python发送出去,不就达到我们的目的了吗

那么

1.首先,用Firefox浏览器打开以下的页面:

2.右键空白处-查看元素-网络,然后点一下刷新按钮,在里面找到这个post

https://wabi-mc-sha-redirect.analysis.chinacloudapi.cn/powerbi/content/packages/xxxxxxxx/refresh/

这个网址就是让powerbi刷新的post请求,packages后面的数字替换成自己的就ok了,但是这个网址可不是直接复制到地址栏按enter就行的,因为这不是get请求,所以会得到这个结果。

那应该怎么办呢?很明显要用Python构建一个POST去请求了。

3.点击这个post链接,查看消息头

4.点击编辑和重发(注意先不要点击发送)

上图我们可以得到需要POST的网址和请求头内容,也就是用python来模拟浏览器的方式,包括cookies

5.开始Python大法

首先是需要用到的库,Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。

代码语言:javascript复制
import requests

requests用法特别简单,refresh_url为以上获取的刷新链接,直接用requests.post请求这个链接即可。

代码语言:javascript复制
refresh_url= 'https://wabi-mc-sha-redirect.analysis.chinacloudapi.cn/powerbi/content/packages/xxxxxxx/refresh/'
response = requests.post(refresh_url)
print(response)

打印一下响应,发现得到的是<Response [403]>,登录错误,看一下我们的代码,没有任何登录的信息,肯定是无法刷新的。

这里我们就加上请求头内容,请求头里包含了很多信息,其中就有包含登录信息的cookies,还有一些编码信息。

好,接下来我们直接将原网页的请求头复制下来,到python中,当然,需要注意格式,手动编辑一下。

代码语言:javascript复制
headers = {
'Host': 'wabi-mc-sha-redirect.analysis.chinacloudapi.cn',
'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0',
'Accept': 'application/json, text/plain, */*',
'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
'Accept-Encoding': 'gzip, deflate, br',
'ActivityId': 'xxxxxxxxxxx',
'RequestId': 'xxxxxxxxx',
'Authorization': 'Bearer xxxxxxxxxxxxxxxxxxxxxxxxxxxx',
'Content-Type': 'application/json;charset=UTF-8',
'Origin': 'https://app.powerbi.cn',
'Connection': 'keep-alive',
'Referer': 'https://app.powerbi.cn/groups/xxxxxxxxxx/list/datasets?tenant=xxxxxxx&UPN=xxxxxxx@xxxxxxxxxx',
'Content-Length': '0',
'TE': 'Trailers'}

然后在POST语句中添加headers=headers这个参数,这样就把请求头的内容放进POST中了

代码语言:javascript复制
response = requests.post(refresh_url,headers=headers)
print(response)

再打印一下响应,<Response [200]>,ok,搞定!

最后这条就是刚刚完成的POST刷新。

接下来还是每10秒刷新一次,并且加上一个刷新的时间记录,并打印出来,以便我们随时观察有没有什么问题。

代码语言:javascript复制
from datetime import datetime

while True:
    print(datetime.now())  
    response = requests.post(refresh_url,headers=headers)
    print(response)
    time.sleep(10)

这样,我们就又完成了操作。

偶尔观察一下打印结果,每次都是<Response [200]>,应该是没问题的,可以观察一段时间。

以下是刷新纪录

运行代码,葛优躺喝咖啡,甚至可以抽空来个大保健,美滋滋。

好了,做个总结,我们来对比一下今天讲的response方法和上一篇讲的selenium模拟刷新的优缺点:

用selenium登录Firefox模拟点击的办法很方便,而且能够肉眼看见刷新,也不影响用户对电脑做其他操作,只不过对于配置较低的电脑会造成占用内存较大的问题;

使用response来POST刷新链接,比selenium更进一步,甚至不需要打开浏览器,全部操作都是在后台进行,几乎不会占用内存,几乎对用户无任何影响。

那么还是那个问题,如果雇一个人7d×24h不简单每10秒刷新一次Power BI,我需要每月支付他多少钱?

完整源代码请关注公众号【学谦堂】回复“pbi自动刷新2”获取。

————————

留一个悬念,用response来POST刷新链接有一个问题,就是每当刷新一小时后,就会再次出现401错误,为什么呢?

因为powerbi这个网页虽然一直保持登录状态,但是cookies里的Authorization已经发生了变化,比如最开始的时候结尾是……QEgilBRFwTX3ZKUSA,但是过了一段时间,变成了……pyMyPKkznf1bAKSSVg。

所以cookies发生了变化,肯定登录就失效了,登录失效了,自然无法刷新,response也就不是200了。

那么问题就来了,如何得到最新的Authorization呢?

0 人点赞