知识星球周报总结是对未闻Code·知识星球上的每周内容进行汇总,完全干货!
一、知识科普
之前在知识星球上有人问如下找出连续子序列的最大和,这样算是不是很慢?哪里可以优化呢?
代码语言:javascript复制nums=[3,-4,2,-1,2,6,-5,4]
lm=[]
for j in range(len(nums)-1):
sum=nums[j]
ls=[]
for i in range(j 1,len(nums)):
sum=sum nums[i]
ls.append(sum)
lm.append(max(ls))
print(max(lm))
针对该问题,实际上有办法只循环一遍就能得出结果。
首先初始化最大和为s=0。当前最大值smax=0
然后从第一个数开始遍历,逐个加到s上面。一旦发现s≤0,就放弃前面所有数据,从下一位开始。一旦某一位为负数,那么对比s和smax,如果s更大,就更新smax,然后继续累加,此时s可能会变小,但只要不为负就不用清空。按这个方法遍历到最后一个数字。smax就是答案。
二、问题解答
1
提问:python怎么设置socks5代理呢?
点击空白处查看答案
首先,需要安装socks这个库:
pip3 install 'requests[socks]'
然后就可以使用SOCKS协议代理了,示例如下:
import requests
proxies = {
'http': 'socks5://user:password@host:port',
'https': 'socks5://user:password@host:port'
}
requests.get(网址, proxies=proxies)
2
如何通过微信发送超过200M的大文件?
点击空白处查看答案
只需要把文件的后缀名改成.m4v就可以发送了,对方收到以后再把文件后缀名改回来。
3
什么时候该使用静态方法,什么时候又该使用类方法呢,这个点一直搞不太清楚,这里平时写业务代码的时候有什么区分的原则或者技巧吗?
点击空白处查看答案
一日一技:什么情况使用静态方法和类方法?
4
南哥,数据采集带宽使用过高,input带宽已经快到200M。有什么优化方案可以降低带宽使用么?目前想到一个是在数据采集请求中添加压缩header(Accept-Encoding: gzip, deflate)。
点击空白处查看答案
降低频率,对url进行去重
5
接问题5,降低频率会影响采集效率,需求是增量的实时监控,URL不可以去重。
点击空白处查看答案
多买几台机器,把压力分散开。
6
提问:南哥,我写了一个上报健康状态的python脚本,以解决有时遗忘健康打卡的问题,但是如何实现定时运行呢?可能我不会每时每刻都保持电脑待机。
点击空白处查看答案
买一台服务器,服务器可以24小时运行,然后启动crontab就可以定时了。
7
看scrapy–redis文档介绍用法是修改settings一些配置和修改spider的继承类,那么是需要同时修改配置和继承类才可以,还是只修改配置或者继承类就可以呢?
点击空白处查看答案
并不需要同时改。你只需要把父类改成RedisSpider就已经可以用scrapy_redis了。settings里面的配置是增加新功能。
8
scrapy写的项目,想用scrapy_redis改写成每天定时爬取的增量式爬虫,但是scrapy_redis对url会去重,怎么才能把scrapy里start_urls的url在改写后不去重呢?是需要每次启动scrapy_redis之前先往redis存url吗(url数量大概三四百个)?
点击空白处查看答案
在yield scrapy.Request中增加一个参数:dont_filter=True