在新手上路(三)贴过一段代码,就是爬取问吧里面的question 问题,answer回答,topic话题标签,source问题来自哪个板块。
有一种有一种感觉就是被折腾的不要不要的,DataFrame想merge又不好办,map()智能针对返回值只有一个的函数,本来pandas,numpy就不怎么熟练。
发现scrapy处理就简单了。
spider
VARITEM是自定义函数,在parse中Request对其进行调用,并且把url值给了它。算得上有两只脚的爬虫了。
item
settings
pipelines
采用最常用的管道,对数据库,什么的接口不熟
———————————————————-
看着这个结构就感觉比py2的简洁多了。完全不用懂http协议什么的。
运行爬虫—- 让系统帮搞定csv,管道学的差:
scrapy crawl daxiong -o item.csv
结果:
txt格式的:unicode码……就不贴了,有点吓人。
搞了这么多,对框架应该有些了解了。