在出好HCTF2016的两道xss题目后,就有了一个比较严重的问题就是,如何守护xss的后台,用不能人工一直在后台刷新吧(逃
一般来说,之所以python的普通爬虫不能爬取大多数的网站的原因,是因为大多数网站都把显示数据的方式改成了js执行,通过各种各样的方式,然后输出到页面中,浏览器一般帮助你完成这部分js的解析,所以我们使用的时候,就感受不到阻碍了。
但是对于普通的爬虫来说,这就是比较致命的了,那么对于python的爬虫来说,我们一般使用比较轻量级的selenium phantomjs来解决,但是如果你的xss题目对浏览器内核有需求呢?
就好像我这里的题目guestbook浏览器要求必须是chrome一样,所以我这里选择了selenium webdriver来解决。
首先第一个问题就是你的电脑里必须要有对应的浏览器,如果想只用chrome的webdriver就必须安装过chrome,如果想用firefox的同理。
幸运的是,有份官方文档给我们看
http://www.seleniumhq.org/docs/03_webdriver.jsp
有个比较重要的就是firefox的webdriver是自带的,但是chrome并不是,所以我们需要自己来下载一个
https://sites.google.com/a/chromium.org/chromedriver/downloads
ps: webdriver的版本和本机chrome相符合的,而且语法也有所变化,这里推荐最新版chrome 最新版webdriver
pps: 虽然我没找到哪里有明确的描述,但是事实上,启动webdriver的时候,webdriver会像浏览器一样弹出来,在我的测试下,在没桌面的情况下怎么都运行不起来,可能是需求桌面的,所以想要放在线上服务器的话,可能需要有桌面才可以(我想没人会在线上服务器装个桌面吧,这里估计还是windows服务器)
一个普通的守护脚本
ok,到了最头疼的问题了,如何处理选手插入的js,如果你尝试了用上面的办法写一个守护脚本,你会发现,选手发一个alert(1)
,你的代码就会卡住,然后bot就挂了,这里我使用了通过不停的点击确定,直至捕获错误为止
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import WebDriverException
import os
import time
while 1:
chromedriver = "C:UsersAdministratorAppDataLocalGoogleChromeApplicationchromedriver.exe"
os.environ["webdriver.chrome.driver"] = chromedriver
browser = webdriver.Chrome(chromedriver)
url = "http://guestbook.hctf.io/admin_lorexxar.php"
browser.get(url)
browser.add_cookie({'name': 'admin',
'value' : 'hctf2o16com30nag0gog0',
'path' : '/'})
browser.get(url)
while 1:
try:
browser.switch_to_alert().accept()
except selenium.common.exceptions.NoAlertPresentException:
break
print browser.title
print time.strftime("%Y-%m-%d %X", time.localtime())
time.sleep(2)
browser.quit()
time.sleep(10)
这里的
代码语言:javascript复制
browser.switch_to_alert().accept()
可以处理一切的弹窗问题,保证webdriver起码不会被弹窗卡住
代码语言:javascript复制
print browser.title
print time.strftime("%Y-%m-%d %X", time.localtime())
time.sleep(2)
这里输出browser.title的原因是,这里如果不调用browser输出页面内容的话,如果因为网络原因,页面还没有加载出来,这里会经过下面的time.sleep
直接退出。
等待页面加载完成后,我们需要给时间来加载选手的js,所以这里的time.sleep
是必须的。
在我的测试下,这里只要没有弹窗,即使js没有加载完成,也会被quit关闭webdriver。
由于留给加载js的时间是有限的,所以在这里,需要另一个脚本来清空数据库中发送的留言,这里我把这部分单独出去了,不过完全可以集合在脚本里,就不多提了。
需要登陆或者需要交互式的xss守护脚本
上面说了,类似于留言板的守护方式,那么如果是交互式的,而且通过session来判断用户的,该怎么办呢?
这里我使用request来登陆获取cookie,然后传给browser中
代码语言:javascript复制
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import WebDriverException
import os
import time
import requests
while 1:
s = requests.Session()
url = 'http://sguestbook.hctf.io/login.php'
data = {
'user': 'admin',
'pass': 'jklfdnkrejknklhjklfjql'
}
r = s.post(url, data, allow_redirects = False)
session = r.headers['Set-Cookie'][10:-8]
chromedriver = "C:UsersAdministratorAppDataLocalGoogleChromeApplicationchromedriver.exe"
os.environ["webdriver.chrome.driver"] = chromedriver
browser = webdriver.Chrome(chromedriver)
url = "http://sguestbook.hctf.io/user.php"
browser.get(url)
browser.switch_to_alert().accept()
browser.add_cookie({'name': 'PHPSESSID',
'value' : session,
'path' : '/'})
browser.get(url)
while 1:
try:
browser.switch_to_alert().accept()
except selenium.common.exceptions.NoAlertPresentException:
break
print browser.title
print time.strftime("%Y-%m-%d %X", time.localtime())
time.sleep(2)
browser.quit()
time.sleep(10)
这样就比较合适的解决了问题。
ps:改脚本的时候其实有一点儿问题,这里的phpsession其实可以复用,因为默认有效时间大概是3小时,可以把判断改为判断session失效后调用登陆获取新的session。
在2天48小时的时间内,我的bot只挂了大概5次左右,其中两次是不小心被我们的运维ban了,有两次是在发起请求的时候超时导致卡死退出,还有一次目测是有个选手发了大概20条刷新,导致webdirver直接卡死退出了。
虽然不能说是完善的xss题目守护解决方案,不过也算是解决了大部分的情况,希望有人能提出更好的办法吧