《前文回顾》
前面写过两篇关于sycm自动化爬取的文章
①关于抓取代码的文章链接
《出师未捷身先死的sycm数据自动化》
②关于chrome版本迭代后,代码失效问题解决方案的文章链接
《关于修改window.navigator.webdriver代码失效问题》
《溯源追根》
问题前文已经说过,这里再明确下:
修改window.navigator.webdriver值的chrom启动配置代码
代码语言:javascript复制chrome_options.add_experimental_option('excludeSwitches',['enable-automation'])
在79(含79)以后的版本失效,
前面说的个人猜测chrome后续版本把这个配置都给屏蔽掉了
经过最近时间的研究发现确实如此
’谷歌修复了非无头模式下排除“启用自动化”时window.navigator.webdriver是未定义的问题
《解决方案》
上次给过一个退chrome版本的方案,详见前文
《关于修改window.navigator.webdriver代码失效问题》
方法简单粗暴,但是最近公司不让用自己电脑了,公司电脑各种权限,需要it的同事本身不太喜欢麻烦别人,而且退版本也比较麻烦,
所以试图寻找新的解决办法
前面有朋友在评论给出js方法避过验证,通过执行如下 JavaScript 语句来隐藏window.navigator.webdriver的值:
代码语言:javascript复制Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
我前面试了下,继续操作点击链接、输入网址进入另一个页面,或者开启新的窗口,window.navigator.webdriver又变成了true
是因为在网页已经加载完毕以后才运行这段 JavaScript 代码的,可此时网站自身的 js 程序早就已经通过读取window.navigator.webdriver知道你现在使用模拟浏览器,隐藏了没什么用
所以考虑在在浏览器运行网站自带的所有 JavaScript 之前,去执行这段 JavaScript 语句,这也就是今天的新解决方案。
可以通过写 Chrome 浏览器的插件,在 网站刚打开还未运行自带的 JavaScript 之前运行插件里面的 JavaScript 语句(这种方式虽然可以解决问题,但有点儿麻烦,而且重要的是本人不会写插件)
换个简单点儿的方法,使用 Google
的Chrome Devtools-Protocol(Chrome 开发工具协议)
简称CDP
。
我们打开 CDP 的官方文档,可以看到如下的命令:
代码语言:javascript复制在每个Frame 刚刚打开,还没有运行 Frame 的脚本前,运行给定的脚本。
通过这个命令,给定一段 JavaScript 代码,让 Chrome 刚刚打开每一个页面,还没有运行网站自带的 JavaScript 代码时,先执行给定的这段代码。
’如何在 Selenium 中调用 CDP 的命令?
使用driver.execute_cdp_cmd。根据 Selenium 的官方文档,传入需要调用的 CDP 命令和参数即可:
代码修正:
代码语言:javascript复制from selenium.webdriver import Chrome
driver = Chrome('./chromedriver')
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
"source": """
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
"""
})
driver.get('http://exercise.kingname.info')
运行效果如下图所示:
完美隐藏window.navigator.webdriver。并且,关键语句:
代码语言:javascript复制driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
"source": """
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
"""
})
只需要执行一次,之后只要你不关闭这个driver开启的窗口,无论你打开多少个网址,他都会自动提前在网站自带的所有 js 之前执行这个语句,隐藏window.navigator.webdriver。
‘值得注意的是:
#修改windows.navigator.webdriver,防机器人识别机制,selenium自动登陆判别机制
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
原先的 这句代码可以带着,如果去掉,也可以正常验证和操作,但是浏览器地址栏会出现自动控制标志,如下图,加上原先这句代码就不会出现这个提示框
《新登陆代码》
代码语言:javascript复制#手动登录
def login(extension_path,tmp_path):
chrome_options = webdriver.ChromeOptions()
# 设置好应用扩展
chrome_options.add_extension(extension_path)
#添加下载路径
prefs = {'profile.default_content_settings.popups': 0, 'download.default_directory':tmp_path,
"profile.default_content_setting_values.automatic_downloads":1}#允许多个文件下载
chrome_options.add_experimental_option('prefs', prefs)
#修改windows.navigator.webdriver,防机器人识别机制,selenium自动登陆判别机制
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
drive = webdriver.Chrome(chrome_options=chrome_options)
#CDP执行JavaScript 代码 重定义windows.navigator.webdriver的值
drive.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
"source": """
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
"""
})
url = 'https://sycm.taobao.com/portal/home.htm'
drive.implicitly_wait(10)
drive.get(url)
input("请手动登录,成功后输入【1】:")
#叉掉页面无关元素后再输入1继续执行
drive.maximize_window() #窗口最大化
tm=random.uniform(1,2)
time.sleep(tm)
return drive
《写在最后》
上述代码也可以移植旧版本的chrome,
不受影响依然可以正常运行,亲测可用