Web渗透之网站信息、域名信息、端口信息、敏感信息及指纹信息收集

作者介绍：杨秀璋

自幼受贵州大山的熏陶，养成了诚实质朴的性格。经过寒窗苦读，考入BIT，为完成自己的教师梦，放弃IT、航天等工作，成为贵财一名大学教师，并想把自己所学所感真心传授给自己的学生，帮助更多陌生人。

一.Web渗透第一步

网站是一个安装在电脑上的应用程序，它有操作系统、应用程序以及服务器。例如WAMP包括：

Web服务器：Apache

数据库：MySQL

编程语言：PHP

网站HTML站点访问的基本流程如下图所示：客户端输入访问URL，DNS服务器会将域名解析成IP地址，接着IP地址访问服务器内容（服务器、数据库、应用程序），最终将内容反馈至客户端的浏览器。

数据库包括要调用的数据，并存储在Web服务器上，这台服务器有真实的IP地址，每个人都能访问、Ping通它。每次页面请求或运行程序时，Web应用程序在服务器上执行，而不是在客户的机器上。

那么，如何入侵一个网站呢？

入侵安装在计算机上的应用程序称为Web应用渗透测试，入侵带操作系统的计算机和应用程序称为服务端攻击，入侵人称为社会工程学攻击。在我们进行Web渗透之前，不是拿到目标就开始使用Webdirscan、SQLMAP等工具，而是需要先获取网站的指纹信息，获取的信息越多，越容易找到背后的漏洞或注入点。常见的搜集信息包括：

IP地址

域名信息（邮箱、联系人、地址、电话）

技术使用（框架、服务器、数据库、编程语言）

在同一台服务器上的其他网站旁站

DNS记录

文件、子域、目录

这篇文章就将简单Web渗透的第一步操作——常见信息收集方法，希望读者们喜欢。

二.域名信息收集

1.域名查询

域名系统

域名系统（英文：Domain Name System，缩写：DNS）是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库，能够使人更方便地访问互联网。简单来说就是一个将域名翻译成ip地址的系统。

域名是由一串用点分割的名字组成的Internet上某一台计算机或计算机组的名称，用于在数据传输时标识计算机的电子方位。浏览网站的过程如下图所示，从DNS服务器中获取指定域名对应的IP地址。

域名解析

举一个例子，zh.wikipedia.org作为一个域名就和IP地址198.35.26.96相对应。DNS就像是一个自动的电话号码簿，我们可以直接拨打198.35.26.96的名字zh.wikipedia.org来代替电话号码（IP地址）。DNS在我们直接调用网站的名字以后就会将像zh.wikipedia.org一样便于人类使用的名字转化成像198.35.26.96一样便于机器识别的IP地址。再如51cto.com域名，edu.51cto.com和www.51cto.com是该域名对应的子域名，而edu和www是对应的主机名。

2.Whois查询

Whois是用来查询域名的IP以及所有者等信息的传输协议。简单说，Whois就是一个用来查询域名是否已经被注册，以及注册域名的相信的数据库（如域名所有人、域名注册商）。

不同域名后缀的Whois信息需要到不同的Whois数据库查询，如.com的Whois数据库和.edu的不同。每个域名或IP的Whois信息由对应的管理机构保存，例如以.com结尾的域名的Whois信息由.com运营商VeriSign管理，中国国家顶级域名.cn由CNNIC（中国互联网信息中心）管理。

Whois协议基本内容是：先想服务器的TCP端口43建立一个连接，发送查询关键字并加上回车换行，然后接收服务器的查询结果。

通过Whois查询可以获得域名注册者邮箱地址等信息，一般情况下对于中小型网站域名注册者就是网站管理员，利用搜索引擎对Whois查询到的信息进行搜索，获取更多域名注册者的个人信息。

Whois查询方法：

(1) Web接口查询

常见的网站包括：

Whois站长之家查询：http://whois.chinaz.com/

Whois Lookup 查找目标网站所有者的信息：http://whois.domaintools.com/

Netcraft Site Report 显示目标网站上使用的技术：http://toolbar.netcraft.com/site_report?url=

Robtex DNS 查询显示关于目标网站的全面的DNS信息：https://www.robtex.com/

全球Whois查询：https://www.whois365.com/cn/

站长工具爱站查询：https://whois.aizhan.com/

(2) 通过Whois命令查询

在Kali Linux下自带的Whois查询工具，通过命令Whois查询域名信息。

(3) Python撰写Whois代码

接着作者使用Robtex DNS 查询网站相关信息，显示如下所示，它增加了IP地址内容（60.205.24.36），再通过网站能定位物理地址。

IP地址：60.205.24.36

Host名称：www

Mail servers：mxn.mxhichina.com、mxw.mxhichina.com

Netcraft Site Report显示目标网站信息如下，包括网站搭建框架和操作系统。

OS：Windows Server 2008

Web服务器：Microsoft IIS/7.5

3.备案信息查询

ICP备案是指网络内容提供商（Internet Content Provider），《互联网信息服务管理办法》指出需要对网站进行备案，未取得许可不得从事互联网信息服务。

IPC备案查询方法包括：

https://www.beian88.com/

http://beian.miit.gov.cn/publish/query/indexFirst.action

https://www.tianyancha.com/

http://www.beianbeian.com/

比如作者和Bilibili网站的备案信息如下图所示：

三.Web站点信息收集

1.CMS指纹识别

CMS（内容管理系统）又称为整站系统或文章系统，用于网站内容管理。用户只需要下载对应的CMS软件包，就能部署搭建，并直接利用CMS。但是各种CMS都具有其独特的结构命名规则和特定的文件内容，因此可以利用这些内容来获取CMS站点的具体软件CMS与版本。常见的CMS包括Discuz、Dedecms（织梦）、PhpCMS、WordPress等。

常见识别工具：

(1) 在线工具

http://whatweb.bugscaner.com/look/

http://www.yunsee.cn/finger.html

he.bgp.net

(2) 本地工具

御剑Web指纹识别程序、大禹CMS识别程序（https://github.com/Ms0x0/Dayu）等。

示例：

以某站为例，通过 http://whatweb.bugscaner.com/look/ 网站识别指纹，发现它是Discuz搭建的。信息包括：

CMS：Discuz! X3.4

ip地址：210.42.xx.xx

编程语言：PHP

服务器：Apache 2.4.23

操作系统：Windows Server

物理地址：xxx省xxx市xxx路

Web服务器扩展：OpenSSL

接下来将Github上面的大禹下载至本地，并进行CMS扫描。

2.CMS漏洞查询

对于查询到的CMS可以利用乌云漏洞库网站查询制定CMS的漏洞。

http://www.anquan.us/

https://bugs.shuimugan.com

显示如下图所示，包括详细的漏洞利用过程及防御措施。

3.敏感目录信息

针对目标Web目录结构和敏感隐藏文件探测是非常重要的，在探测过程中很可能会探测到后台页面、上传页面、数据库文件，甚至是网站源代码文件等。常见的探测工具包括：

御剑后台扫描工具

wwwscan命令行工具

dirb命令工具

dirbuster扫描工具

参考：

[网络安全自学篇] 八.Web漏洞及端口扫描之Nmap、ThreatScan和DirBuster工具

[网络安全自学篇] 十七.Python攻防之构建Web目录扫描器及ip代理池（四）

御剑

御剑系列的web工具一直是比较顺手的工具。这款御剑也是很好用的网站后台扫描工具，图形化页面，使用起来简单上手，因此也被大多数人所喜好。其作者可能是“御剑孤独”。

Dirb 通过暴力破解来发送请求，什么时候找到了就发告诉我们找到了。

DirBuster

Kali Linux提供的目录扫描工具DirBuster支持全部的Web目录扫描方式。它既支持网页爬虫方式扫描，也支持基于字典暴力扫描，还支持纯暴力扫描。该工具使用Java语言编写，提供命令行（Headless）和图形界面（GUI）两种模式。用户不仅可以指定纯暴力扫描的字符规则，还可以设置以URL模糊方式构建网页路径。同时，用户还对网页解析方式进行各种定制，提高网址解析效率。

4.WordPress测试

WordPress是使用PHP语言开发的博客平台，用户可以在支持PHP和MySQL数据库的服务器上架构属于自己的网站，也可以把WordPress当作一个内容管理系统CMS来使用。针对WordPress测试，可以使用WpScan工具对其进行安全测试。

WpScan

例如识别 https://cn.wordpress.org/ 官方网站的框架信息，可以调用whatwep命令或在线网站获取其CMS信息。

如果发现目标网站是WordPress搭建，再使用WPScan进行检测。

四.端口信息收集

1.端口介绍

如果把IP地址比作一间房子，端口就是出入这间房子的门。真正的房子只有几个门，但是一个IP地址的端口可以有65536（2 ^ 16）个门之多。端口是通过端口号来标记的，端口号只有整数，范围从0到65536（2 ^ 16 - 1 ）。

计算机常见的端口号包括：

HTTP服务器默认端口号为：80/tcp（木马Executor开放此端口）

HTTPS服务器默认端口号为：443/tcp、443/udp

Telnet（远程登录）默认端口号为：23/tcp（木马Tiny Telnet Server所开放的端口）

FTP默认端口号为：21/tcp（木马Doly Trojan、Fore、Invisible FTP、WebEx、WinCrash等所开放的端口）

TFTP（Trivial File Transfer Protocol）默认端口号为：69/udp

SSH（安全登录）、SCP（文件传输）、端口号重定向，默认端口号为：22/tcp

SMTP（E-mail）默认端口号为：25/tcp（木马Antigen、Email Password Sender、Haebu Coceda、Shtrilitz Stealth、WinPC、WinSpy都开放这个端口）

POP3 Post Office Protocol（E-mail）默认端口号为：110/tcp

Webshpere应用程序默认端口号为：9080

TOMCAT默认端口号为：8080

MySQL数据库默认端口号为：3306

Oracle 数据库默认的端口号为：1521

WIN2003远程登录默认端口号为：3389

MS SQL*SERVER数据库server默认的端口号为：1433/tcp、1433/udp

在计算机中每个端口代表一个服务，在Windows命令行中使用 netstat -ano | netstat -anbo显示开放端口。

CMD中需要管理员权限打开，并输入netstat -anbo查看开放的端口。其中，443端口是HTTPS建立的连接，80端口是网站HTTP建立的连接。

2.端口信息采集

对于收集目标及其端口状况可以使用工具来进行，其工作原理都是使用TCP或UDP等协议向目标端口发送指定标志位等数据包，等待目标返回数据包，以此来判断端口状态。后续作者，准备通过Python编写相关的代码。

这篇文章主要通过工具采集端口信息，包括：

使用Nmap采集，命令为：nmap -A -v -T4 目标

使用masscan采集，命令为：masscan -p80 目标

示例：

查看本地端口开放情况，命令为：nmap -A -v -T4 192.168.1.1

使用masscan探测端口开放信息，命令为：masscan -p80 192.168.1.1/24 --rate=10000

使用工具通常会在目标网站留下痕迹，接下来提供一种在线网站探测方法。

在线网站：http://tool.chinaz.com/port/

ThreatScan在线网站：https://scan.top15.cn/

示例：

使用站长之家探测作者网站的80端口开放，443端口关闭。（最早支持多个端口扫描，当前只支持单一端口扫描，如果读者能自行编写程序更好）。

接下来复习前面的文章，采用ThreatScan在线网站扫描作者的网站信息。

作者确实只开放了80端口访问网页和FTP端口21。

3.端口攻击

针对不同的端口具有不同的攻击方法，因为每个端口就是记录服务器或目标系统的大门，只要打开这个大门，就可以进入目标系统。例如：针对远程连接服务端口的攻击方法如下，因为23号端口Telnet远程连接是明文传递信息的，可以通过爆破、嗅探、弱口令等方法实施攻击。

这里推荐大家：当我们扫描到目标网站的端口号时，可以在搜索引擎中查找对应的攻击方法进行测试，也可以在乌云漏洞库（http://www.anquan.us/）或CVE库中搜索。例如：

注意：CVE漏洞被再利用是网络攻击常见的手段，提醒生产厂商第一时间打补丁，用户使用部分软件的版本更新也是非常必要的。

4.防御措施

对于端口攻击来说，只要端口开放并且可以连通，就可以利用对应的方式进行攻击测试。这里提供的防御措施包括：

关闭不必要的端口；

对重要业务的服务端口设置防火墙；

加强员工信息安全意识，经常性更换用户密码，避免弱口令爆破；

经常更新软件，打补丁（Patch）；

利用CVE网站的漏洞信息，提高自身网站的安全。

五.敏感信息收集

针对某些安全做得很好的目标，直接通过技术层面是无法完成渗透测试的。在这种情况下，可以利用搜索引擎目标暴露在互联网上的关联信息。例如：数据库文件、SQL注入、服务配置信息，甚至是通过Git找到站点泄露源代码，以及Redis等未授权访问、Robots.txt等敏感信息，从而达到渗透目的。

在某些情况下，收集到的信息会对后期进行测试起到帮助重要。如果通过收集敏感信息直接获取了目标系统的数据库访问权限，那么渗透测试任务就结束了一大半。因此在进行技术层面情况下的测试之前，应该先进行更多的信息收集，尤其是针对敏感信息的。

1.Google Hacking语法

Google Hack是指使用Google、百度等搜索引擎对某些特定网站主机漏洞（通常是服务器上的脚本漏洞）进行搜索，以达到快速找到漏洞主机或特定主机的漏洞的目的。常见方法包括：

Google提供了强大的搜索功能，可以获取精准的结果。如果访问不了，也可以通过百度获取相关内容，但是结果远没有谷歌精准，很多无关的广告及视频会返回给你。示例如下：

intitle:eastmount 搜索网页标题包含eastmount字符的网页。

inurl: login.asp?id= 搜索包含特定字符“login.asp?id=”的URL。常用示例为inurl:login.asp、inurl:asp?id=、inurl:login.asp。

intext:cbi

搜索网页正文内容包含特定字符cbi的网页。

filetype:ppt

搜索制定类型的文件，返回所有以ppt结尾的文件URL。

site:baidu.com

找到与指定网站有联系的URL。

Google Hacking数据库为：https://www.exploit-db.com/google-hacking-database/

例如，查询数据Access数据库，使用 filetype:mdb “standard jet”(password | username | user | pass)。

2.HTTP响应收集Server信息

通过HTTP或HTTPS与目标站点进行通信中，目标响应的报文中Server头和X-Powered-By头会暴露目标服务器和使用的编程语言信息，通过这些信息可以有针对的利用漏洞尝试。

获取HTTP响应的基本方法包括：

利用工具，如浏览器审计工具、BurpSuite、Fiddler等代理截断工具获取。

编写Python脚本文件，如requests库。

参考作者前文：

[网络安全自学篇] 三.Burp Suite工具安装配置、Proxy基础用法及暴库示例

[网络安全自学篇] 七.快手视频下载之Chrome浏览器Network分析及Python爬虫探讨

[网络安全自学篇] 十四.Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）

右键浏览器审查元素，获取Network中Headers信息。

Python的核心代码如下：

3.Github信息泄露

Github是一个分布式的版本控制系统，拥有大量的开发者用户。随着越来越多的应用程序转义到云端，Github已经成为了管理软件开发以及发现已有代码的首选方法。当今大数据时代，大规模数据泄露事件时有发生，但有些人不知道很多敏感信息的泄露其实是我们无意之间造成的。一个很小的疏漏，可能会造成一系列的连锁放映。Github上敏感信息的泄露，就是一个典型的例子，存在着一些安全隐患。

例如，我们可以使用Github找到邮件配置信息泄露，涉及一些社会工程学。

site:Github.com smtp

site:Github.com smtp @qq.com