edu资产收集（主域名）

每日一说

早上被宿管敲门弄醒，说注意台风
中午想出去吃饭，结果赶上了核心机房网络设备电源硬件故障，健康码刷不出来，我门都出不去
下午手滑重装错机器的系统，导致几千条数据都没了
晚上打排位排到了一晚上的NT
11点多想继续部署环境的时候，手滑还把扫描器给删了

新的一天新的难过，昨天无敌倒霉，可能一年总有那么一天是这样的吧，所以，才，导致了这篇文章迟来了一天

（前排提醒：因为代码的关系，建议横屏阅读）

正文

首先这个脚本，是我队友 Rj45mp写的，因为不符合我的"风格"，所以我就拿来魔改了

代码语言：javascript复制

文章链接：
https://rj45mp.github.io/python-crawler/
项目地址：
https://gitee.com/rj45mp/codes/tz1fc9kbhvrop7yw0e8lm51

功能介绍

简单的介绍一下功能，其实就是 EduSrc这个平台上的，大学名字的爬取

爬取下来后，丢入bing搜索，然后通过获取搜索结果第一条，来获取学校主域名

接着写入数据库中，便于查询

魔改

但是他这里做的操作，是一步跑完，在进行下一步，而我更喜欢，跑一次，写一次数据，其次因为脚本方便性的缘故，我更偏向于写进txt里，因为这样前置工作不需要那么多

首先就是登录的部分，直接拿cookie即可

代码语言：javascript复制

headers = {
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',
    "cookie":"此处填你登录edusrc后的cookie"
    }

接着给两个url，一个是bing，一个是edusrc的

代码语言：javascript复制

url = 'https://src.sjtu.edu.cn/rank/firm/?page='
bing = 'https://cn.bing.com/search?q='

爬取学校名字

代码语言：javascript复制

def schoolname(url):
    for i in range(1,187): # 页数,1-187页
        pageurl=url str(i)
        req = requests.get(pageurl,headers=headers)
        tree = etree.HTML(req.text)
        res = tree.xpath('//td[@class="am-text-center"]/a/text()')
        print("爬取 %s"%(res))
        schoolsite(res)

爬取完一次后，进行域名查询

代码语言：javascript复制

def schoolsite(n):
    global bing
    for i in n:
        bingurl=bing i
        req = requests.get(bingurl,headers=headers)
        tree=etree.HTML(req.text)
        res=tree.xpath('//div[@class="b_caption"]/div/cite/text()')
        res1=school_domain(res)

获取到查询结果后，进行主域名提取

代码语言：javascript复制

def school_domain(url):
    for i in url:
        if "edu.cn" in i:
            d=str(i.encode('utf-8'))
            ul=re.search('[a-zA-Z0-9] .(edu.cn|com.cn)',d)
            print("域名：" i " 提取结果为：" ul.group())
            insertfile(ul.group())
            break

因为bing查询结果的关系，导致了脚本最后的结果有点奇怪，所以我加了一个if判断，判断域名中是否存在edu.cn

接着写入文件

代码语言：javascript复制

def insertfile(elapse):
    domain_file=open("sub_domain.txt","a")
    domain_file.write(str(elapse) "n")
    domain_file.close()

一套流程就完毕了，全走完一遍后，开始第二页的爬取->搜索->提取->写入文件

有需要的自取

PS:我还写了去重的，想了想就不发出来了，懒得重新上传了，也懒得写这部分的东西

代码语言：javascript复制

项目地址：
https://github.com/Ernket/edu-crawler

cookie ps txt url 域名

0 人点赞