Google资深工程师深度讲解Go语言-单任务版爬虫(十四)「建议收藏」

2022-07-18 17:11:17 浏览数 (1)

大家好,又见面了,我是全栈君。

一.获得初始页面内容

代码语言:javascript复制
gopm get -g -v golang.org/x/text  //引入gbk库

报错: bash: gopm: command not found 解决方法: 使用gopm 完成安装

gopm–Go Package Manager 的缩写。是go 上的包管理工具,十分好用。 gopm

1.gopm 安装:

这个十分简单只需一条命令就可以了:

代码语言:javascript复制
go get -u github.com/gpmgo/gopm  //亲测可用

2.使用 gopm安装需要的包

gopm 具有丰富的包管理功能,具体的管理命令可以参考官方文档(官方文档有中文版 各位爽不爽)链接 这里只需要一条命令就可以搞定了:

代码语言:javascript复制
gopm bin -d $GOPATH/bin PackageName

二.正则表达式获取邮件地址

代码语言:javascript复制
package main

import (
	"fmt"
	"regexp"
)

const text = `
my email is lxw@qq.com
email2 is aa@def.com
email3 is bb@eft.com.cn
`

func main() {
	re := regexp.MustCompile(`([a-zA-Z0-9] )@([a-zA-Z0-9] )(.[a-zA-Z0-9] )`)
	match := re.FindAllStringSubmatch(text, -1)
	for _, m := range match {
		fmt.Println(m)
	}
}

2.提取城市和url

代码语言:javascript复制
package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"regexp"
)

func main() {
	resp, err := http.Get("http://www.zhenai.com/zhenghun")
	if err != nil {
		panic(err)
	}
	defer resp.Body.Close()
	if resp.StatusCode != http.StatusOK {
		fmt.Println("Error:status code", resp.StatusCode)
		return
	}
	all, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		panic(err)
	}
	//fmt.Printf("%sn", all)
	printCityList(all)
}

func printCityList(contents []byte){
	re:=regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[a-z0-9] )"[^>]*>([^<] )</a>`)
	match:=re.FindAllSubmatch(contents,-1)
	for _,m :=range match {
		//for _,sub:=range m {
		//	fmt.Printf("%s",sub)
		//}
		//fmt.Println()
		fmt.Printf("city: %s,  Url:%s n",m[2],m[1])
	}

	fmt.Printf("matches found:%dn",len(match))
}

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/111684.html原文链接:https://javaforall.cn

0 人点赞