Python使用BeautifulSoup4进行HTML解析

2022-06-09 15:26:40 浏览数 (1)

Beautifulsoup4 导入模组

代码语言:javascript复制
from bs4 import BeautifulSoup
import requests as req

Beautifulsoup4 美化 HTML 代码

代码语言:javascript复制
# 设定网址
url = "https://k5l.cn/"

# 获取网页html 
r = req.get(url)

# 导入 html 进入 beautifulsoup4
soup = BeautifulSoup(r.text, features="html.parser")

# 美化 html 代码
print(soup.prettify())

Beautifulsoup4 获取 title 标签

代码语言:javascript复制
# 设定网址
url = "https://k5l.cn"

# 获取网页html 
r = req.get(url)

# 导入 html 进入 beautifulsoup4
soup = BeautifulSoup(r.text, features="html.parser")

# 获取 title 标签
print(soup.title)

Beautifulsoup4 获取 title 标签内部文字

代码语言:javascript复制
# 设定网址
url = "https://k5l.cn/"

# 获取网页html 
r = req.get(url)

# 导入 html 进入 beautifulsoup4
soup = BeautifulSoup(r.text, features="html.parser")

# 获取 title 标签内部文字
print(soup.title.text)

Beautifulsoup4 获取网页第一个超链接

代码语言:javascript复制
# 设定网址
url = "https://k5l.cn/"

# 获取网页html 
r = req.get(url)

# 导入 html 进入 beautifulsoup4
soup = BeautifulSoup(r.text, features="html.parser")

# 获取网页第一个超链接
print(soup.a)

Beautifulsoup4 获取网页第一个超链接的属性

代码语言:javascript复制
# 设定网址
url = "https://k5l.cn/"

# 获取网页html 
r = req.get(url)

# 导入 html 进入 beautifulsoup4
soup = BeautifulSoup(r.text, features="html.parser")

# 获取网页第一个超链接的属性
print(soup.a.attrs)

0 人点赞