Java爬取网站的所有图片链接

2022-05-12 11:01:24 浏览数 (1)

文章目录
  • 一、准备
  • 二、引入依赖
  • 三、源代码

一、准备

  jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。

  jsoup实现了WHATWG HTML5规范,并将 HTML 解析为与现代浏览器相同的 DOM。

  • 从 URL、文件或字符串中抓取和解析HTML;
  • 使用 DOM 遍历或 CSS 选择器查找和提取数据;
  • 操作HTML 元素、属性和文本;
  • 根据安全列表清理用户提交的内容,以防止 XSS 攻击;
  • 输出整洁的 HTML。

二、引入依赖

代码语言:javascript复制
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>${latest.version}</version>
</dependency>

三、源代码

代码语言:javascript复制
public class JsoupTest {
    public static void main(String[] args) throws IOException {
    	// 网址
        String url = "https://www.***.com/";
        Document doc = Jsoup.connect(url)
                .maxBodySize(Integer.MAX_VALUE)
                .userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36")
                .timeout(6000)
                .get();
                
		// 获取img标签的内容,读取属性输出
        Elements imgs = doc.getElementsByTag("img");
        imgs.stream().forEach(s-> {
            System.out.println(s.attr("src"));
            System.out.println(s.attr("alt"));
        });
    }
}

0 人点赞