在Java中,爬取网站内容的最常用的库是Jsoup。以下是一个简单的爬虫程序示例,它将爬取统计局网站上的公开采集内容:
代码语言:javascript复制import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class WebSpider {
public static void main(String[] args) {
// 设置爬虫ip信息
String proxyHost = "duoip";
int proxyPort = 8000;
try {
// 创建Jsoup实例,并设置爬虫ip
Document document = Jsoup.connect("stats.gov").userAgent("Mozilla/5.0").connectTimeout(10000).proxy(proxyHost, proxyPort).get();
// 获取网页内容
String content = document.body().html();
// 输出网页内容
System.out.println(content);
// 使用Jsoup解析网页内容
Elements elements = document.select("div.statistic");
// 遍历每个子元素
for (Element element : elements) {
// 获取子元素的文本
String text = element.text();
// 输出子元素的文本
System.out.println(text);
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
代码解释:
1、首先,我们创建一个Jsoup对象,并设置爬虫ip。我们使用User-Agent来模拟浏览器请求,以便网站不会拒绝我们的请求。我们还设置了连接超时时间(10秒),以防止请求超时。
2、然后,我们使用Jsoup对象的connect方法获取网页内容。
3、我们使用document.body().html()方法获取网页的HTML源代码,并将其存储在content变量中。
4、我们使用document.select方法选择网页中特定的元素。在这个例子中,我们选择所有的“div.statistic”元素。
5、我们使用Elements对象的forEach方法遍历所有选择的元素,并获取每个元素的文本内容。
6、最后,我们使用System.out.println方法输出获取的网页内容和文本内容。
注意:在实际使用时,你需要根据实际的网页结构和数据需求来选择和设置HTML选择器。同时,你需要确保你的爬虫行为符合网站的robots.txt协议,并遵守相关的法律法规。此外,使用爬虫ip还需要注意爬虫ip服务器的稳定性和可用性,以及可能存在的网络延迟等问题。