这几天刚接触爬虫,好奇看了下本站的前端代码,发现是静态网页,直接使用jsoup就可以。
先在pom导入依赖
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency>
然后检查网站链接:
https://www.dotcpp.com/oj/problem1000.html
https://www.dotcpp.com/oj/problem1001.html
每一题的链接只有题号的差别,然后再看1000这道题的网页代码

题目在这个div下

题目描述在这个里面,通过识别它们的class,就能定位到它们
代码:
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import java.io.*;
import java.nio.charset.StandardCharsets;
public class GetDotCpp {
public static void main(String[] args) throws IOException {
//在写入的时候会按照路径自动创建文件
FileWriter writer = new FileWriter("D://题目.txt", true);//默认为覆盖,改为true追加模式
for (int i = 1000; i <= 3131; i++) {
String url = "https://www.dotcpp.com/oj/problem" + i + ".html";
String str = "";
// 与要爬取数据的页面建立连接
Connection connection = Jsoup.connect(url);
Document document = connection.get();
// 找到第一个class为head_box_text_w的文档对象,获取题目标题
Element elementTitle = document.selectFirst("[class=head_box_text_w]");
if(elementTitle!=null){
str += elementTitle.text() + "\n";
}
// panel_prob_body,获取题目内容
Element elementText = document.selectFirst("[class=panel_prob_body]");
if(elementText!=null){
str += elementText.text() + "\n\n";
}
System.out.println(i);
writer.write(str);
writer.flush();
}
writer.close();
}
}有的题目描述是图片形式,这里只读取文本。

等待爬取结束,在d盘下就有了一个txt文件,这里面就是所有题目的题目描述了,复制到word里面查看,大概三十五万字。


0.0分
1 人评分
C语言网提供由在职研发工程师或ACM蓝桥杯竞赛优秀选手录制的视频教程,并配有习题和答疑,点击了解:
一点编程也不会写的:零基础C语言学练课程
解决困扰你多年的C语言疑难杂症特性的C语言进阶课程
从零到写出一个爬虫的Python编程课程
只会语法写不出代码?手把手带你写100个编程真题的编程百练课程
信息学奥赛或C++选手的 必学C++课程
蓝桥杯ACM、信息学奥赛的必学课程:算法竞赛课入门课程
手把手讲解近五年真题的蓝桥杯辅导课程
发表评论 取消回复