这几天刚接触爬虫,好奇看了下本站的前端代码,发现是静态网页,直接使用jsoup就可以。
先在pom导入依赖
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency>
然后检查网站链接:
https://www.dotcpp.com/oj/problem1000.html
https://www.dotcpp.com/oj/problem1001.html
每一题的链接只有题号的差别,然后再看1000这道题的网页代码
题目在这个div下
题目描述在这个里面,通过识别它们的class,就能定位到它们
代码:
import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import java.io.*; import java.nio.charset.StandardCharsets; public class GetDotCpp { public static void main(String[] args) throws IOException { //在写入的时候会按照路径自动创建文件 FileWriter writer = new FileWriter("D://题目.txt", true);//默认为覆盖,改为true追加模式 for (int i = 1000; i <= 3131; i++) { String url = "https://www.dotcpp.com/oj/problem" + i + ".html"; String str = ""; // 与要爬取数据的页面建立连接 Connection connection = Jsoup.connect(url); Document document = connection.get(); // 找到第一个class为head_box_text_w的文档对象,获取题目标题 Element elementTitle = document.selectFirst("[class=head_box_text_w]"); if(elementTitle!=null){ str += elementTitle.text() + "\n"; } // panel_prob_body,获取题目内容 Element elementText = document.selectFirst("[class=panel_prob_body]"); if(elementText!=null){ str += elementText.text() + "\n\n"; } System.out.println(i); writer.write(str); writer.flush(); } writer.close(); } }
有的题目描述是图片形式,这里只读取文本。
等待爬取结束,在d盘下就有了一个txt文件,这里面就是所有题目的题目描述了,复制到word里面查看,大概三十五万字。
0.0分
156 人评分
C语言训练-排序问题<2> (C++代码)(sort函数)浏览:1579 |
C二级辅导-分段函数 (C语言代码)浏览:564 |
C语言程序设计教程(第三版)课后习题9.8 (C语言代码)浏览:1205 |
C语言程序设计教程(第三版)课后习题4.9 (C语言代码)浏览:692 |
川哥的吩咐 (C++代码)浏览:1016 |
C语言程序设计教程(第三版)课后习题11.1 (C语言代码)浏览:690 |
C语言训练-阶乘和数* (C语言代码)-------- 呆板写法浏览:1362 |
用筛法求之N内的素数。 (C语言代码)浏览:649 |
printf基础练习2 (C语言代码)浏览:747 |
水仙花 (C语言代码)浏览:1052 |