java爬虫实战之模拟登陆的示例分析

发布时间:2021-04-27 14:04:47 作者:小新
来源:亿速云 阅读:227

这篇文章主要介绍了java爬虫实战之模拟登陆的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

Java是什么

Java是一门面向对象编程语言,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序。

使用jsoup工具可以解析某个URL地址、HTML文本内容,是java爬虫很好的优势,也是我们在网络爬虫不可缺少的工具。本文小编带领大家使用jsoup 实现java爬虫模拟登陆,通过省力的API,很好的实现java爬虫模拟登陆。

一、使用工具:Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

二、实现java爬虫模拟登陆

1、确定想要爬取的url

import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.util.Map.Entry;
import java.util.Set;
 
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
 
public class SplitTable {
 
    public static void main(String[] args) throws IOException {
        //想要爬取的url
        String url = "http://jwcnew.nefu.edu.cn/dblydx_jsxsd/xskb/xskb_list.do?
Ves632DSdyV=NEW_XSD_PYGL";
        String username = "";
        String password = "";
        String sessionId = getSessionInfo(username,password);
        spiderWebSite(sessionId,url);
    }

2、获取sessionId

private static String getSessionInfo(String username,String password)
 throws IOException{

3、登录网站,返回sessionId信息

Connection.Response res = Jsoup.connect("http://jwcnew.nefu.edu.cn/dblydx_jsxsd/xk/LoginToXk")

4、获得sessionId

 String sessionId = res.cookie("JSESSIONID");
        System.out.println(sessionId);
        return sessionId;
    }

5、爬取内容

private static void spiderWebSite(String sessionId,String url) throws IOException{
 
        //爬取
        Document doc = Jsoup.connect(url).cookie("JSESSIONID", sessionId).timeout(10000).get();
        Element table = doc.getElementById("kbtable");
        //System.out.println(table);
        BufferedWriter bw = new BufferedWriter
(new OutputStreamWriter(new FileOutputStream("F:/table.html")));
        bw.write(new String(table.toString().getBytes()));
        bw.flush();
        bw.close();
    }
}

感谢你能够认真阅读完这篇文章,希望小编分享的“java爬虫实战之模拟登陆的示例分析”这篇文章对大家有帮助,同时也希望大家多多支持亿速云,关注亿速云行业资讯频道,更多相关知识等着你来学习!

推荐阅读:
  1. Python爬虫实战之12306抢票的示例分析
  2. python爬虫之模拟登陆csdn的示例分析

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

java

上一篇:java中stringbuffer线程安全分析的示例

下一篇:java多线程爬虫爬取百度图片的方法

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》