Jsoup — 愉快的写个爬虫

Jsoup 是一个设计用于提取和操作HTML文档数据的开源Java库

  • 通过URL、文件或字符串提取并解析HTML
  • 使用DOM遍历或CSS选择器查询和获取数据
  • 操作HTML元素、属性及文本
  • 根据安全白名单清理用户提交内容,以防止XSS攻击
  • 输出简洁HTML

例子

获取风雨志主页,解析为Dom,并从标题部分获取网站标题:

Document doc = Jsoup.connect("http://www.windsay.net/").get();
Elements newsHeadlines = doc.select(".sf-header-logo");

开源代码

Jsoup是根据MIT许可证发布的开源项目。源代码可以在GitHub获取。

入门

  1. 下载最新Jsoup Jar
  2. 阅读菜谱
  3. 享受
0 喜欢
0 不喜欢