深圳Java培训
达内深圳宝安中心

136-3244-2201

热门课程

Java 爬虫框架——SeimiCrawler v0.2.6

  • 时间:2016-01-11
  • 发布:深圳Java培训
  • 来源:达内新闻

简介

SeimiCrawler是一个敏捷的,支持分布式的Java爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以 及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想 上SeimiCrawler受Python的爬虫框架Scrapy启发很大,同时融合了Java语言本身特点与Spring的特性,并希望在国内更方便且 普遍的使用更有效率的XPath解析HTML,所以SeimiCrawler默认的HTML解析器是JsoupXpath,默认解析提取HTML数据工作均使用XPath来完成(当然,数据处理亦可以自行选择其他解析器)。

Java 爬虫框架——SeimiCrawler v0.2.6

Java 爬虫框架——SeimiCrawler v0.2.6,增加统一的启动入口类,配合未来SeimiCrawler的maven构建plugin一起使用

meta refresh方式跳转优化,设置最多上限为3次,防止遇到持续刷新页面无法跳出

bug fix:修复在Request中自定义数据无法传向Response的问题

SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。

更多内容请点击【深圳JAVA培训】

上一篇:如果你是程序员,你应该看一下这个排名
下一篇:微服务融合JAVA之后的互联网时代

马上预约三天免费体验课

姓名:

电话:

深圳达内JAVA:回顾编程世界主宰的成长历程

为什么说JAVA其实是很好的编程语言?

【达内JAVA学院】十个Java多线程方面面试题——必看!

预计发布的Java 9中,很令人期待的是什么?

选择城市和中心
贵州省

广西省

海南省