webmagic 完整的爬虫流程-在线常用工具

webMagic概览

web magic设计思想 web magic总体架构 web magic项目组成

快速开始

使用maven 第一个爬虫项目

编写基本的爬虫

实现PageProcessor 使用Selectable抽取元素使用Pipeline保存结果爬虫的配置、启动和终止 Jsonp与Xsoup 爬虫的监控配置代理 web magic处理非Get请求

使用注解编写爬虫

编写model类 TargetUrl与HelpUrl 使用ExtractBy进行抽取在类上使用ExtractBy 结果类型的转换完整的爬虫流程 AfterExtractor

组件的使用和定制

使用和定制Pipeline 使用和定制Scheduler 使用和定制Downloader

到之前为止，我们了解了URL和抽取相关API，一个爬虫已经基本编写完成了。

@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl("https://github.com/\\w+")
public class GithubRepo {

    @ExtractBy(value = "//h1[@class='entry-title public']/strong/a/text()", notNull = true)
    private String name;

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']/tidyText()")
    private String readme;
}

注解模式的入口是OOSpider，它继承了Spider类，提供了特殊的创建方法，其他的方法是类似的。创建一个注解模式的爬虫需要一个或者多个Model类，以及一个或者多个PageModelPipeline——定义处理结果的方式。

public static OOSpider create(Site site, PageModelPipeline pageModelPipeline, Class... pageModels);

注解模式下，处理结果的类叫做PageModelPipeline，通过实现它，你可以自定义自己的结果处理方式。

public interface PageModelPipeline<T> {

    public void process(T t, Task task);

}

PageModelPipeline与Model类是对应的，多个Model可以对应一个PageModelPipeline。除了创建时，你还可以通过

public OOSpider addPageModel(PageModelPipeline pageModelPipeline, Class... pageModels)

方法，在添加一个Model的同时，可以添加一个PageModelPipeline。

好了，现在我们来完成这个例子：

@TargetUrl("https://github.com/\\w+/\\w+")
@HelpUrl("https://github.com/\\w+")
public class GithubRepo {

    @ExtractBy(value = "//h1[@class='entry-title public']/strong/a/text()", notNull = true)
    private String name;

    @ExtractByUrl("https://github\\.com/(\\w+)/.*")
    private String author;

    @ExtractBy("//div[@id='readme']/tidyText()")
    private String readme;

    public static void main(String[] args) {
        OOSpider.create(Site.me().setSleepTime(1000)
                , new ConsolePageModelPipeline(), GithubRepo.class)
                .addUrl("https://github.com/code4craft").thread(5).run();
    }
}

webmagic 完整的爬虫流程

webmagic 爬虫的创建和启动

PageModelPipeline

结语

常用链接

新闻热点