知乎爬虫之1:开篇序言

2016/11/23 Java

本文由博主原创,转载请注明出处

在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。 那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。

1. 预计可视化部分包括

  1. 人物关系可视化
  2. 人员地理分布可视化
  3. 人员大学分布可视化
  4. 男女比例可视化
  5. 用户点赞可视化

2. 预计内容和目录

  1. 开篇感言
  2. 爬虫流程设计
    1. 如何过滤重复数据
    2. 如何在爬取时创建人物关系
  3. 登陆知乎
    1. 分析请求
    2. 模拟请求
    3. 登陆成功
  4. 抓取页面数据
    1. jsoup抽取页面内容
  5. 优化
    1. 使用多线程加速
    2. 使用队列减少数据库访问
    3. 实现LRU提高缓存命中率
  6. 基于SpringCloud的简单应用
    1. 介绍
    2. 简单配置
  7. 扩展内容
    1. 整合Mybatis
    2. 编写Jsonp跨域请求API
  8. 走起苦逼的前端
    1. 使用Bootstrop布局
    2. 引入ECharts图形库
  9. 再见,吹牛结束。

Search

    Table of Contents