突然发现有太多的时间在每天去点开各种平台上了。于是开始准备做一个信息聚合平台。

现成的

经过调研,发现有现成的项目huginn比较适合我的需求。不过试用了两天,发现该平台功能太多了,不太适合我。我仅仅是需要抓取数据,并且入库以供展示就好了。所以手动还原了huginn的部分功能。

自己动手,丰衣足食

收集平台

主要是日常收集的一些平台,以及在报告中常提到的ref。从点开始辐射,共收集了50+信息来源。

获得数据

以Python语言为主。与huginn类似,提供了Xpath、regex、jsonpath三种数据提取方式。比如我需要抓取FreeBuf的内容,只需要以下配置

{
    "name": "freebuf", 
    "url": "https://www.freebuf.com/fapi/frontend/home/article?page=1&limit=50&type=1&day=7&category=%E7%B2%BE%E9%80%89", 	  "url_type": "jsonpath", 
    "baseurl": "https://www.freebuf.com", 
    "rule": {
        "id": "$.data.list[*].ID", 
        "title": "$.data.list[*].post_title", 
        "link": "$.data.list[*].url", 
        "summary": "$.data.list[*].content", 
        "updated_date": "$.data.list[*].post_date"
    }
}

展示数据

从bootstrap官网找了一个模板套了一下。完了。

上线

域名使用了 qianx.in,意味着潜心,在我看来好记又符合主题。欢迎各位大佬提交自己珍藏的好文平台给我。可以直接发地址,也可以直接配置好类似文中提到的JSON形式也可。

ref:

https://qianx.in/