突然发现有太多的时间在每天去点开各种平台上了。于是开始准备做一个信息聚合平台。
现成的
经过调研,发现有现成的项目huginn
比较适合我的需求。不过试用了两天,发现该平台功能太多了,不太适合我。我仅仅是需要抓取数据,并且入库以供展示就好了。所以手动还原了huginn
的部分功能。
自己动手,丰衣足食
收集平台
主要是日常收集的一些平台,以及在报告中常提到的ref。从点开始辐射,共收集了50+信息来源。
获得数据
以Python语言为主。与huginn
类似,提供了Xpath、regex、jsonpath三种数据提取方式。比如我需要抓取FreeBuf的内容,只需要以下配置
{
"name": "freebuf",
"url": "https://www.freebuf.com/fapi/frontend/home/article?page=1&limit=50&type=1&day=7&category=%E7%B2%BE%E9%80%89", "url_type": "jsonpath",
"baseurl": "https://www.freebuf.com",
"rule": {
"id": "$.data.list[*].ID",
"title": "$.data.list[*].post_title",
"link": "$.data.list[*].url",
"summary": "$.data.list[*].content",
"updated_date": "$.data.list[*].post_date"
}
}
展示数据
从bootstrap官网找了一个模板套了一下。完了。
上线
域名使用了 qianx.in,意味着潜心,在我看来好记又符合主题。欢迎各位大佬提交自己珍藏的好文平台给我。可以直接发地址,也可以直接配置好类似文中提到的JSON形式也可。
ref: