好久没有来更新了,借口是因为平常太忙没有时间,其实自己心里也清楚,时间总是有的,多半是被自己在不经意间squander了。
这段时间没干别的事情,写了一个爬虫,可以模拟各种浏览器,顺便自带JS解析器可以解析JS渲染的网站了。目前比较头大的问题就是效率和传统的爬虫比较的话还是太慢。因为要留出足够的JS渲染时间,不得不花费大量的成本去做等待。
解决方法目前也只是量的堆积,开了很大的进程池去跑,效率确实是有所提升了,但明显不是最佳的解决方案。于是又花了时间做异步化的改造,现在看来效果还不错。我把这东西放到github上面了。名字叫Argus,西方神话中的百眼巨人。
之后是做了一个偏前端的东西,导师给了一台测试机,打好LAMP就开工了。之后上了Bootstrap的框架,前端走一波。好久没动前端的东西手果然就生了,中间遇到了一堆让人很抓狂的问题,有的一上午都想不出来。对,期间还手残把一整天的代码都给删掉了。
不过问题总是会被解决的,那种拨云见日找到问题答案的感觉真是太爽了。我想这也是代码狗们的坚持动力吧。