这几天写爬虫写的很疯狂,毕竟妹子对于我还是有很大吸引力的嘛~
在爬虫运行的阶段,我喜闻乐见的遭遇了反爬虫机制的阻击。于是经过一番较量,我先后伪造了Header,使用Selenium去Driver请求,用PhantomJs去渲染Response。但这一切都没有逃过反爬虫机制的法眼。在反反爬虫无数次之后,宝宝痛定思痛决定想一个长久的对策出来。
想想怎么样才能彻底不让反爬虫机制抓到?当然是把请求分散到不同的ip,然后多线程渲染啦。
然后问题就又来了,我上哪搞这么多代理ip去?
于是乱刀 v0.1版本应运而生,这个工具可以为我源源不断的提供高可匿的代理ip,这样我就可以愉快的爬取妹子的照片了,啦啦啦~~~
由于luandao的定位是辅助工具,所以我貌似只需要编译一个pyc出来就可以了。当然,你要是想单纯的获取一下代理地址,我这里也是支持的。
luandao的Github地址:
https://github.com/Elfsong/WintersWrath/blob/master/python/luandao.pyc
Monthly Archives: August 2016
PDF文件合并工具
这个工具是很早之前写的。
当时还在学习PyQt,整体的技术都很不成熟。比如说文件的路径就不支持工具外搜索,这点在现在看起来很容易实现,但是当时我真的是已经尽力了,才实现了那个简单的功能。还有当时用的是Py2exe生成的执行文件,由于了解不够,没有能够生成单独可执行的exe文件,必须依赖一些dll才能够运行,这样为了安装方便,我不得不将功能打成安装包。
本来这就是一个用来练手的项目,写完以后挂在网上也就没有在去在意了。但是今天投Google内推的时候需要将原先的中英两份简历合并,原始的Doc又暂时取不到,只好重新下载自己写的这个工具,很优雅的搞定了这个事情。
现在再看自己之前写的工具,有种特殊的感觉。既可以感受到当时的青涩,也可以体会到当时的雄心壮志。总之,是种很不错的感觉。
这个工具还是蛮实用的,很多时候我们都会遇到将pdf合并的工作。唯一的缺点就是需要安装才可以使用,按理来说实现这种小功能的程序越绿色就越好的。BTW,这个工具卸载绝对无残留,运行一下Uninstall.exe就可以卸载掉了。
下面是setup的下载地址(本来想用百度云的,但是公司网络屏蔽上传不了。为了图省事,就先放自己服务器上了):
ftp://119.29.67.39/Pdf_Merge.exe
亲爱的,这是你在阿里的第24天,享受你的这一天!
阿里巴巴一度是我非常崇拜的一家公司,为了芝麻开门我放弃了腾讯的TST。但来了之后的体验,确实令人很失望。
首先,你时时刻刻是被打上实习生标签的。领电脑的时候被告知只能使用一台19寸,用了6年的显示屏。不仅颜色发黄,eclipse开了Debug之后能看到的代码只有六七行,妈的还调试鬼的代码啊!我很确定我现在眼睛疼是这个劣质显示器造成的。
总之,阿里真的是一座围城,外面的人想进来,里面的人想出去。
———————————————— 2016.11.24 —————————————————
阿里对于我来说是个不大不小的转折点。
我承认我对阿里的怨念不浅,但我也承认阿里是一家很伟大的公司。这里的伟大或许会超出我们自身的价值观。他剥削我们的劳动力、垄断着市场、还不停的卖假货,这是与我们自身利益背道而驰的,我曾经一度诋毁着阿里的一切。
后来我明白了一件事,其实最不明智的行为就是用别人的错误去惩罚自己。阿里有着种种不是,但不可置否的是,他创造了全世界最大最棒的电商平台,以及无数的第一。
在经历了阿里之后,我选择了出国读研。原因很简单,我对工作产生了莫名的恐惧。我把这一切都归因给了阿里,其实这是不对的。我总有一天会去工作,我在阿里所经历的一切还是会如期而至的,这似乎是自由与必然的鬼畜辩证关系。
总之人是在不断成长的,现在看到自己之前狂黑阿里觉得有些好笑了。人生是自己走自己的路,何必那么在意一个匆匆过客呢?
最重要的是,我还有那么多大好青春可以去挥霍!