鉴于今天是在鹅厂实习的最后一天,这篇日记还是有一些特殊意义的。
之前想了很多要说的,但真的到要说的时候却不知道该讲些什么了。
脑子里面一直就四个字:“完结撒花”……
PyWin32/Win32com安装错误解决方法
最近重装了python27的环境,开始完善Skyhook的一些细节。有很多组件都需要用到win32api这个库,但是我遇到了下面这种情况:
>>> import win32api Traceback (most recent call last): File "<pyshell#0>", line 1, in <module> import win32api ImportError: DLL load failed: 设备未就绪。
这个问题前后折磨了我两天,我试着把package下面的lib重新导入(webLink)也没有解决问题(当然,这帮我解决了另外一个问题),之后我又试着添加了环境变量,依然无果。直到最后我发现了pywin32_postinstall.py这个文件,问题终于解决了。
python C:/Python27/Scripts/pywin32_postinstall.py -install
最后我想说一下,这个方法或许可以解决你的问题,也可能解决不了你的问题。这取决于你的python版本,pywin32的版本,windows的版本,甚至于你的处理器内核。不过不管怎样,希望你可以继续尝试,要相信总会成功的。
南途列车
阶段性总结
这段时间过的其实是很紧张的。相比于安心校园的同学们,少了几分归属感。回到学校似乎一切都没有变,也似乎一切都变了。
时间开始变的充满挑战,不再想以前那样按部就班,过着别人安排好的生活。每个时间段需要做什么都需要去仔细的考虑一下了。过两天有项目的答辩,还有信息安全工程的考试,希望可以顺利度过。
在公司学到了很多东西,越来越感觉到功夫在诗外。每次这种阶段性的跳跃都伴随着一些顿悟,希望可以找到更好的自己吧。总之,退而苦修强大的内功或许可以带给我们更多的启示。
Python爬虫的工具列表整理
这个表单是从网络上转载的,mark下来,以后应该会有用得上的地方。
网络
- 通用
- urllib -网络库(stdlib)。
- requests -网络库。
- grab – 网络库(基于pycurl)。
- pycurl – 网络库(绑定libcurl)。
- urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。
- httplib2 – 网络库。
- RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。
- MechanicalSoup -一个与网站自动交互Python库。
- mechanize -有状态、可编程的Web浏览库。
- socket – 底层网络接口(stdlib)。
- Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。
- hyper – Python的HTTP/2客户端。
- PySocks – SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。
- 异步
机器学习的分类
很早很早以前就想看看机器学习的书了,但总是很零散,东一片西一片的没有系统的学习过。最近打算趁着这次机会,好好学习一下关于机器学习的东西。
正好最近一个小项目大体上算是完成了,也有一些时间可以好好看看书充实一下自己了。拿机器学习开刀我觉得灰常不错哦(^-^)
1)监督学习: 有train set,train set里面y的取值已知。 2)无监督学习:有train set, train set里面y的取值未知。 3)半监督学习:有train set, train set里面y的取值有些知道有些不知道。 4)增强学习:reinforcement learning, 无train set。
其实机器学习的种类无非就是这四种,但其中的内容却是博大精深:
之后我打算按照图上的顺序把自己的知识点逐步的梳理一遍,感觉会是一个蛮有意思的过程。
腾讯实习日记【2016.03.29-2016.04.11】
好久没有来更新了,借口是因为平常太忙没有时间,其实自己心里也清楚,时间总是有的,多半是被自己在不经意间squander了。
这段时间没干别的事情,写了一个爬虫,可以模拟各种浏览器,顺便自带JS解析器可以解析JS渲染的网站了。目前比较头大的问题就是效率和传统的爬虫比较的话还是太慢。因为要留出足够的JS渲染时间,不得不花费大量的成本去做等待。
解决方法目前也只是量的堆积,开了很大的进程池去跑,效率确实是有所提升了,但明显不是最佳的解决方案。于是又花了时间做异步化的改造,现在看来效果还不错。我把这东西放到github上面了。名字叫Argus,西方神话中的百眼巨人。
之后是做了一个偏前端的东西,导师给了一台测试机,打好LAMP就开工了。之后上了Bootstrap的框架,前端走一波。好久没动前端的东西手果然就生了,中间遇到了一堆让人很抓狂的问题,有的一上午都想不出来。对,期间还手残把一整天的代码都给删掉了。
不过问题总是会被解决的,那种拨云见日找到问题答案的感觉真是太爽了。我想这也是代码狗们的坚持动力吧。
腾讯实习日记【2016.3.27-2016.3.28】
这两天搞一个东西把自己搞的有点想吐血了,啊啊啊啊!
周六心血来潮去逛知乎,看轮子哥装逼,无意间发现了一个js注入的帖子,于是奋不顾身的就跳进了这个大坑。
先是准备工具和环境,所谓工欲善其事必先利其器,除了前几天刚装的Phantomjs,又搞了一个古董版的Nodejs。之后不知道踩了多少坑,装了一个DHCP的server和攻击器,准备开始愉快的玩耍。
在流程进行了大半之后,我突然又发现了一个巨坑,dhcp的攻击器找不到他需要的eth0,再一看原来是vmware把eth0特别有情怀的改成了eno16777736 。
之后在网上找了无数种方法修改,均以失败告终,于是现在的心情就有点郁闷了(宝宝不开心了,宝宝有小情绪了)不过我是不会那么轻易的狗带的,作为一名资深的作死小能手,我决定中午出去愉快的吃个饭,然后趁中午午休的时候再战!!!
腾讯实习日记【2016.3.26】
拿到鹅厂offer已经好久了,一直都没有写关于面试的经历。
先说说我的大二吧,大家听完一定会觉得特别励志的,2333。当时也不知道是怎么回事,圈子里的朋友都在找实习,于是我也就凑热闹给各大心仪的公司投了offer,结果也是一个个石沉大海,毫无音讯。
寒假的时候在三亚,看到蓝杰群里有人在问谁需要阿里的内推,当时的阿里刚刚上市,如日中天,绝对是我等IT屌丝男的心仪目标。于是就小窗了那个学长(亮神~~),成功内推。再往后有消息就要到开学了,一天我和好哥们在太平老街啃鸡腿,接到了一个电话,“喂,你好,这里是阿里巴巴……”
就这样,开始了漫长的阿里面试之路。一面的小哥很好说话,问的东西也算比较基础的,很愉快的就面完了。过了几天二面,换了一个小哥,声音和第一个面试官超级像,也是愉快的就面完了(别问我为啥不写问了点什么,这么久了我哪记得住)。最后是三面,感觉这个家伙的level肯定不低,面试之前还有专人来跟我预约时间。
三面的时候面试官问了我年级,我说我是大二的,于是面试官开始婉拒,说他们不打算招大二的等等。后来的结果喜闻乐见,rejected。其实原因我也明白一二,要是自己的实力真的足够,人家不会不要你的,年级不到只是个托词而已。
后来在网上投了腾讯,完全没有任何消息,直接跪倒在简历筛选环节。在蓝杰群里搞到了腾讯面试的地点(千年不变茉莉花),和娜姐组队去霸面,结果依然喜闻乐见,在候场厅坐了一天,没有任何结果。再后来又作死的去了武汉霸面阿里,依旧铩羽而归,但旅途还是蛮愉快的,和康凯学长欢脱地逛了一圈昙华林才回长沙。
中间省略很多环节,大二的offer情况是这样的:拿到了中科云华的offer,恒生电子的offer,360的产品经理offer(对!你没看错,就是产品经理~.~)还有几家创业公司的offer。最后选择了去恒生。原因很简单,离阿里近。
之后就没怎么主动地投过简历了,大部分的时间都用在了自己喜欢的事情上,期间狼厂发了凤巢的offer,但我之前面试百度受到过伤害,从此百度一生黑。
大三说实话我没觉得自己和大二得时候有什么不同,但是境遇开始变得没有那么苦逼了。鹅厂发来邮件告诉我去年是因为毕业时间不符被刷掉的,希望我今年继续作战,虽然我知道这绝壁是那种一发一大片的群发邮件,但还是怂怂的去网站上面投了一份简历。
一直到了过完年,还是在三亚,现在的leader给我打了电话,我当时还是在愉快的吃好吃的(好像一直在吃啊啊啊啊)。fatty哥第一次打电话只是想约个正式一面的时间,顺便问了一下我的情况,由于略紧张,感觉发挥的不是很好。第二天一早开始笔试,fatty哥发过来了一份笔试题,在开始笔试之前又问了一些基础的知识,还好都会,缓解了一下紧张的情绪。聊完以后就开始笔试了,好久没有这样做过题,看到第一题就又懵逼了,给了一段代码让你回答会输出什么东西。一开始看完全没思路,后来平静了一下心情一行一行的认真看,发现是个二进制找一的代码,一点都不难……
之后的几道题就比较冷静了,除了一道找第K大数的题目突然想不起来最优算法了之外还算完整的打完了所有题目,写完以后fatty告诉我一面过了。二面的话是现在部门的总监blue总,感觉问的东西蛮有深度的,从他那里学到了不少经验。最后一面是HR面,当时我正在等高铁回三亚,于是和hr姐姐不到半个小时就完成了面试,刚面试完,fatty哥就QQ告诉我,说过了。
拿到鹅厂offer当然是很开心的,开学以后回学校安排了一下生活,就来深圳这边实习了。不得不说鹅厂的福利真的很贴心,不到一个月就吃胖了好几斤,呜呜呜。
腾讯实习日记【2016.3.21-2016.3.26】
又到周末了,终于有时间闲下来可以写写东西了。
这周关于url策略的东西算是开始上手了,前前后后调了好几天,在很多维度方面做了优化。由于每次调试都需要MR,所以进度在刚开始的时候是有些缓慢的。不过经过几天的调试呢,还是有结果产出的,我的第一批策略已经上线跑啦。
前两天和fatty哥聊了一会儿,我们都觉得现在的这个系统有很大的提升空间。举个最简单的例子,在聚集的条件阈值方面就可以从原先的静态(完全是一拍脑袋想出来的)改成自我感知的动态阈值。另外,现在的旁路数据量很丰富,但相对来说偏主观,进行的拦截完全是基于用户之前的行为特征的,如果可以带过来title或者content的字段我觉得应该可以做到客观的去判断url的类型。
时间确实过得很快,我这个新鹅已经入职两周了。有同学来咨询鹅厂的情况,也有同学希望可以和他们一起分享一些经验。等会打算写一个关于鹅厂面试的东东。