这几天工作算是进入了正轨,开始接触业务了。
刚开始的时候确实有点摸不清头脑,每天都待到十点多才撤,所以日记也就断更了几天。不过经过这两天的奋力摸索,本宝宝已经找到门路啦。
负责的东西是关于Url检测的,主要需要做的是配置好的安全策略,对恶意非法的url进行拦截,当然在有效拦截的同时,也不能有太高的误杀率。
由于实在记不住文件Path,花了点时间写了一个shell脚本,再也不用担心记性不好啦。离线策略这块的Map_reduce是前辈们写好的,开始用着确实方便,不过也深深的被坑过:
一开始上手,我那3月14号的全量恶意数据跑了一次,结果非常好,没有问题。接着我又去修改了一些配置,也很好,Nice!正当我觉得已经会玩,自己构造了一个测试数据集的时候,reduce跑不起来了。。。
自己测试无果之后,跑去找Quinty姐,结果两个人调了半个小时以后还是没找到原因,只好先暂时搁浅。结果过了好久Quinty一路喊着“巨坑啊“的就过来了,原来UGC为了要计算Malice Detention Period会默认拿时间戳的字段,而我的测试集里面为了方便直观,木有加时间戳,于是reduce就直接罢工了。
关于一些其他的,我想说,鹅厂福利真的很好,本宝宝又胖了好几斤。