More than it

上周换了一副新眼镜。

由于用眼习惯不好,我一直都是高度近视。眼镜在我的生活里是必需品。

之前在澳洲眼镜架突然坏了,我找了整个City和Box Hill都没有找到可以修理或者更换的地方。只好自己从国内买了维修的零件和胶水自己修理。

为了把断在眼镜架里面的鼻托支架取出来,我用电钻给鼻托支架的支撑位钻了一个小洞,之后又往里面灌了不少解胶剂。估计是因为镜架是塑钢材质的,我修好之后发现镜架居然裂了一条缝,还好我已经用胶水填了缝。

结果上周的某一天不知道怎么回事,戴上眼镜之后就觉得很不舒服。仔细一看才发现是因为之前的那个缝隙裂开了,导致镜片松动,屈光位置对不上了。

想了想再用胶水粘起来也不是长久之计,如果回了墨尔本再断了,就不是这个容易修理的了。于是果断换了一副新的眼镜。

这次配了一个比较大的镜框,据说这样看东西会明亮许多,但估计也得需要时间去适应一下。这两天戴这副眼镜的话,还是有一点晕的。还有就是,老妈一直非常关心我的视力问题,因为她身边有不少同事都因为高度近视吃了不少苦头。我自己其实也深受其害,希望自己以后可以注意用眼,少看一点电脑屏幕,少刷一点手机。

有的时候,闭上眼睛,你可以看到更多。

隐含语义分析

最近在做NLP的一些工作。

遇到的问题是:Precisely detect scenario/weather/time/etc in a paragraph-level document.

对于这个问题,我作为一个NLP外行,首先想到的思路是建立相应的词表,然后对每一个Sentence进行Tagging。在完成Coding的工作后,在测试中效果还是可以的(毕竟用Word2Vec聚类建立了好大一份词表)。但主要的问题是Overtrigger,这个模型无法区分那些地方才是真正描述Target的,更无法理解一词多义的情况。

于是在第一版模型可以基本Cover住下游业务需求之后,我Mentor对Precision有了进一步的要求(手动GG)。

在想了好几天之后(其实主要时间都用来划水),我想了一个不太成熟的方案,先记下来等元旦过完了回来再和Mentor讨论一下:

  • 使用TF-IDF-Based Sequenced List取代完整的Word Segment List。
  • 使用BERT取代Word2vec进行Word Embedding。
  • 尝试使用Latent Semantic Analysis,进行第一轮无监督学习,总而获取到Sentence-level的Tagging information(说到底,还不是因为没有Labeler)。
  • 使用SVD左矩阵反推Word-level Influence Factor,生成NER training data(这一步的话,为了保证模型质量,估计还是得请Labeler帮忙看一下。这个样子的话,比从什么都没有标注要轻松一些)。
  • 尝试双向LSTM训练隐含序列,或者直接通过BERT Pre Trained Model 产出Word Embedding(反正BERT的Embedding是自带Context的,啦啦啦)。
  • 使用线性链的条件随机场进行Sequence Tagging。这一步的话,参考目前的NER模型,在Location/Person/Organization上有95+的F1

如果这几个流程可以按照预期来进行的话,那效果应该还是不错的。

归来

到北京之后,才知道自己有这么多好朋友都在北京。

于是开启了天天约饭的任性模式。短短不到48个小时,就已经约了五六个局…

第一天早上和晓波去吃了金鼎轩,据说是北京现在唯一开门的24小时餐厅。菜式的话主要是以广式早茶为主,讲道理味道一般,但是赢在人家是怎么4小时营业的,可以满足我们这些深夜饥饿的灵魂。下午睡了一觉去了中关村,参观了一下微软大厦。本来想拍照一下微软的Logo,但是运气不好被一辆大货车挡住了,没有拍到。晚上在旁边的食宝街和白晨大吃特吃了一场,差点吃到让我对这个美食天堂失去兴趣。白晨在苏州街附近也找了一个实习,以后估计可以经常约饭了。

第二天去了头条面试。因为之前第一次预约的时间面试官有事,于是HR小姐姐特别认真负责的约到了我到北京的第二天现场面试。面试体验说实话不是特别理想,主要体现在一下几个方面:
1. 首先我得承认主要是我自己的责任,这次面试完全没有准备,如果准备一些概念题和Leetcode算法,那应该会好很多。
2. 我不太明白面试官为什么都想秀你一脸的感觉。在面试过程中面试官处于主导地位不错,但是如果一味为了炫技而去问一下明确表示不了解的问题貌似没有什么意义。
3. 很多问题都是名词解释类的问题。比如说你知道XXX吗?那XXX呢?这两个有什么区别啊?我对这种问题其实真的挺反感的。所有的系统框架都是人自己制定的,为什么不允许有别的理解呢?另一个方面,这种类型的问题看似可以很好的考察一个人的水平,但是只要来面试的人事先有过准备,看了这些问题的标准答案,那在面试的过程中真的是可以无往而不利。
虽说面试的感觉不是很理想,但是我也确实发现了我自己存在的一些问题。很多时候为了快速实现一个技术原型,我会使用大量的轮子,但并不会去深入了解具体的实现流程,所以以后一定要在技术深度上努力学习。
晚上去了望京找康凯学长和张冬妮&舒晓波约大烤鸭,饭店的名字叫局气,很有北京味。

然后就到了第三天,也就是今天。由于回国之后有了GFW,我所有G家的服务都用不了了。真的是非常的蛋疼。于是今天来咖啡厅找了一个位置,搭了一个梯子。查了一下这学期考试的成绩,也回复了一下Gmail的邮件。等会打算再看一看Vue.js的教程和GAN的生成模型。

明天和后天都约了小伙伴的局,能够见到好久不见的老朋友真的很开心。希望大家在北京的工作生活都一切顺利,Cheers!