通用场景识别器

今天是新年第一天上班，然后想到这周只用上三天班就很开心。

由于Sequence Tagging需要大量的标注数据，我这边暂时没有数据源，所以今天下午就先用现有的标注数据集做了一个场景Softmax分类器。

原理十分简单，使用Word2vec (之后可能会考虑换成BERT，但是这两天BERT在我这里表现还不是很理想，所以先用顺手的工具搭建一下Demo)生成词向量。之后通过标注数据集合，将词表里所有的词分成以下几个大类（类别可以由具体的使用场景确定，我这里的分类主要是为了适配童话故事的情况）。

# 模型构建
model = Sequential([
    Dense(32, input_dim=200),
    Activation('relu'),
    Dropout(0.1),

    Dense(16, input_dim=32),
    Activation('relu'),

    Dense(9, input_dim=32),
    Activation('softmax'),
])

用Keras搭建了一个最简单的多层感知机，加上Dropout，开始喂数据。最后可以达到96%左右的Accuracy，算是基本可以使用了。

 test loss:  0.09276254528926478
 test accuracy:  0.9666666666666667

现在这套模型已经可以识别任意词的场景类别了。下一步就是使用Sequence Tagging找出描述场景的位置了。

凛冬之怒

无为善道止战非攻

Leave a Reply Cancel reply