理解Word Embedding，全面拥抱ELMO

提到 Word Embedding ，如果你的脑海里面冒出来的是 Word2Vec ，Glove ，Fasttext 等。那我猜你有80%的概率是从事和 NLP 相关的工作或者至少是一个算法爱好者 ( 这貌似是一个真命题，哈哈 ) 。其实简单来说 Word Embedding 就是把词转换成向量的形式。计算机只识别二进制，智能问答系统，我们需要计算机理解的是文字。此时我们就需要将文字转换成数字，向量的形式。最简单的一种方式就是 one-hot 表示。这种方法没有语义的理解。把词汇表中的词排成一列，对于某个单词 A ，如果它出现在上述词汇序列中的位置为 k ，那么它的向量表示就是 ” 第 k 位为1，其他位置都为0 ” 的一个向量。这种表示表示学不到单词之间的关系 ( 任意两个单词向量的内积都为0 ) ，并且如果词汇表很大，词向量会很长，带来维度上的灾难。无论是 Word2Vec 还是 Glove 和 Fasttext ，都完美的解决了上述两个问题，在训练的过程中，为每一个词生成一个向量，Word2Vec 训练的目的就是为了产生词向量，而 Fasttext 算法主要是为了做文本分类，词向量只是其副产物，中间会产生词向量。

这种方法在语义理解上效果比较好，可以将语义相似的词用相似的向量表示 ( 向量夹角小 ) ，但是有个缺点，训练好之后每个单词的表达就固定住了，以后使用的时候，不论新句子上下文单词是什么，这个单词的 Word Embedding 不会跟着上下文场景的变化而改变，如：“ 我喜欢吃苹果 ”，“ 很多人觉得苹果手机很好用 ” 。这两个句子中的苹果是不同的语义，表示不同的对象，没有办法表示出来。

历史总是惊人的相似，resnet 的出现颠覆了 cv 领域，刷爆了各大比赛的排行榜。Bert 登上历史的舞台，基本刷新了很多 NLP 任务的最好性能，有些任务还被刷爆了。牛顿曾经说过：如果说我看得比别人更远些，那是因为我站在巨人的肩膀上。同样，Bert 算法是站在 elmo ，GPT 等一系列算法的基础上。Bert 是近年来 NLP 重大进展的集大成者。之后我会逐步把这些都总结下来做成一个系列，第一篇我们先介绍语言模型预训练的鼻祖 ELMO ，ELMO 是 “ Embedding from Language Models ” 的简称，但论文题目是 “ Deep contextualized word representations ” ，这里面有两个关键词，一个是 deep ，一个是 context 。这两个词诠释了 ELMO 模型的精髓，利用深度网络学习单词的上下文。模型的本质和代码我会在下面的篇幅中逐步展开。

1. 理解 Word Embedding

我相信你或多或少都听过 FM 算法，目前推荐领域各种算法都可以看到 FM 的影子，FM 使得推荐领域达到了一个新的巅峰。无论是原始 FM 算法还是他的变形，FFM ，wide & deep ，DCN ，DeepFM ，会为每一个特征学习一个 latent vector 。这种特征 embedding 模式应该是 Word Embedding 方法的老前辈，这也充分体现了 Word Embedding 的重要性。

1.1 图像预训练

你可能会对这个题目比较好奇，我们要讲的是 Word Embedding ，这个是不是有点跑题了。之所以有这个章节，因为或许你会经常听到搞图像的人说，“ 我今天 Fine Tuning 了一个 base model ，我用 ImageNet 上训练的模型作为冷启动 ” 等一系列相关的内容。所以，我想花一点篇幅来解释一下图像领域的预训练。

点击查看原文>