keras.tokenizer.texts_to_sequences 和词嵌入有啥区别
Posted
技术标签:
【中文标题】keras.tokenizer.texts_to_sequences 和词嵌入有啥区别【英文标题】:What is the difference between keras.tokenize.text_to_sequences and word embeddingskeras.tokenizer.texts_to_sequences 和词嵌入有什么区别 【发布时间】:2019-10-21 07:36:40 【问题描述】:tokenize.fit_on_text
、tokenize.text_to_sequence
和 word embeddings
之间的区别?
尝试在各种平台上搜索,但没有得到合适的答案。
【问题讨论】:
【参考方案1】:词嵌入是一种表示词的方式,使得具有相同/相似含义的词具有相似的表示。学习词嵌入的两种常用算法是 Word2Vec 和 GloVe。
请注意,在针对特定 NLP 问题训练神经网络进行文本处理时,也可以从头开始学习词嵌入。你也可以使用迁移学习;在这种情况下,这意味着将学习到的单词表示从大量数据集中转移到您的问题上。
至于标记器(我假设我们所说的是 Keras),取自文档:
tokenize.fit_on_text()
--> 根据词频创建词汇索引。例如,如果你有一句“我的狗和你的狗不一样,我的狗更漂亮”,word_index["dog"] = 0
,word_index["is"] = 1
(狗出现 3 次,is 出现 2 次)
tokenize.text_to_sequence()
--> 将每个文本转换为整数序列。基本上,如果你有一个句子,它会为你句子中的每个单词分配一个整数。您可以访问tokenizer.word_index()
(返回字典)来验证分配给您的单词的整数。
【讨论】:
以上是关于keras.tokenizer.texts_to_sequences 和词嵌入有啥区别的主要内容,如果未能解决你的问题,请参考以下文章