[Tensorflow] **RNN - 04. Play with Feature Extraction

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[Tensorflow] **RNN - 04. Play with Feature Extraction相关的知识,希望对你有一定的参考价值。

 特征处理

 

在文本挖掘中做了很大的努力,比如提取关键词、情感分析、word embedding聚类之类都尝试过,但效果都不是很好,

对于文本的特征的建议还是去找出一些除了停用词以外的高频词汇,寻找与这个房屋分类问题的具体联系。

 

 

到了头疼的部分了,数据有了,我们得想办法从数据里面拿到有区分度的特征

  • 比如说Kaggle该问题的引导页提供的word2vec就是一种文本到数值域的特征抽取方式,
  • 比如说我们在第6小节提到的用户信息提取关键字也是提取特征的一种。
  • 比如说在这里,我们打算用在文本检索系统中非常有效的一种特征:TF-IDF(term frequency-interdocument frequency)向量。每一个电影评论最后转化成一个TF-IDF向量。

稍加解释一下,TF-IDF是一种统计方法,用以评估一字词(或者n-gram)对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。这是一个能很有效地判定对评论褒贬影响大的词或短语的方法。

 

那个…博主打算继续偷懒,把scikit-learn中TFIDF向量化方法直接拿来用,想详细了解的同学可以戳sklearn TFIDF向量类。对了,再多说几句我的处理细节,停用词被我掐掉了,同时我在单词的级别上又拓展到2元语言模型,恩,你可以再加3元4元语言模型…单机内存不够了,先就2元上,凑活用吧…

 

以上是关于[Tensorflow] **RNN - 04. Play with Feature Extraction的主要内容,如果未能解决你的问题,请参考以下文章

测试精度 0.5 TensorFlow RNN 可变长度字符串

如何在 LSTM 中实现 Tensorflow 批量归一化

学习Tensorflow的LSTM的RNN例子

对 Tensorflow 中的多层双向 RNN 感到困惑

TensorFlow:从 RNN 获取所有状态

tensorflow高阶教程:tf.dynamic_rnn