4.29

Posted qingchen-forever

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了4.29相关的知识,希望对你有一定的参考价值。

1、数据基数计算:

统计一批数据中不重复元素的个数

2、CNN对于分类任务较为擅长,但是卷积和pool丢失了一些上下文信息,因此在对上下文把握方面,RNN还是更甚一筹。

 

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

pm.

1、佳伟哥做的集成模型就是我能想到的最好的解决方法了,因为review_model2.py并没有充分的使用评论内容的信息,只是对于评论内容做了人工特征的提取,所以在提取的特征之后再添加一个由文本作为特征的对文本进行高效分类的层(佳伟哥用的是LSTM)

然后,再连接一层全连接层进行更深一步的训练,最后连接神经元个数为1的输出层。

我的初步想法:

(1)第一个可以改进的地方是LSTM层,当只是将文本分类作为一个单独的任务的话,有很多可以提升的更为复杂的模型,比如Bi-LSTM, bert(可以直接调用keras bert),一定可以取得更好的效果。

(2)在文本词嵌入的部分,原来的模型直接使用的是特征工程哈希列的方法。可不可以单独训练词向量成one-hot形式呢?将分好词的句子通过CBOW模型得到词向量。不知道结果会不会好一些。

(3)添加dropout,增加模型的鲁棒性,提升模型效率

 

2、tf.keras.Input

3、tf.keras.layers.Dense()(x)

如果后边还有一个括号,代表将新构建的层添加到x层之后

以上是关于4.29的主要内容,如果未能解决你的问题,请参考以下文章

4.29学习笔记-cookie的使用

4.29 数组的索引和排序

4.29--4.30 图论

Colab 提供 OOM 用于在 tensorflow 中在 GPU 上分配 4.29 GB 张量

上周热点回顾(4.23-4.29)

4.29 模拟赛