处理神经网络中未定义的数据[关闭]
Posted
技术标签:
【中文标题】处理神经网络中未定义的数据[关闭]【英文标题】:handle undefined data in neural networks [closed] 【发布时间】:2019-12-24 10:39:18 【问题描述】:我正在做一个神经网络项目,其中有一个特征是从用户上次活动到某个特定时间所经过的时间。例如,假设有一个时间列表(3 月 15 日、4 月 1 日、4 月 24 日等),我们希望找到每个用户在这些特定时间之前的最后一次活动与特定时间之间的间隔。更清楚地说,图像user1
在 3 月 10 日、3 月 13 日和 3 月 24 日有一些动作,根据 3 月 15 日,他/她的值为 2 天(3 月 13 日)。现在如果用户在 3 月 15 日之前没有任何操作怎么办?
现在由于一些算法,我加入了一些临时表,这些表导致有很多 NaN
。如何告诉网络不应该考虑这些单元格?
edit1
填充单元格的代码是这样的:
for aciton_time in all_aciton_times:
interval_tmp = actions_df.loc[(actions_df['when'] < aciton_time)].drop_duplicates(subset="device_id", keep='last')
interval_tmp['aciton_' + str(aciton_time)] = interval_tmp['when'].apply(lambda x: aciton_time - x)
del interval_tmp['when']
interval = interval.merge(interval_tmp, on="device_id", how="outer")
previous_aciton_time = aciton_time
结果是这样的:
谢谢
【问题讨论】:
你能告诉我们涉及问题的代码吗? 请查看帖子更新 在线搜索如何处理丢失的数据。从本质上讲,当数据丢失时,必须以一种或另一种方式做出一些妥协。删除行、估算值等。 【参考方案1】:如果您有一个大型数据集,您可以删除任何具有 NaN 值的行
【讨论】:
是的,数据集很大,但我不能删除这些行,因为我的数据集严重不平衡(超过 99% 被标记为 0)并且这些行都与 1 相关,如果我删除它们,我会使数据集更加不平衡以上是关于处理神经网络中未定义的数据[关闭]的主要内容,如果未能解决你的问题,请参考以下文章