用于清理文档的深度学习模型
Posted
技术标签:
【中文标题】用于清理文档的深度学习模型【英文标题】:Deep learning model to clean documents 【发布时间】:2019-04-08 13:53:21 【问题描述】:我正在尝试构建一个卷积自动编码器,它可以从官方文档中去除笔迹,如圆圈、下划线等。
我有文档的原始、干净的软拷贝和带有笔迹的复印副本。
复印后的副本显然与原始文档不完全匹配,并且在扫描时会略微倾斜或偏移等。
此外,由于文档尺寸很大(2360、1650),我必须将图像分成 4 个大小的一半(587、412)才能输入到我的模型中。
我想知道的是,上述问题在训练时会导致任何问题吗?有什么办法可以纠正吗?
任何帮助将不胜感激。
谢谢
编辑:
如您所见(希望如此!!),由于复印时的偏斜或平移,噪点图像略有不同。
【问题讨论】:
我没看清楚你的问题是什么?您可以毫无问题地拆分或调整训练数据的大小,但无论您对它们做什么,您也必须对测试数据进行处理。 【参考方案1】:我认为这不会造成任何问题。但是,如果是这样,您始终可以加载图像,将其调整为所需的形状,然后将其输入到模型中。
【讨论】:
嗨...调整大小不是问题...问题是我嘈杂的图像数据是复印的,扫描的副本带有手写下划线、圆圈等。复印时...页面是扭曲和倾斜,这意味着图像的特定 (587, 412) 切割将不会与原始图像完全匹配(内容方面)......因为在训练时我没有看到任何损失减少以上是关于用于清理文档的深度学习模型的主要内容,如果未能解决你的问题,请参考以下文章