用多线程优化Excel表格数据导入校验的接口
Posted itbac
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用多线程优化Excel表格数据导入校验的接口相关的知识,希望对你有一定的参考价值。
公司的需求,当前某个Excel导入功能,流程是:读取Excel数据,传入后台校验每一条数据,判断是否符合导入要求,返回给前端,导入预览展示。(前端等待响应,难点)。用户再点击导入按钮,进行异步导入(前端不等待,好做)。当前接口仅支持300条数据,现在要求我要支持3000条数据。
解决问题,思路是关键。
首先,查看接口,找到读取表格的位置,看到判断,如果数据量大于300,直接返回。把300改成3000.
然后,分析导入数据校验,都是和哪些数据进行校验的,这些数据都是从数据库来的。每一次都从数据库查询,那肯定是慢的。就算是查询Redis缓存,也要有网络消耗,增加缓存的压力。虽然单机Redis有12万次/秒的查询性能,12万除以3000得40,如果这样玩,40个人使用就拖垮系统了。同一个数据,非要查3000次,那是不是傻???所以减少每一次的查询,把数据库查询都加上Redis缓存,把Redis缓存查到的数据,在方法中创建并发安全容器ConcurrentHashMap存储数据,避免重复的查询操作,只查一次直到方法调用结束。
方法内部创建的对象,当方法调用完成,进栈出栈,释放引用,就会释放内存。在3000次校验的过程中,Object对象,是在jvm内存中的,方便被快速的重复使用,而不是需要再次从数据库或者缓存中获取。这是方法栈级别的缓存,JVM缓存,本地缓存。
这就是最重要的思想,思维。做到一个方法中,尽量少的查询,把查询的结果重复利用。
当我做完了在方法中用ConcurrentHashMap缓存数据,就进行了测试。
结果:最多支持800条导入数据的校验。前端请求超过10秒,就会请求超时。
怎么办呢???
产品,你这个需求搞不定啊。无法实现啊。。。。。。扯皮中。。。。。扯皮无效。
接着用多线程技术进行优化。
1.创建线程池
2.创建用于接收线程池任务返回值有序集合,方便依次获取结果。
3.获取线程池
4.读取Excel表格数据,遍历每一行,每一行数据都提交一个任务到多线程。
5.遍历futureList获取结果。
6.如此,把所有结果组合起来,返回。就完成了这个方法的线程池运用的改造。
7.这时候,又出现一个问题,3000条数据,每条数据都有一个id,如何在多线程里,让处理过的id不重复,出现重复还能做标记呢???
这时候我用到了并发安全的Set ===> ConcurrentSkipListSet
我们来看看ConcurrentSkipListSet的add()方法的源码:
把上面的描述内容用谷歌翻译:
如果指定的元素尚不存在,则将其添加到此集合中。
更正式地说,将指定的元素@code e添加到此集合if
该集合不包含@code e2元素,以便@code e.equals(e2)。
如果此集合已包含该元素,则该调用将离开该集合
不变并返回@code false
说明我们这里的id去重的用法完全正确。
我们再来看看Future的get()方法的源码:
翻译:Waits if necessary for the computation to complete, and then retrieves its result .
等待计算完成所需,然后取回其结果
所以,Future的get()方法是阻塞等待的。
到此,我就完成了从开始的300条数据,到800条数据10秒响应,优化到了3000条数据7秒响应。
即完成了任务,又提高了性能。
通过这一次运用了,线程池,Future,Callable 和并发安全容器类ConcurrentHashMap、ConcurrentSkipListSet 等技术,
很大的提高了我的多线程,并发编程的技术。还有方法栈级别的数据缓存,JVM缓存,这是一个思想的飞跃。
以上是关于用多线程优化Excel表格数据导入校验的接口的主要内容,如果未能解决你的问题,请参考以下文章