批量处理大量数据集Laravel

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了批量处理大量数据集Laravel相关的知识,希望对你有一定的参考价值。

我目前在laravel中有一个Cron,它在块中获取数据并调用API。

流程如下

1. Cron runs every 5 minutes
2. Takes 80 data in chunks
3. Loop it through and call an API for 80 times and takes the next 80 in the next cron cycle

这种方法非常慢,如果表中有10000000条记录,则需要多次处理它。我之前使用了一块1000块,它打破了我的系统说“太多打开的文件”异常,我把它从1000块减少到80块。

我知道这是我正在做的非常糟糕的设计。

我需要重新构建当前模型并构建可以并行处理的东西。至少500-1000并行处理数据。

我如何在Laravel中做到这一点。甚至可以通过php,还是我必须查看像nodejs这样的选项?如果可以使用队列,请帮助我。即使我使用队列,我能通过它进行并行处理吗?

更新

现在我尝试使用Laravel队列

该命令在后台运行

php /Users/ajeesh/PhpstormProjects/untitled3/open-backend-v2/artisan queue:work database --tries=1 --timeout=56

我的工作正在处理3次。我无法弄清楚为什么。

有人可以为此提出解决方案吗?

答案

要运行并行作业,您需要安装一个管理器,如“Supervisor”,它将为您提供各种工作人员(实例)。您可以设置服务器资源可以处理的工作数。

请记住,每个工作者都是laravel应用程序的不同实例,反映了它在创建时的状态。如果您对相关代码进行了更改,例如作业的代码,则需要重新启动主管,以便它可以获得更新的版本。

Supervisor

接下来,您必须为每个调度的作业设置一种方法,以要求正确的可用块。

工作1将获得大块1到80.工作2将获得大块81到160. ...

您没有详细说明您的代码,也许这不会是一个问题,但如果是,您可以创建一个数据库表来跟踪可用的块和尚未处理的块。

关于你被解雇3次,代码如下:

php /Users/ajeesh/PhpstormProjects/untitled3/open-backend-v2/artisan queue:work database --tries=1 --timeout=56

它的功能是调度队列中已有的作业。也许另一段代码将工作排队3次?

安装“Supervisor”后,您无需手动调度作业。它会在到达时跟踪您的工作和发送事件(如果您按照这种方式进行配置)。

另一答案

在我们提出最佳解决方案之前,您必须回答几个关键问题:

  1. 这些API调用是否独立?如果呼叫相互依赖,则无法进行并行处理。一个例子:假设您正在筛选页面,API调用提供上一次调用中下一页的URL,然后它们是依赖调用,除非那里有模式,否则您无法使用并行处理。
  2. 为什么作业会多次调用API?是否有替代方案(例如批量操作API)?
  3. 你在关于桌子的问题中提到过。您是否通过表格并为每条记录执行API调用?

你的工作可能被调用3次,因为他们没有超时,你已经将试验次数设置为3.如果你有一个failed_jobs表设置,请检查它以查看错误(我猜测超时)。

这些问题有几种解决方案。队列,流程工作者,组合等是可能的解决方案,但每个人都必须谨慎处理。更好的方法是最小化API调用(如果可能)。一旦您回复,将更新答案。

以上是关于批量处理大量数据集Laravel的主要内容,如果未能解决你的问题,请参考以下文章

Laravel中chunk组块结果集处理

Laravel:如何在控制器的几种方法中重用代码片段

Laravel 5.2 中的批量插入

使用Bulk Binding批量绑定的模式高效处理ORACLE大量数据

[转]Excel生成批量SQL语句,处理大量数据的好办法

使用 Datatables 在 Laravel 中处理大量行的最佳方法是啥?