机器学习方法在有机固体废物处理和利用过程预测中的应用：综述

Posted 2021-04-03 甄环保

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习方法在有机固体废物处理和利用过程预测中的应用：综述相关的知识，希望对你有一定的参考价值。

小编近期翻译了几篇刘洪涛研究组的文章，仅用于学习交流和自己提高。翻译不准确之处还请多多指教。本篇文章为：

Application of machine learning methods for the prediction of organic solid waste treatment and recycling processes

发表刊物：Bioresource Technology, 2021, 319: 124114 (Q1, IF: 7.539)

机器学习方法在有机固体废物处理和利用过程预测中的应用：综述

郭郝楠^a^，^b，吴书标^Ç，田应杰^d，张军^ē，刘洪涛^a,^f^,^⁎

^a中国科学院地理科学与自然资源研究所，北100101 ^b^,中国

^b中国科学院大学资源与环境学院，北京100049^，中国

^c奥尔胡斯大学奥尔胡斯高等研究院，DK-8000，丹麦

^dCAS中国虚拟经济与数据科学研究中心，奥尔胡斯C，北京100190，中国

^Ë环境污染控制理论与技术广西重点实验室，桂林理工大学，桂林541004，中国

^˚F中国科学院黄河三角洲现代农业工程实验室，北京100101，中国

文章信息

关键词：

机器学习、有机固体废物、建模、预测

摘要

传统的有机固体废物处理和再循环利用方法存在固有的缺陷，例如效率低，准确性低，成本高以及潜在的环境风险。在过去的十年中，机器学习在解决有机固体废物处理的复杂问题方面逐渐引起越来越多的关注。尽管已经进行了重要的研究，但是缺乏对该领域研究结果的系统评价。本研究对2003年至2020年间发表的研究报告进行了归类，总结了不同机器学习模型的特定应用领域，特征和适用性，并讨论了相关的应用局限性和未来前景。可以得出结论，研究主要集中于城市固体废物管理，然后是厌氧消化，热处理，堆肥和垃圾填埋场。最为广泛使用的模型是人工神经网络，它已成功应用于各种复杂的非线性有机固体废物相关问题。

1. 引言

有机固体废弃物指的是人类活动产生的包含有机质成分的固体废弃物及材料。包括农作物（例如农作物秸秆，牲畜粪便）,工业（例如工业污泥）和城市有机固体废弃物（例如园林废弃物，厨余垃圾，塑料）随着人口快速增长，经济发展以及城市化进程，有机固体废弃物的产生引起了世界性危机（Arun ial，Sivashanmugam，2017年）。不适当和低效的处理方式会产生一系列的环境问题，包括环境污染，生态系统破坏，对人类健康的危害以及自然资源的枯竭（Triassi等人，2015; Laurent等人，2014 ），这迫使各国政府将更多的资源投入到环境修复中（Wainaina等人，2020 ）。但是，如果有机固体废弃物可以以资源或能源的形式尽可能多的回收，这些环境问题可以极大的得到缓解。因此，提高有机固体废弃的处理和循环利用效率对环境保护，资源节约，经济发展和人类健康的保护具有重要的积极意义。

机器学习方法在有机固体废物处理和利用过程预测中的应用：综述

有机固体废弃物的处理和回收利用方法包括分类回收，焚化，垃圾填埋，堆肥，厌氧消化，热解和气化（Kumar和Samadder，2020； Salman等，2017； Wang等，2015 ）。但是，这些方法存在固有的缺陷，最突出的是效率低，准确性低，成本高以及潜在的环境和健康风险。例如，目前用于城市生活垃圾的主要分选方法是人工手选。这种方法效率低下，废物中的有害物质会损害进行分选工作的工人的健康（Adedeji and Wang，2019）。另外，废物的收集和运输过程经常消耗大量的人力，物力和财力，并且可能导致空气污染，温室气体排放，噪声以及对环境的许多其他负面影响（Mohsenizadeh等，2020 ）。不恰当的废物管理系统规划将进一步加剧这些问题。在焚烧过程中，有机固体废弃物的异质性导致诸如加热特性波动和炉内燃烧不均匀等问题，从而降低了焚烧效率（Makarichi et al。，2018 ）。此外，焚烧相关参数（包括焚烧温度，通风和烟道气停留时间）会严重影响有害物质（如SO ₂，HCl，NO _x和二噁英）的产生，构成潜在的环境和健康风险（Zhang等人，2020年； Ashworth等人，2014年）。对于堆肥过程，成熟度是非常重要的指标。但是，基于理化分析确定成熟度的经典方法既耗时又昂贵（Kujawa等，2020 ）。此外，固体废物的不均匀性将导致多次实验的结果存在较大差异，从而导致准确性降低。上述问题和缺陷极大地阻碍了处理技术的发展，同时限制了有机固体废弃物的处理和资源利用。

机器学习（ML）是一种能够自主获取和整合知识的系统，近年来已逐渐应用于与环境相关的领域，例如废水，空气污染物和固体废物处理。机器学习的一般原理是通过归纳推断来概括输入变量和输出变量之间的关系，然后根据从经验数据中获得的关系在新情况下做出明智的决策（Cipullo等，2019 ）。图1显示了机器学习的基本过程。一个完整的机器学习过程通常包括三个阶段：培训，交叉验证和测试。训练阶段：基于训练数据集，通过设置不同的模型参数（而非超参数）来训练机器学习模型。交叉验证阶段：验证数据集用于通过调整模型超参数来选择最佳模型。测试阶段：在测试数据集上进一步评估所选模型的性能。随后，该模型已准备好用于预测

（Wu等，2013 ）。机器学习于2003年首次应用于固体废物相关领域，最初的应用是预测城市固体废物的发热量（Dong等，2003）。然而，自2010年以来，机器学习受到了广泛的关注和研究。特别是在最近的5年中，机器学习已逐渐应用于有机固体废弃物处理和回收的各个领域，并且发表的研究文章数量也呈指数增长。

机器学习因其优点被广受赞誉，包括节省时间，应用于复杂的非线性问题时的高预测精度以及在不必要的重复实验中显着减少的人力和资源消耗（Roohi等人，2020; Tahmasebi等人。，2020； Zhu et al。，2019a，2019b ）。

以上这些特性使ML的使用得以改善，甚至解决了传统OSW处理方法的缺点。此外，由于OSW领域中的数据量通常不会太大，因此在训练过程中ML的计算成本远远小于它可以带来的潜在收益。因此，ML在治疗OSW中具有巨大的潜力，值得深入和广泛的研究。迄今为止，已经发表了许多有关ML的评论文章，其中涉及与固体废物相关的研究。Kolekar等。（2016）和Goel等。（2017）关于经济，社会人口学或管理导向数据确定用于预测城市固体废物（MSW）产生的ML模型。Yetilmezsoy等。（2011年）评估了几种用于建模城市固体废物的重量，组成和总产生率的ML模型。Vitorino De SouzaMelaré等（2017）讨论了ML技术在城市固体废物的收集管理，容器监控和处置地点确定中的应用。Ye等（2020年）介绍了机器学习在固体废物产量预测，减量和循环利用优化方面的发展。最后，阿卜杜拉（Abdallah）等人（2020年）全面分析和评估了多种ML模型在城市垃圾特性预测，垃圾箱水平检测，过程参数预测和车辆路线规划中的应用。但是，这些研究中的大多数仅讨论了ML在MSW的生成预测，分类和收集管理中的应用。关于机器学习在固体废弃物处理中的应用的系统综述性文章仍然十分缺乏。

因此，本次研究意图在机器学习在有机固体废弃物处理和利用提供应用方面提供一个基于数据的系统性的概述。

综述的组织如下：在第二部分中，介绍了ML在OSW处理中的主要应用领域及其研究现状。第三部分总结了所应用的ML模型的主要类型，比较了它们的特征，并讨论了它们的适用性。第4节对ML应用的现状进行了批判性讨论。第5节提供了在OSW相关领域中应用ML的挑战和潜在前景。最后，第6节总结了论文。

2.机器学习涵盖的有机固体废物处理和回收领域

通过使用不同的关键词组合，从Web of Science和ScienceDirect检索出版物，主要包括“机器学习”，“人工神经网络”，“支持向量机”，“遗传算法”，“决策树”，“随机森林”，和“固体废物”，以及符合本研究主题的文章均经过手动筛选出来。统计数据表明，在过去十年中，在研究有机固体废弃物在机器学习中的应用的兴趣迅速增加。此外，主要的应用领域包括城市固体废物管理，堆肥，厌氧消化，垃圾填埋，焚烧和热解气化。

2.1.城市固体废物（MSW）管理

厨余垃圾和污泥是城市固体废弃物的两个重要组成部分，是典型的有机固体废弃物。MSW管理涉及多个过程，例如生成，存储，收集，运输和分类，所有这些都可以借助ML的功能进行建模和优化。迄今为止，大多数研究都是关于ML应用于MSW产生量的预测，其中最常用的ML模型是人工神经网络（ANN），其次是支持向量机（SVM）。Jalili Ghazi Zade和Noori（2008）首先使用前馈神经网络（ANN）模型根据每周废物产生数据和运载废物的卡车数量来预测城市固体废物的产生量。该模型获得了确定系数（R ²）为0.75，平均相对误差（MRE）（以绝对误差与实际值的所有比率的平均值计算）为3.18％。同时，Noori等（2009年）开发了一种改进的SVM模型，并结合主成分分析来预测每周产生的城市固体废弃物，其R ²为0.75，MRE为3.35％。与经典统计方法相比，这两项研究中提出的ANN和SVM模型在预测城市固体废弃物产生方面更为有效，但由于R ²^的值相对较低，仍有改进的余地（0.75）。随后，研究人员试图通过优化模型结构和输入变量，并结合数学优化技术来提高预测精度。一项这样的研究提出了一种使用前馈非线性自回归网络和外部输入（NARX）的ANN方法，以人口和经济数据作为附加输入变量来预测城市固体废弃物的年生成量，对于最佳模型，R ²为0.97（Younes等人。，2015 ）。Abbasi等。（2013年）结合偏最小二乘（PLS）和SVM来预测每周产生的城市固体废弃物，达到了较高的R ²（0.87）和较低的MRE（2.1％）。在预测准确度和计算时间方面，开发的基于偏最小二乘的支持向量机（PLS-SVM）模型优于SVM模型。

其他研究集中在城市生活垃圾的存储，收集，运输和分类上。Hannan等。（2012年）提出了一种自动垃圾箱水平检测系统，该系统使用灰度光环矩阵（GLAM）提取垃圾箱图像纹理，并采用多层感知器神经网络（MLP-ANN）和K近邻算法（KNN）确定120升垃圾桶的填充水平。该系统达到了大约90％的可接受精度。同时，Rutqvist等。（2020年）使用超声波传感器和6种ML算法分别来测量和检测大型废物回收容器（2 m ³和以上）的填充水平，并使用随机森林（RF）分类器获得了性能最佳，精度高达99.1％的解决方案。对于分类过程，一些研究提出了仅针对塑料废物的分类系统（Özkan等人，2015; Tachwali等人，2007; Wang等人，2019a，2019b ），而其他研究则主要集中在具有复杂成分的固体废物的分类上。（Chu等，2018; Sakr等，2016;Toğaçar等，2020 ）。其中，Toğaçar等人，（2020年）提出了分类精度最高的方法，他开发了包括数据集重建，特征提取，特征约简和分类的四步方法，结合了AutoEncoder网络，卷积神经网络（CNN），脊线回归（RR）和SVM对有机废物和可回收废物进行分类，最终达到了99.95％的高精度。遗传算法（GA）是用于MSW收集和运输的最广泛使用的ML模型。例如，Bautista和Pereira（2006）实施了遗传算法来定位城市固体废弃物的收集区域，Ferreira等人。（2015年）开发了一种蜂窝式遗传算法，用于规划进行垃圾收集的车辆的路线，而其他一些研究则将遗传算法与地理信息系统（GIS）集成在一起，以优化城市固体废弃物的收集路线（Amal等人，2018； Duzgun等人，2016）。）。

这些提出的方法在实际测试中均表现出良好的性能，并达到了准确定位收集区域，缩短收集路线长度，节省运输时间并减少燃料消耗的目的。很少有研究应用其他模型（例如kmeans聚类（KMC）（Ray等人，2018 ）和决策树（DT）（Bakhshi and Ahmed，2018 ））来确定最佳废物收集路线，与GA相比，他们在解决问题上表现不佳。

总之，ML方法的应用可以提高废物分类的准确性和效率，降低收集和运输的成本，并优化废物管理的运作，这在经济和环境方面都是有益的。

2.2堆肥

在有机垃圾处理中，堆肥是一种典型的减量化，稳定化和无害化的处理方法，主要处理那些可被需氧菌降解的有机部分，例如纤维素，蛋白质，脂肪等。堆肥的最终产品可以作为有机肥料回收利用，进行土壤改良（Guo等，2019 ）。迄今为止，ML已广泛应用于堆肥成熟度评估和堆肥过程中污染物的预测中。

成熟度用于估计堆肥是否可以安全地用于农业生产（Bernal等人，2009年），以及堆肥是否可以存储在高大的堆中以减少堆肥平台的面积（Kujawa等人，2014年）。堆肥成熟度的评估指标包括物理指标（例如温度，颜色，气味），化学指标（例如C / N比，腐殖质含量，阳离子交换能力）和生物学指标（例如发芽指数，酶活性，微生物含量）。高等人，（2007年）采用基于小波变换理论和ANN的小波神经网络方法，通过学习输入的成熟度指标信息，确定污泥堆肥的成熟度，测试精度为87.5％。Chakraborty等。（2014年）结合可见近红外漫反射光谱法和ML方法来预测堆肥的酶活性，发现与PLS，主成分回归，RF，支持向量回归（SVR）和惩罚样条回归相比，MLP-ANN表现更好性能（R ² = 0.91）。在其他研究中，通过引入CNN直接分析堆肥图像来评估堆肥成熟度，优化模型的精度均超过99％（Kujawa等人，2020; Xue等人，2019 ）。与其他ML模型相比，CNN的引入进一步提高了堆肥成熟度的预测准确性和效率，这是目前在该领域应用的最佳ML模型。

ML在堆肥过程中污染物预测中的应用仍然有限。Alavi等人。（2019）采用了人工神经网络对堆肥过程中四环素（TC）的降解进行建模。开发的模型可以有效地预测实验数据（R ² = 0.99）。

同时，敏感性分析发现时间，抗生素类型，填充剂比例和初始抗生素浓度对TC降解的相对重要性分别为80.43％，7.95％，6.43％和5.17％。其他研究将人工神经网络与各种生物传感器结合起来，以确定堆肥过程中对苯二酚或邻苯二酚的浓度（Tang等，2008； Zhou等，2014； Zhang等，2009 ）。在这些研究中开发的ANN模型获得了较高的预测精度（R ² > 0.99），并且ANN的应用显着扩展了生物传感器的检测范围并提高了其适应性。除上述应用外，Hosseinzadeh等人。（2020年）我们还评估了ANN和多元线性回归（MLR）在预测堆肥期间总氮（TN）和总磷（TP）回收率方面的效率。结果表明，与R ²值约为0.8的MLR相比，ANN对TN和TP具有更好的预测（R ²值接近1）。

2.3厌氧消化

厌氧消化也是一种OSW回收技术，主要处理可生物降解的有机部分。但是，与堆肥不同，它利用微生物在厌氧条件下降解有机物，可以产生高能沼气，主要由甲烷和二氧化碳组成（Dahunsi等人，2016; Ghatak和Ghatak，2018 ）。现有的大多数研究已经研究了ML在预测厌氧消化过程中沼气产生中的应用。其中许多研究采用了ANN + GA方法。首先，基于一些操作参数，使用人工神经网络模拟沼气生产过程，然后使用遗传算法优化沼气生产（Abu Qdais等人，2010； Barik和Murugan，2015）。这些研究中开发的ANN模型可以准确预测沼气产量，R ²^的范围为0.87至1，而GA优化可以提高沼气产量。此外，在某些报告中，还采用了其他ML模型（例如KNN，SVM，RF，极限梯度增强和MLR）来模拟沼气的产生（De Clercq等，2019; Dong和Chen，2019; Wang等，2020 ; Xu et al。，2014 ）。

其余研究集中在厌氧消化的其他方面。一项这样的研究使用ANN预测厌氧消化过程中碳和氮的路径（CH ₄产量，COD浓度和NH ₄⁺-N浓度）（R ² > 0.7）（Li等，2016 ）。Alejo等。（2018）使用SVM预测了两阶段厌氧消化过程中废水中的总氨氮（R ² = 0.90）。最后，在无氧消化过程中将反向传播前馈ANN用于碱度建模，显示了令人满意的性能，R ²为0.99（Wang等，2018）。上述预测应用可以有效提高有机废物厌氧消化处理的稳定性和效率。

2.4. 焚烧，热解和气化

焚烧，热解和气化是从有机固体废弃物OSW回收能量的常用处理技术，主要处理OSW中的可燃部分。上述处理方法的热效率在很大程度上取决于OSW的热值（Uzun等人，2017 ），而当前有关ML的相关研究也主要集中在热值的确定上。研究最多的模型是ANN和SVM。Shu等。（2006年）开发了一种MLP-ANN模型来预测城市固体废弃物的低位热量，它用元素分析和干基或湿基物理成分作为输入变量，最后得到了基于元素分析的最优模型，R ² = 0.93，准确性为98％。在陶等人，（2020年）进行的研,究中，使用SVM预测生物质废物的C，H和O含量以及低发热量，并获得了使用多核优化的SVM模型，其精度在85.53％至95.54％之间。此外，Bagheri等人提出了一种使用基因表达程序（GEP），SVM和前馈ANN准确估算MSW高发热量的快速方法。

所建立的GEP，SVM和ANN模型的性能分别达到R ²值为0.97、0.98、0.97和MRE分别为5.70％，4.41％和5.05％。

相比之下，有一些研究专注于焚烧过程中的污染物排放，例如二恶英（Bunsan等人，2013; Tang等人，2018 ）和一氧化碳（Norhayati和Rashid，2018 ）。这些研究有利于污染物排放的预测，也有利于通过优化工艺参数来减少污染物的排放。此外，一些单独的研究探索了ML在预测焚烧飞灰中的重金属形态（Gao等人，2016 ），气化氢气或合成气生产中的应用（Ozbas等人，2019; Pandey等人， 2015 ），热解生物炭生产（Cao et al。，2016）和热解或燃烧过程中的质量损失（Chen等，2018; Yu等，2020; Zhang等，2019 ），所有这些都提供了成功的例子。

2.5.堆填区

垃圾填埋技术广泛适用于所有类型的废物，但也有明显的缺点。例如，渗滤液和气体的产生是填埋场最重要的限制因素。由于垃圾填埋场的异质结构，很难通过传统模型或简单方程式对垃圾填埋场的特征或行为进行建模（Ozcan等，2006 ）。与传统方法相比，机器学习是一种有效且可靠的解决方案。Ozkaya等。（2007年）提出了一个ANN模型，使用垃圾温度，垃圾年龄和常规的沥滤液参数（例如pH，碱度，COD，硫酸盐）来预测在没有（C1）和（C2）渗滤液再循环的情况下运行的垃圾填埋生物反应器中的甲烷含量，电导率和氯化物作为输入。为了预测C1和C2测试组的准确性，R ²的值为0.90和0.92，均方根误差（RMSE）分别为0.051和0.050。Abunama等。（2018）开发了MLP-ANN和SVM模型，以倾倒的废物量，降雨水平和产生的垃圾填埋气作为输入参数来预测渗滤液的产生率。结果表明，MLPANN模型的优于SVM模型，R ²为0.96。此外，通过MLP-ANN和径向基函数人工神经网络（RBF-ANN）预测和评估了渗滤液渗入地下水的情况（Bagheri等，2017 ）。MLP-ANN和RBF-ANN模型的预测准确度分别为97％和95％，并且还表明了渗滤液渗入地下水时重金属的潜在污染风险。此外，关于ML的研究应用于废物压缩比预测（Heshmati等，2014 ），垃圾填埋场选择（Abujayyab等，2017 ），垃圾填埋埋区估计（Hoque和Rahman，2020; Younes等，2016 ），和垃圾填埋场表面温度评估（Abu Qdais和Shatnawi，2019）已在最近几年进行。ML的引入可以促进垃圾填埋场的设计和调整制定策略，从而进一步提高垃圾填埋场的运营效率，并降低地下水对环境和周围生态环境污染风险。

表1列出了与OSW相关的处理和回收领域中ML应用的摘要。

到目前为止，已获授权的专利主要集中在废物分类（Paz，2016 ），堆肥质量检测（Huang等，2010 ），车辆路线优化（Tian和Pu，2019 ）以及热解气体的预测等领域。（Serio等，2006 ），沼气生产（Kim等，2015 ）和焚烧二恶英排放（Tang等，2019 ）。尚未发布有关在垃圾填埋场中使用ML的专利，并且在这些授权专利中很少采用DT / RF模型。

3.不同机器学习模型的特征和适用

如图2所示，在有机固体废弃物处理领域应用的 ML模型

机器学习方法在有机固体废物处理和利用过程预测中的应用：综述

图2.在综论文章中使用的各种机器学习模型：ANN:人工神经网络；SVM：支持向量机；GA：遗传算法；DT：决策树；RF：随机森林；MLR：多元线性回归；KNN：k近邻法；ANFIS：基于自适应网络的模糊推理系统；GBM：梯度提升机；GBRT：梯度提升回归树；GEP：基因表达编程；KMC：k均值聚类。

应用ANN的研究占总数的54％，其次是SVM（15％），GA（9％）和RF / DT（7％）。MLR，KNN，基于自适应网络的模糊推理系统（ANFIS），梯度增强机（GBM），梯度增强回归树（GBRT），GEP和KMC等其他模型占总数的15％。

3.1.人工神经网络

人工神经网络是一种从信息处理的角度抽象人脑神经元网络的操作模型，具有非线性，无限制，适应性强和容错性等特点。如图3所示，ANN结构由输入层，一个或多个隐藏层和输出层组成。每层包含一定数量的神经元，这些神经元根据一定的权重链接到后续层中的一定数量的神经元（Zhu等，2019a，

2019b ）。在综述的研究中，研究了不同类型的ANN模型，包括MLP，RBF，反向传播，CNN和递归神经网络（RNN）。

作为应用最广泛的机器学习模型，人工神经网络可以有效解决各种复杂的非线性环境问题，在城市固体废弃物管理，堆肥，厌氧消化，热处理和垃圾填埋领域具有许多成功的应用实例。特别是在处理大量数据时，人工神经网络的预测准确性和计算速度通常优于其他模型（Jahandideh等，2009）。同时，由于其特殊性，几种神经网络模型在某些领域中表现出了出色的性能。CNN是一种将图像本身作为输入，然后使用滑动窗口扫描整个图像以直接从图像中提取特征并对观察到的物体进行分类的工具，从而可以简化建模过程并提高预测效率和准确性（Kujawa等人，2020 ）。因此，由于它具有基于图像块进行判断的能力，因此具有很大的潜力用于城市固体废弃物分类和堆肥成熟度评估。相比之下，RNN具有内存维护和参数共享的特征，具有学习时间序列的非线性数据行为的强大能力（Solano Meza等人，2019）。因此，RNN适用于建模和预测MSW生成。此外，RBF-ANN提供了全局逼近的特性，没有局部最优问题，并且显示出强大的分类，概括，噪声容忍和在线学习的能力（Gong et al。，2017 ）。迄今为止，RBFANN已成功地应用于预测废物产量，预测废物和估算堆肥过程中的有机物分解。

但是，人工神经网络的一些缺点不容忽视，其中最重要的是``黑匣子''性质（Kannangara等，2018 ）。通常，人工神经网络无法解释其推理过程并提供推理依据。这个限制对于在自然科学研究中尤其是在强调机制的研究中的应用确实是不友好的，因为它只能基于经验数据模拟变化的过程，而无助于加深我们对变化本质的认识。

机器学习方法在有机固体废物处理和利用过程预测中的应用：综述

图3.人工神经网络，支持向量机，遗传算法和决策树/随机森林模型的示意图。

另一个限制是，当数据不足和/或模型结构过于复杂时，ANN（尤其是MLP-ANN）容易过拟合（Younes等人，2015年），这将导致输入数据集之外的实例的预测准确性较差。另外，对于CNN，由于它仅依赖于从图像中提取的信息，因此当图像质量低且特征弱时，其预测性能将受到不利影响（Chu等，2018 ）。对于RBF-ANN，当输入数据随机分布时，比MLP-ANN难以提供准确的预测（Bagheri et al。，2017 ）。对于RNN，由于按时间顺序处理输入，因此在某一时刻的输出往往主要依赖于先前的输出，并且还存在梯度爆炸和梯度消失的风险（Zia和Zahid，2019年））。这些局限性值得关注，当研究人员在研究中应用人工神经网络模型时应予以重视。

3.2.支持向量机

SVM是一种用于二进制分类的广义分类器，旨在确定最佳超平面，该最佳超平面将超平面与高维空间中最近的数据样本之间的距离最大化（Cortes和Vapnik，1995 ）。最接近最佳超平面的数据样本被定义为支持向量（图3 ）。SVM使用内核方法来实现最佳的数据分离，并采用结构风险最小化（SRM）原理代替了ANN中使用的经验风险最小化（ERM）原理，因此不太适合过度拟合。常用的核函数包括线性，多项式，径向基函数和S形（Sakr et al。，2016 ）。当SVM用于解决回归问题时，它称为SVR（Dai等，2011 ）。

支持向量机可以避免出现局部最优和“维数诅咒”，并且在处理非线性，多维问题，特别是样本有限的问题方面具有强大的作用（Noori等，2009 ）。例如，仅包含37个样品的数据集用于训练SVM和ANN模型，以预测厌氧消化废水中的总氨氮浓度。结果表明，基于SVM的模型的预测准确性优于基于ANN的模型，平均绝对误差为0.152，而基于ANN的模型的平均绝对误差为0.269（Alejo等人，2018）。除了厌氧消化，SVM还广泛用于OSW的产量预测，分类，热值估算和堆肥质量评估。尽管如此，值得注意的是，支持向量机的预测能力高度依赖于核函数（Cao等，2016 ），但是核函数的选择目前是基于经验进行的，具有一定的随机性。此外，SVM对缺失的值敏感，并且在处理大规模数据时训练效率也很差。到目前为止，还没有找到解决这些问题的好的方法。因此，在支持向量机的应用中，需要特别注意数据大小，缺失值和核函数。

3.3.遗传算法

遗传算法是一种通过模拟自然选择和遗传机制来寻找最优解的计算模型，主要包括三个操作过程：选择，交叉和突变（Amal等人，2018 ）。基于对人群中个体的适应性评估，选择运算符将被用于将高质量的个体遗传给下一代。在下一步中，将使用交换算子重组两个亲本个体的部分基因，以创建新的后代。然后，使用突变算子对种群中个体的某些基因进行随机改变。最后，通过在这三个步骤（图3 ）中执行一定数量的迭代来生成最佳解决方案。

GA是一种简单而强大的ML模型，可以同时在搜索空间中评估多个解决方案，从而降低了陷入局部最优的风险。特别是在处理复杂的组合优化问题时，遗传算法通常比其他模型表现更好（Kormi等人，2018 ）。一个单一的遗传算法已被应用来解决问题，包括确定城市固体废弃物收集区域（Bautista和Pereira，2006 ），优化城市固体废弃物收集路线（Amal等人，2018; Duzgun等人，2016; Ferreira等人，2015）。），并确定垃圾填埋场的排放源（Kormi等，2018）。而且，GA具有高度可扩展性，易于与其他模型结合使用。例如，GA通常被选择与ANN或SVM集成以最大化厌氧消化的沼气产量（Abu Qdais等，2010; Jacob和Banerjee，2016 ）或提高模型预测的准确性（Beltramo和Hitzmann，2019 ）。尽管具有上述优点，但GA的过早收敛仍是其实际应用中的主要问题。选择，交叉和突变过程以及不适当的编码和种群规模都是造成GA过早收敛的原因（Zhao和Nie，2003）。另外，遗传算法的计算速度相对较慢，因此在处理复杂问题时应特别考虑时间消耗。此外，复杂的基因编码和解码过程涉及遗传算法的编程过程。因此，遗传算法的应用对从事OSW相关领域的研究人员的编程技能提出了一定的挑战。

3.4.决策树和随机森林

DT使用二进制分区将数据集递归地划分为较小的子集，以最小化子集内的可变性，并最终构建树结构以执行分类或回归功能（Kannangara等人，2018 ）。但是，DT倾向于随着数据集大小的增加来构建大型复杂树，这可能会导致过度拟合。在这种情况下，需要“修剪技术”来优化树模型（Heshmati等，2014 ）。作为一种整合学习方法，RF可以通过利用装袋和随机特征选择的策略来构建多个去相关的决策树并输出其平均预测，从而有效降低过拟合的风险（You等，2017）。DT和RF的基本结构如图3所示。

DT可以快速处理分类和数字数据，并且很少需要数据预处理。此外，DT的一些缺点，如处理非线性数据的能力有限和过拟合的高风险，在RF中已得到一定程度的改善（Solano Meza等，2019; Zhu等，2019a，2019b ），但是RF的学习速度远比DT低。与ANN，SVM和GA相比，DT和RF模型更易于解释和实现（Cipullo等人，2019），并且还显示出对缺失值的高度容忍性，这是一个重要的优势，因为数据缺失在OSW相关研究中非常普遍。此外，当处理具有不相关特征的数据时，它们往往会表现更好，但是当数据特征之间具有高度相关性时，它们的性能就不太好。到目前为止，DT / RF在MSW产生预测，MSW分类，废物箱填充水平识别和热解性能估计方面显示出强大的能力。

表2汇编了对每个ML模型的特征和适用性的进行的总体总结。

4.机器学习在有机固体废物相关领域中的应用

为了直观地显示ML在OSW相关领域中的应用现状，对每个特定领域中ANN，SVM，GA和DT / RF的应用频率进行了统计，并相应绘制了相对应用频率的热图（图4 ）。从图4可以看出，在24个子域中的19个子域中已经应用了ANN，这证明了ANN作为当前最流行的ML模型，对于复杂的OSW相关问题确实具有广泛的通用性。但是，可能是由于这种普及，使得ANN真正具有解决问题的能力

图4.在有机固体废物的各个特定相关领域中，人工神经网络，支持向量机，遗传算法和决策树/随机森林模型的相对应用频率的热图。

某些问题很容易被忽略。一个突出的例子是小样本量问题。当输入数据不足时，人工神经网络倾向于过度拟合，但是一些仅使用少量样本的研究仍采用人工神经网络模型，最终导致预测性能不理想（Alejo等人，2018; Cao等人，2016 ）。在这种情况下，在小样本量方面具有优势的SVM应优先于ANN考虑。

此外，根据涉及的基本过程，所有子领域都分为三类。一种是仅涉及简单物理过程的领域，例如废物产生预测和废物分类。第二类是以化学过程为主的领域，例如热值预测和焚烧污染物排放。第三个领域涉及复杂的生化过程，例如沼气产量预测和堆肥成熟度估计。详细划分如图4所示。可以看出，ANN，SVM和DT / RF在涉及物理和化学过程的领域中已被广泛使用，但是DT / RF在涉及生化过程的领域中的应用明显少于ANN和SVM。原因可能是DT / RF在处理复杂的非线性问题方面相对不足。但是，值得考虑的是ANN和SVM在生化过程建模中是否确实具有特别出色的性能。Nair等。（2016年）引起了人们对ANN预测厌氧消化甲烷产生能力的担忧，因为开发的模型仅显示了预测准确性R ²为0.73。通过分析，他们将此现象归因于仅使用物理和化学指标作为输入模型的输入变量，而没有考虑生物学指标。同样，Alejo等。（2018）建立了ANN和SVM模型，通过使用进水总氨氮，总挥发性固体和化学需氧量作为输入来预测厌氧消化输出废水中总氨氮的浓度。对ANN和SVM，预测精度R ²分别仅达到0.77和0.81。实际上，由于在确定相关参数方面可能存在困难，当前涉及复杂生化过程的研究很少使用生物学指标进行模型训练。然而，我们认为，以这种方式构造的模型的鲁棒性和泛化能力值得怀疑。

同时可以看出，遗传算法主要应用于仅涉及简单物理过程的领域，其应用基本上集中在各种优化问题上，例如废物收集路线的优化，沼气生产和模型精度。原因是，与其他分类或回归算法（例如ANN和SVM）不同，遗传算法本质上是一种优化算法，它一般不将其单独应用于预测，而是与其他模型结合使用以提高预测精度或解决优化问题问题。但是从当前的应用状态来看，GA的功能还远远没有得到开发。其在许多其他问题上的应用潜力，例如提高堆肥质量，最大化热解生物炭和气化制氢产量，仍有待探索。

总之，当面对与OSW相关的复杂问题时，应首先根据数据的大小和结构选择合适的ML模型。当数据具有较小的尺寸和高维度时，应首选SVM。接下来，应根据问题涉及的基本过程选择适当的输入变量。特别是对于机制不明的复杂生化过程，应更加仔细地选择输入变量，并应考虑生物的作用。模型构建完成后，可以进一步考虑使用GA来提高模型准确性或优化解决方案。

5.机器学习应用于有机固体废物相关领域的挑战和潜在前景

5.1.潜在的应用

除了上面讨论的现有ML应用之外，ML在堆肥，焚化和垃圾填埋等领域的应用潜力还有待进一步探索。例如，一些关键的操作参数，例如初始C / N比，填充剂，pH，曝气速率，水分含量，温度和外源性添加剂（Cui等，2019; Wang等，2019a，2019b; Xu等等，2020）可收集为输入变量以构建ML模型，以预测堆肥过程中重金属生物利用度，气味和温室气体产生以及堆肥过程中氮损失。这不仅可以减少堆肥的潜在环境风险，而且可以改善堆肥产品的农艺功能和经济效益。另一个例子是采用ML方法，基于可以直接在线测量的指标（例如废物进料速度，废水含量，焚烧温度和炉子出口含氧量）来实现焚化辅助燃料和空气的准确供给，或者根据进气量，烟气中的氧气含量和酸性气体浓度以及焚烧温度来预测焚烧炉的灰烬沉积量（Tang等，2016）。这样，可以优化焚化炉的灰分清洁频率，并且可以降低焚化厂的运营成本。此外，可以使用诸如废物成分，废物水分含量，垃圾填埋年龄，降水量和内部温度等指标作为指标，开发ML模型来预测垃圾渗滤液的组成（Bhatt等人，2017年）。这样，可以根据预测的渗滤液组成及时调整渗滤液处理设备的运行参数，以优化处理效果，进一步降低渗滤液的污染风险。

5.2.潜在挑战

尽管ML具有突出的优势，但仍然存在一些潜在的挑战，可能会阻碍ML在OSW相关领域的进一步发展。首先，通常需要大量数据来进行模型训练和验证。但是，当数据不足时，尤其是对于高维数据集，该模型将仅“记住”每个基准作为特殊情况，而不是“学习”数据，这会导致拟合过度和训练效率低下。其次，以ANN为代表的几种模型经常因其“黑匣子”特性而受到批评（Wu等，2013）。这些模型的内部机制难以理解，每个变量的相对重要性也难以估计，这给诸如ANN等模型的应用带来了一定的不确定性。第三，同一领域的许多研究使用了不同的机器学习模型，并且都取得了成功的结果。但是，由于缺乏不同模型之间的比较研究，因此无法为后续研究或实际应用提供明确的指导。在本文中，总结了不同模型的适用性（表2 ），这可以为将来的模型选择提供一些参考，但是需要进行更全面，更详细的模型评估工作。

5.3未来展望

相信以下方法是与OSW的处理和回收有关的ML方法的进一步开发的途径：

集成模型的应用–现有的绝大多数研究都集中在单个模型上。然而，集成模型（例如，与GA集成在一起的ANN / SVM / RF）往往比单个模型（Beltramo和Hitzmann，2019年）具有更高的预测准确性，更低的过拟合风险和更强的鲁棒性，这可能对于解决复杂的OSW更为有利。

ML和其他先进技术的组合应用–例如，可见近红外漫反射光谱技术和ML的组合可用于快速估算堆肥的成熟度和酶活性（Chakraborty等，2014 ），物联网技术和ML结合可以用于实现智能废物管理（Bakhshi和Ahmed，2018 ）。这样的先进技术也可以与ML强强结合，从而进一步拓宽了ML在OSW处理和管理中的应用领域并提高了性能。

采用各种方法来克服数据短缺–在OSW处理和回收过程中，经常缺乏足够的数据来进行模型训练。以下方法可以被认为是克服数据匮乏的可能途径：（1）从先前发表的文献中提取更多数据；（2）可采用正交试验法和响应面法设计实验，以提高ML效率而又不增加样本量; （3）在模型训练之前，可以采用卡方检验，相关分析，递归特征消除，主成分分析和基于树的特征选择来筛选输入变量；（4）对于图像数据，可以通过旋转，平移，缩放和翻转图像或更改其亮度，清晰度，对比度和清晰度来增加数据大小；（5）寻求开发适用于小数据集的算法

进一步探索并打开机器学习的“黑匣子” –已经开发出一些方法来解释输入变量对模型的贡献（Olden和Jackson，2002； Postma等，2011；üstün等，2007 ），它可以部分可视化“黑匣子模型”的内部，然而只有少数现有研究采用了这些方法。因此，这些解释方法应在未来的OSW治疗研究中更频繁地应用，并且还应探索更有效，更简单的方法以进一步阐明“黑匣子”。

6.结论

ML在OSW中的应用仍处于探索阶段。在已综述的文献中，研究主要集中在城市固体废弃物的管理上，其次是厌氧消化和热处理，而对堆肥和垃圾填埋场的研究较少。同时，大多数相关研究（54％）采用ANN进行建模和预测，其次是SVM，GA和DT / RF。尽管数据不足，可解释性低和模型选择原则不明确的局限性，但机器学习在各个领域具有巨大的应用潜力，包括废物管理决策制定，减少废物处理周期，提高资源利用率和减轻废物污染风险。

作者贡献声明

郭浩南：数据策划，写作-原始稿件。吴树彪：写作-评论和编辑。田英杰：写作-评论与编辑。张军：写作-评论和编辑。刘洪涛：概念化，资金筹集，写作-评论与编辑。

竞争利益声明

作者声明，他们没有已知的可能影响本文在本期刊发表的竞争财务利益或个人关系。

致谢

这项研究得到了中国科学院战略重点研究计划（XDA23050103），中国国家重点R＆D计划（2018YFD0500205）和中科院地理科学与自然资源研究所高晨杰出青年学者计划(2017RC102).

参考文献

详见原文。

以上是关于机器学习方法在有机固体废物处理和利用过程预测中的应用：综述的主要内容，如果未能解决你的问题，请参考以下文章