【仪表网 行业应用】2017年12月8日中央政治局就实施国家大数据战略进行第二次集体学习时,习近平总书记强调,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题。习总书记强调的国家大数据战略中的一项重要内容就是生态环境大数据。生态环境大数据建设是贯彻落实习近平生态文明思想的重要措施。
党中央、国务院高度重视生态环境监测,目前我国已建成世界领先、要素和空间全域覆盖的生态环境监测网络并积累了长期观测数据,这为建立环境系统神经网络模型奠定了强有力的基础和保障。
神经网络的底层算法原理及类型
2016年3月,Google AlphaGo战胜了李世石的新闻登上热搜,2023年2月ChatGPT 3.5正式运行、版本4及后续版本紧锣密鼓地发布。今天各种和神经网络相关的新奇事物不断出现在我们身边:人脸识别进行登录验证、指纹识别解锁、语音识别、机器人、自动驾驶汽车等。深度学习、神经网络的概念似乎在一夜之间走进我们的日常生活,人工神经网络的最大优势在于模式识别和预测,在环境监测中的应用将会很有前景,作为环境监测人,怎样理解和应用这一新技术来提升我们的工作?
1949年,加拿大认知心理生理学开创者Donald Hebb发现:同一时间被激发的神经元间的联系会被强化,这种对神经元的刺激使得神经元间的突触强度增加的学习方法被称为赫布型学习(Hebbian Learning),现代人工智能起源于20世纪的脑神经生理学和数学研究成果。人工神经元是机器学习的基础和基本单元,是人工神经网络操作基本信息的处理单元,其基本工作原理模仿了人脑脑神经元的工作模式。
输入相当于在人脑神经元的突触间隙完成的化学/电转化的电信号;连接权相当于人脑神经元之间突触的连接强度。激活函数用于控制神经元输出振幅,将输入加和值限制在一定的范围内。因此,一个人工神经元可以用下式表示:
式中:
xi : 输入信号,i=1,2…n(n维输入);
wi : 各输入因子的权重,i=1,2…n(n维输入)。wi:为正值则该突触为激活状态,为负值则为抑制状态;
P : 输入信号组合器计算后的输出;
b : 神经元偏置,或神经元内部阈值。当输入加权和大于b时,神经元处于激活状态,可以向下个神经元发出信号;若输入加权和小于等于b时,神经元处于抑制状态,不向下个神经元发出信号;
Y : 神经元输出信号;
一个神经元能够接收、处理和发出的信息有限,要实现模拟人脑的思维方式,也就必须模拟人脑神经系统的结构,必须把多个人工神经元结构化地连接起来,从数学的角度上看,就是建立不同的算法,并结构化连接起来,使得不同的算法之间按既定的输入输出接口互相传输数据信息,最后输出目标信息。多个人工神经元通过连接构成的具有一定功能的结构化的网络算法体系称为人工神经网络。人工神经网络可以从不同的角度进行分类:如网络性能角度、拓扑结构角度、学习方式(算法)、神经元的特征、连续突触性质、适用情景等。
按学习算法,目前已有40余种神经网络模型,常见的有反传网络、波耳兹曼机、适应谐振理论、自组织映射、Hopfield网络等。以网络结构和学习算法可分为:感知器、线性网络、径向基网络、自组织神经网络、BP神经网络等静态网络,和Hopfield、Elman、非线性自动回归时间系列网络(NARNet)、带外部输入的非线性自动回归时间系列网络(NARXNet)、长短时记忆系统(LSTM)、时间延迟神经网络(TimeDelayNet)、分布式延迟神经网络(DistDelayNet)等动态递归网络;除此之外还包括:Boltzmann网络、盒中脑网络(Brain State in a Box,BSB)、模糊神经网络、自定义神经网络等其它类型网络。
深度学习是通过深度神经网络学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度神经网络主要涉及三类方法:(1)卷积神经网络(CNN);(2)自编码神经网络,包括自编码(Auto Encoder)以及近年来受到广泛关注的稀疏编码两类(Sparse Coding);(3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。
神经网络有三类参数:适合建模场景的神经网络类型选定之后,要通过系统机理、建模需求、数据条件来设计输入-输出参数,也称为外部参数;要根据网络规模和避免过拟合(Overfitting)、欠拟合(Underfitting)、贝叶斯正则化(Bayesian Regularization)的等原则来设计超级参数(Hyper Parameter);神经网络本身的权值(Weight)、阈值(Bias)通过训练得到,称为网络参数。
就神经网络内部而言,通过带动量的最小梯度下降法等方法通过误差传递不断调整权值、阈值来得到局部最优网络参数。就神经网络外部而言:通过机理和主成分分析及降维来不断优选外部参数;通过先初筛后细筛的路线来寻求全局最优网络机构(超级参数)。
在环境预测预报中的应用
根据系统论与控制论的观点,生态环境中各要素构成的、具有一定功能和结构的一定空间范围可以视为一个系统。生态环境系统是典型的非线性动力学系统,系统内有物理、化学、生物、气象及辐射等方面的变化反应及物质、能力的输入输出,系统的驱动力、系统输入、输出因子的相互作用及影响非常复杂,很多系统难以用数值模型(微分方程)来描述。人类探索自然、认知自然总是由黑箱到灰箱再到白箱。在环境科学领域也是一样,人们认识大气圈、水圈、生物圈、生态系统也是从无到有,从浅入深的。对于一个相对完整的系统的物质循环、迁移、转化规律逐渐有所认识和理解,所有的认识和理解,促使人们聚焦研究环境污染物在系统中的迁移变化规律,可行、有效的技术手段之一就是建立基于神经网络的灰箱数学模型。
1.O3浓度-气象常规-空气质量常规-VOCs耦合仿真预测模型
云南省生态环境监测中心基于某空气质量背景自动监测站2年数据,以VOCs66项、历史气象因子5项、历史环境空气质量8因子小时数据作为输入,以未来1小时O3浓度作为输出,并对样本数据进行主成分分析(Pricipal Component Analysis,PCA)和降维(Dimension Reduction),目的是屏蔽干扰,保留主动力,避免过拟合,使用带外部输入的非线性自回归神经网络(NARXNet)建立耦合仿真预测模型模型。
O3浓度仿真预测结果与实际监测值的相对误差绝对值均值能稳定控制在6%以内,显著优于WRF-CMAQ、NAQPMS数值模型的预测结果。与将79项原始监测指标作为输入相比,直接取污染气象学界公认的影响较大的TVOC、异戊二烯、丙烯、顺-2-丁烯、苯_HC、甲苯_HC、二甲苯、其它苯系物8项因子或全部79项进行PCA和降维,均能取得较理想的网络性能。时间延迟在5~7天网络性能较佳,这说明了污染源与每周的工作周期具有一定的相关性。
2.O3浓度-气象及空气质量常规-VOCs-紫外线能量耦合仿真预测模型:利用双变量相关性、主成分分析探讨O3成因
云南省生态环境监测中心在上述模型基础上,增加UVA、UVB、UVI、Volt 4项太阳辐射能量数据,主成分分析后,取前10项主成分作为输入建立使用NARXNet建立耦合仿真预测模型。
O3浓度仿真预测结果与与实际监测值的相对误差绝对值均值能稳定控制在6.4%以内。各输入方案中,按预测误差由小到大排序的方案为:PCA5、PCA10、PCA20、BCA10(双变量相关系数前10项,下同)、BCA5、BCA20,说明将多重共线性指标剔除后的少量主成分作为输入,对于网络的训练具有明显的帮助,从机理上说,建立模型一定要屏蔽微小的次要动力因素,避免过拟合;PCA优于BCA,说明BCA仅考虑双变量相关,忽略污染物之间协同效应如颗粒物-O3协同效应,将影响预测性能。网络结构尽量简单、输入因子尽量少,网络性能越好,这与提高网络泛化能力,追求适度拟合的基本原则是相符的。
在水污染溯源中的应用
水污染溯源的方法主要有水质监测数据排查法、示踪法、数学模型法和三维荧光溯源法。
三维荧光溯源法是目前光学分析、信息工程、人工智能算法相结合的前沿方法。在入射激发光照射下,有机化合物分子发生瞬时跃迁,之后立即返回基态,返回基态的过程是一个辐射跃迁或非辐射跃迁衰变过程,其中的辐射跃迁衰变过程伴随着光子的发射,即产生荧光或者磷光。三维荧光仪可以以一定波长范围发出激发光扫描水样,同时同步检测该水样实时产生的各波长发射光下的荧光强度,以发射光、激发光波长分别作为横、纵坐标,以相对荧光强度作为竖坐标可汇出二维或三维形式的荧光谱图。地表水、生活污水和工业废水中存在大量荧光物质混合物,理论上,污染源和受纳水体水样的三维荧光谱图应类似,通过谱图相似度模式识别神经网络算法,可以计算出环境水样与污染源的相似度,根据相似度来研判污染来源。
卷积神经网络(Convolutional Neural Networks,ConvNet)是目前应用最多的深度学习图像视频识别、目标识别、语音处理、自然语言处理等领域被广泛应用。一个典型的卷积神经网络基本结构包含输入层、卷积层、池化层、全连接层和输出层5个部分。
云南省生态环境监测中心以目归法处理后的水质三维荧光谱图作为输入,以溯源结果作为输出,构建以卷积神经网络为核心的三维荧光谱图识别算法框架。在算法中构建了2个卷积层,并在每个卷积层后加上一个Relu激活函数层用于增加神经网络模型的非线性,加快训练速度,随后构建了一个池化层用于减少数据处理量和防止过拟合,并在后接上一个全连接层,最后以Softmax分类器作为输出层得到三维荧光谱图识别结果。使用卷积神经网络识别三维荧光光谱,在较为复杂的条件下仍有较高的识别正确率。
云南省生态环境监测中心对省内某高原湖泊COD构成来源进行研究性监测,采集优势种挺水植物并制作组织液、压滤液、腐烂降解模拟试验浸泡液、底泥翻转振荡浸提液等内源水样,以及主要入湖河流、豆腐园区污水厂等外源水样,共制作得到48份水样,使用日立F-2700FL Spectrophotometer型荧光
光谱仪检测得到48组光谱数据,使用Matlab 2021a,构建并训练深度卷积神经网络算法模型,根据48×48共2304水样对的相似度大小比较:内源构成中,湖水中COD主要来自底泥释放的有机物;外源构成中:湖水中溶解性COD主要来自入湖河流。
展望
圣路易斯华盛顿大学李驰博士后使用机器学习分离人为排放和气象条件对中国地表臭氧变化的贡献,得到如下结论:臭氧时空变化受气象条件,特别是地表气温的影响很大;Ox在NOx缺乏区随NOx升高而上升,而在NOx饱和区转为下降;VOC含量的增加主要影响NOx饱和区,而颗粒物含量的增加影响NOx缺乏区相对较强 等创新性结论。
大多数城镇
污水处理厂使用活性污泥和其他工艺去除污染物(TOC,TN,TP)。每个污水系统中可能存在数以万计的不同微生物种类。由于生物反应的复杂性、处理厂的多变,基于活性污泥过程的生物动力学的数值模型并不是特别实用,机器学习技术可以在没有校准负担的情况下以更高的精度预测污水处理厂中的污泥膨胀。
国外研究人员正在尝试用深度神经网络预测和识别内分泌干扰物(EDCs)。市场上有10万种化学品,其中大多数缺乏毒理学数据,包括内分泌干扰物质。专注于一组有限的化学物质或仅结构相似的化合物使得我们很难将这些传统工具应用于数以万计未经测试的化学品。此外,由于内分泌干扰物质的分子机制复杂,一组看似结构相似的化学物质具有不同的内分泌干扰活性。这些问题凸显了传统数据分析的不适用性。因此,研究人员尝试将深度神经网络与大数据(包括各种生物、物理化学信息等)相结合来解决这些问题。
除了时间序列、空间序列预测、相关性识别、空气污染成因分析、水污染溯源、模式识别等领域外,深度神经网络还在噪声频谱数据识别及声源反演、监测点位聚类、污染类型及机制的聚类、浮游植物识别及计数、陆生植物的识别等方面有很多成功的应用案例。
总之:由于其优异的非线性拟合及快速收敛能力,对非线性动力学系统的阐释及无限逼近仿真能力,深度神经网络在环境监测、环境科学与工程领域中将展现出广阔的应用前景和巨大的价值空间。(云南省生态环境监测中心供稿)