lstm和随机森林在时间序列上的区别

2024-05-04 10:13

1. lstm和随机森林在时间序列上的区别

间序列建模器 图表选项卡 左勾选 拟合值 我现预测值啊啊啊啊~~

lstm和随机森林在时间序列上的区别

2. lstm预测多输入多输出？

百度“6 种用 LSTM 做时间序列预测的模型结构”  有方案
不过也要看是什么框架，每种框架写法未必一样

3. 如何在Python中用LSTM网络进行时间序列预测

时间序列模型
时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题，和回归分析模型的预测不同，时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。举个栗子：根据过去两年某股票的每天的股价数据推测之后一周的股价变化；根据过去2年某店铺每周想消费人数预测下周来店消费的人数等等
RNN 和 LSTM 模型
时间序列模型最常用最强大的的工具就是递归神经网络（recurrent neural network, RNN）。相比与普通神经网络的各计算结果之间相互独立的特点，RNN的每一次隐含层的计算结果都与当前输入以及上一次的隐含层结果相关。通过这种方法，RNN的计算结果便具备了记忆之前几次结果的特点。
典型的RNN网路结构如下：右侧为计算时便于理解记忆而产开的结构。简单说，x为输入层，o为输出层，s为隐含层，而t指第几次的计算；V,W,U为权重，其中计算第t次的隐含层状态时为St = f(U*Xt + W*St-1)，实现当前输入结果与之前的计算挂钩的目的。对RNN想要更深入的了解可以戳这里。
RNN的局限：由于RNN模型如果需要实现长期记忆的话需要将当前的隐含态的计算与前n次的计算挂钩，即St = f(U*Xt + W1*St-1 + W2*St-2 + ... + Wn*St-n)，那样的话计算量会呈指数式增长，导致模型训练的时间大幅增加，因此RNN模型一般直接用来进行长期记忆计算。
LSTM模型LSTM（Long Short-Term Memory）模型是一种RNN的变型，最早由Juergen Schmidhuber提出的。经典的LSTM模型结构如下：LSTM的特点就是在RNN结构以外添加了各层的阀门节点。阀门有3类：遗忘阀门（forget gate），输入阀门（input gate）和输出阀门（output gate）。这些阀门可以打开或关闭，用于将判断模型网络的记忆态（之前网络的状态）在该层输出的结果是否达到阈值从而加入到当前该层的计算中。如图中所示，阀门节点利用sigmoid函数将网络的记忆态作为输入计算；如果输出结果达到阈值则将该阀门输出与当前层的的计算结果相乘作为下一层的输入（PS：这里的相乘是在指矩阵中的逐元素相乘）；如果没有达到阈值则将该输出结果遗忘掉。每一层包括阀门节点的权重都会在每一次模型反向传播训练过程中更新。更具体的LSTM的判断计算过程如下图所示：LSTM模型的记忆功能就是由这些阀门节点实现的。当阀门打开的时候，前面模型的训练结果就会关联到当前的模型计算，而当阀门关闭的时候之前的计算结果就不再影响当前的计算。因此，通过调节阀门的开关我们就可以实现早期序列对最终结果的影响。而当你不不希望之前结果对之后产生影响，比如自然语言处理中的开始分析新段落或新章节，那么把阀门关掉即可。（对LSTM想要更具体的了解可以戳这里）下图具体演示了阀门是如何工作的：通过阀门控制使序列第1的输入的变量影响到了序列第4,6的的变量计算结果。黑色实心圆代表对该节点的计算结果输出到下一层或下一次计算；空心圆则表示该节点的计算结果没有输入到网络或者没有从上一次收到信号。
Python中实现LSTM模型搭建
Python中有不少包可以直接调用来构建LSTM模型，比如pybrain, kears, tensorflow, cikit-neuralnetwork等（更多戳这里）。这里我们选用keras。（PS：如果操作系统用的linux或者mac，强推Tensorflow！！！）
因为LSTM神经网络模型的训练可以通过调整很多参数来优化，例如activation函数，LSTM层数，输入输出的变量维度等，调节过程相当复杂。这里只举一个最简单的应用例子来描述LSTM的搭建过程。
应用实例
基于某家店的某顾客的历史消费的时间推测该顾客前下次来店的时间。具体数据如下所示：
消费时间2015-05-15 14:03:512015-05-15 15:32:462015-06-28 18:00:172015-07-16 21:27:182015-07-16 22:04:512015-09-08 14:59:56....
具体操作：1. 原始数据转化首先需要将时间点数据进行数值化。将具体时间转化为时间段用于表示该用户相邻两次消费的时间间隔，然后再导入模型进行训练是比较常用的手段。转化后的数据如下：
消费间隔04418054....
2.生成模型训练数据集（确定训练集的窗口长度）这里的窗口指需要几次消费间隔用来预测下一次的消费间隔。这里我们先采用窗口长度为3， 即用t-2, t-1,t次的消费间隔进行模型训练，然后用t+1次间隔对结果进行验证。数据集格式如下：X为训练数据，Y为验证数据。PS： 这里说确定也不太合适，因为窗口长度需要根据模型验证结果进行调整的。
X1    X2    X3    Y0    44    18    044    18    0    54....    
注：直接这样预测一般精度会比较差，可以把预测值Y根据数值bin到几类，然后用转换成one-hot标签再来训练会比较好。比如如果把Y按数值范围分到五类（1：0-20，2：20-40，3：40-60，4：60-80，5：80-100）上式可化为：
X1    X2    X3    Y0    44    18    044    18    0    4... 
Y转化成one-hot以后则是(关于one-hot编码可以参考这里)
1    0    0    0    00    0    0    0    1...
3. 网络模型结构的确定和调整这里我们使用python的keras库。（用java的同学可以参考下deeplearning4j这个库）。网络的训练过程设计到许多参数的调整：比如
需要确定LSTM模块的激活函数（activation fucntion）（keras中默认的是tanh）；
确定接收LSTM输出的完全连接人工神经网络（fully-connected artificial neural network）的激活函数（keras中默认为linear）；
确定每一层网络节点的舍弃率（为了防止过度拟合（overfit）），这里我们默认值设定为0.2；
确定误差的计算方式，这里我们使用均方误差（mean squared error）；
确定权重参数的迭代更新方式，这里我们采用RMSprop算法，通常用于RNN网络。
确定模型训练的epoch和batch size（关于模型的这两个参数具体解释戳这里）一般来说LSTM模块的层数越多（一般不超过3层，再多训练的时候就比较难收敛），对高级别的时间表示的学习能力越强；同时，最后会加一层普通的神经网路层用于输出结果的降维。典型结构如下：如果需要将多个序列进行同一个模型的训练，可以将序列分别输入到独立的LSTM模块然后输出结果合并后输入到普通层。结构如下：

4. 模型训练和结果预测将上述数据集按4:1的比例随机拆分为训练集和验证集，这是为了防止过度拟合。训练模型。然后将数据的X列作为参数导入模型便可得到预测值，与实际的Y值相比便可得到该模型的优劣。
实现代码
时间间隔序列格式化成所需的训练集格式
import pandas as pdimport numpy as npdef create_interval_dataset(dataset, look_back):   """    :param dataset: input array of time intervals    :param look_back: each training set feature length    :return: convert an array of values into a dataset matrix.    """   dataX, dataY = [], []    for i in range(len(dataset) - look_back):       dataX.append(dataset[i:i+look_back])       dataY.append(dataset[i+look_back])    return np.asarray(dataX), np.asarray(dataY)df = pd.read_csv("path-to-your-time-interval-file")    dataset_init = np.asarray(df)    # if only 1 columndataX, dataY = create_interval_dataset(dataset, lookback=3)    # look back if the training set sequence length这里的输入数据来源是csv文件，如果输入数据是来自数据库的话可以参考这里
LSTM网络结构搭建
import pandas as pdimport numpy as npimport randomfrom keras.models import Sequential, model_from_jsonfrom keras.layers import Dense, LSTM, Dropoutclass NeuralNetwork():   def __init__(self, **kwargs):       """        :param **kwargs: output_dim=4: output dimension of LSTM layer; activation_lstm='tanh': activation function for LSTM layers; activation_dense='relu': activation function for Dense layer; activation_last='sigmoid': activation function for last layer; drop_out=0.2: fraction of input units to drop; np_epoch=10, the number of epoches to train the model. epoch is one forward pass and one backward pass of all the training examples; batch_size=32: number of samples per gradient update. The higher the batch size, the more memory space you'll need; loss='mean_square_error': loss function; optimizer='rmsprop'        """       self.output_dim = kwargs.get('output_dim', 8)        self.activation_lstm = kwargs.get('activation_lstm', 'relu')        self.activation_dense = kwargs.get('activation_dense', 'relu')        self.activation_last = kwargs.get('activation_last', 'softmax')    # softmax for multiple output       self.dense_layer = kwargs.get('dense_layer', 2)     # at least 2 layers       self.lstm_layer = kwargs.get('lstm_layer', 2)        self.drop_out = kwargs.get('drop_out', 0.2)        self.nb_epoch = kwargs.get('nb_epoch', 10)        self.batch_size = kwargs.get('batch_size', 100)        self.loss = kwargs.get('loss', 'categorical_crossentropy')        self.optimizer = kwargs.get('optimizer', 'rmsprop')        def NN_model(self, trainX, trainY, testX, testY):       """        :param trainX: training data set        :param trainY: expect value of training data        :param testX: test data set        :param testY: epect value of test data        :return: model after training        """       print "Training model is LSTM network!"       input_dim = trainX[1].shape[1]       output_dim = trainY.shape[1] # one-hot label       # print predefined parameters of current model:       model = Sequential()        # applying a LSTM layer with x dim output and y dim input. Use dropout parameter to avoid overfitting       model.add(LSTM(output_dim=self.output_dim,                      input_dim=input_dim,                      activation=self.activation_lstm,                      dropout_U=self.drop_out,                      return_sequences=True))        for i in range(self.lstm_layer-2):           model.add(LSTM(output_dim=self.output_dim,                      input_dim=self.output_dim,                      activation=self.activation_lstm,                      dropout_U=self.drop_out,                      return_sequences=True))        # argument return_sequences should be false in last lstm layer to avoid input dimension incompatibility with dense layer       model.add(LSTM(output_dim=self.output_dim,                      input_dim=self.output_dim,                      activation=self.activation_lstm,                      dropout_U=self.drop_out))        for i in range(self.dense_layer-1):           model.add(Dense(output_dim=self.output_dim,                       activation=self.activation_last))       model.add(Dense(output_dim=output_dim,                       input_dim=self.output_dim,                       activation=self.activation_last))        # configure the learning process       model.compile(loss=self.loss, optimizer=self.optimizer, metrics=['accuracy'])        # train the model with fixed number of epoches       model.fit(x=trainX, y=trainY, nb_epoch=self.nb_epoch, batch_size=self.batch_size, validation_data=(testX, testY))        # store model to json file       model_json = model.to_json()        with open(model_path, "w") as json_file:           json_file.write(model_json)        # store model weights to hdf5 file       if model_weight_path:            if os.path.exists(model_weight_path):               os.remove(model_weight_path)           model.save_weights(model_weight_path) # eg: model_weight.h5       return model这里写的只涉及LSTM网络的结构搭建，至于如何把数据处理规范化成网络所需的结构以及把模型预测结果与实际值比较统计的可视化，就需要根据实际情况做调整了。

如何在Python中用LSTM网络进行时间序列预测

4. lstm回归和分类可否一起做？

是指分类和回归的不同？如果是分类和回归不同，主要是目标不同，采用的损失函数不同，分类问题一般采用log损失函数，回归问题一般采用mse

5. 如何为LSTM重新构建输入数据

教程概述
本文分为4部分：
1. LSTM输入层。
2. 具有单输入样本的LSTM示例。
3. 具有多个输入特征的LSTM示例。
4. LSTM输入提示。
2
LSTM输入层
LSTM输入层是由神经网络第一个隐藏层上的“input_shape”参数指定的。这可能会让初学者感到困惑。例如，以下是具有一个隐藏的LSTM层和一个密集输出层组成的神经网络示例。

3
在这个例子中，我们可以看到LSTM（）层必须指定输入的形状。而且每个LSTM层的输入必须是三维的。这输入的三个维度是：
样品。一个序列是一个样本。批次由一个或多个样本组成。
时间步。一个时间步代表样本中的一个观察点。
特征。一个特征是在一个时间步长的观察得到的。
这意味着输入层在拟合模型时以及在做出预测时，对数据的要求必须是3D数组，即使数组的特定维度仅包含单个值。
当定义LSTM网络的输入层时，网络假设你有一个或多个样本，并会给你指定时间步长和特征数量。你可以通过修改“ input_shape ”的参数修改时间步长和特征数量。例如，下面的模型定义了包含一个或多个样本，50个时间步长和2个特征的输入层。

具有单输入样本的LSTM示例
考虑到你可能会有多个时间步骤和一个特征序列的情况，所以我们先从这种情况讲起。例如，这是一个包含10个数字的序列：
0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0
我们可以将这个数字序列定义为NumPy数组。

然后，我们可以使用NumPy数组中的reshape（）函数将这个一维数组重构为三维数组，每个时间步长为1个样本，那么我们需要10个时间步长和1个特征。
在数组上调用的reshape（）函数需要一个参数，它是定义数组新形状的元组。我们不能干涉数据的重塑，重塑必须均匀地重组数组中的数据。

一旦重塑，我们可以打印阵列的新形状。

完整的例子如下：

运行示例打印单个样本的新3D形状：

该数据现在可以为input_shape（10，1）的LSTM的输入（X）。

具有多个输入功能的LSTM示例
你的模型可能有多个并行数据作为输入的情况，接下来我们来看看这种情况。
例如，这可以是两个并行的10个值：
series 1: 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0
series 2: 1.0, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1
我们可以将这些数据定义为具有10行的2列的矩阵：

该数据可以被设置为1个样本，具有10个时间步长和2个特征。
它可以重新整形为3D阵列，如下所示：

完整的例子如下：

运行示例打印单个样本的新3D形状。
(1, 10, 2)
该数据现在可以为input_shape（10,2）作为LSTM的输入（X）使用。

如何为LSTM重新构建输入数据

6. LSTM神经网络输入输出究竟是怎样的？

输入输出都是向量，或者说是矩阵。LSTM用于分类的话，后面一般会接softmax层。个人浅薄理解，拿动作识别分类举例，每个动作帧放入LSTM中训练，还是根据task来训练每个LSTM单元的Weights。所以LSTM的单元数量跟输入和输出都没有关系，甚至还可以几层LSTM叠加起来用。分类的话，一般用最后一个单元接上softmax层。LSTM结构是传统的RNN结构扩展，解决了传统RNN梯度消失/爆炸的问题，从而使得深层次的网络更容易训练。从这个角度理解，可能会容易很多。今年的ResNet也是使传统的CNN更容易训练weights。看来deeplearning越来越深是趋势啊。如果说训练，就一个关键，所谓LSTMUnroll，将RNN展开成一个静态的“并行”网络，内部有“侧向连接”，实现长的短时记忆功能（状态“记忆”在LSTMCell里）。如果说预测，也就一个关键，要将Cell的h和C弄出来，作为当前状态（也就是所谓“记忆”）作为init参数输入，这样，携带了当前记忆状态的网络，预测得到的就是下一个输入了，所谓的recurrent了。那份代码里还包含了一个使用cudnn的实现（built-inRNNoperator），这是一个高性能的版本，可以真正干活的。原来我也尝试搞懂一些天书般的公式，很快发现从那里入手是个错误。强烈推荐：理解LSTM网络（翻译自UnderstandingLSTMNetworks）只要有一点点CNN基础+半个小时，就可以通过这篇文章理解LSTM的基础原理。回答你的问题：和神经元个数无关，不知道你是如何理解“神经元”这个概念的，输入输出层保证tensor的维数和输入输出一致就可以了。

7. LSTM timestep设为1是不是就和普通BP神经网络做时间序列预测没有区别？

可以先根据经验设置一个目标维度 降维后 计算降维后的相关系数矩阵 并绘制heatmap 将相关系数在指定阈值以上的特征丢掉 再次降维 反复进行
也可以降到目标维度后 向三维或者二维做投影 借助人类视觉 选择合适的

LSTM timestep设为1是不是就和普通BP神经网络做时间序列预测没有区别？

8. LSTM神经网络中，time step和batch size有什么关系吗

神经网络似乎没有步长的说法，你指的是net.trainParam.show？net.trainParam.show是指显示训练迭代过程n个周期后显示一下收敛曲线的变化。
在定义了网络之后，train训练函数之前，加上下面两个语句：
net.trainParam.showWindow = false; 
net.trainParam.showCommandLine = false; 
亲测不会弹出提示。
这样使得我们能在较长时间的训练中，腾出电脑去做别的事。否则窗口会不停弹出来，影响使用。