广告

六种方法解决LSTM循环神经网络中的超长序列问题

2017-06-27 Jason Brownlee 阅读:
在 LSTM 循环神经网络面临长序列输入时,我们应该怎样应对?Jason Brownlee 给了我们 6 种解决方案。

长短期记忆(LSTM)循环神经网络可以学习和记忆长段序列的输入。如果你的问题对于每个输入都有一个输出(如时间序列预测和文本翻译任务),那么 LSTM 可以运行得很好。但 LSTM 在面临超长输入序列——单个或少量输出的情形时就会遇到困难了。这种问题通常被称为序列标记,或序列分类。Q7vednc

其中的一些例子包括:Q7vednc

包含数千个单词的文本内容情绪分类(自然语言处理)。

分类数千个时间步长的脑电图数据(医疗领域)。

分类数千个 DNA 碱基对的编码/非编码基因序列(基因信息学)。

当使用循环神经网络(如 LSTM)时,这些所谓的序列分类任务需要特殊处理。在这篇文章中,你将发现 6 种处理长序列的方法。Q7vednc

1. 原封不动Q7vednc

原封不动地训练/输入,这或许会导致训练时间大大增长。另外,尝试在很长的序列里进行反向传播可能会导致梯度消失,反过来会削弱模型的可靠性。在大型 LSTM 模型中,步长通常会被限制在 250-500 之间。Q7vednc

2. 截断序列Q7vednc

处理非常长的序列时,最直观的方式就是截断它们。这可以通过在开始或结束输入序列时选择性地删除一些时间步来完成。这种方式通过失去部分数据的代价来让序列缩短到可以控制的长度,而风险也显而易见:部分对于准确预测有利的数据可能会在这个过程中丢失。Q7vednc

3. 总结序列Q7vednc

在某些领域中,我们可以尝试总结输入序列的内容。例如,在输入序列为文字的时候,我们可以删除所有低于指定字频的文字。我们也可以仅保留整个训练数据集中超过某个指定值的文字。总结可以使得系统专注于相关性最高的问题,同时缩短了输入序列的长度。Q7vednc

4. 随机取样Q7vednc

相对更不系统的总结序列方式就是随机取样了。我们可以在序列中随机选择时间步长并删除它们,从而将序列缩短至指定长度。我们也可以指定总长的选择随机连续子序列,从而兼顾重叠或非重叠内容。Q7vednc

在缺乏系统缩短序列长度的方式时,这种方法可以奏效。这种方法也可以用于数据扩充,创造很多可能不同的输入序列。当可用的数据有限时,这种方法可以提升模型的鲁棒性。Q7vednc

5. 时间截断的反向传播Q7vednc

除基于整个序列更新模型的方法之外,我们还可以在最后的数个时间步中估计梯度。这种方法被称为「时间截断的反向传播(TBPTT)」。它可以显著加速循环神经网络(如 LSTM)长序列学习的过程。Q7vednc

这将允许所有输入并执行的序列向前传递,但仅有最后数十或数百时间步会被估计梯度,并用于权重更新。一些最新的 LSTM 应用允许我们指定用于更新的时间步数,分离出一部分输入序列以供使用。例如:Q7vednc

Theano 中的「truncate_gradient」参数:deeplearningQ7vednc

6. 使用编码器-解码器架构Q7vednc

020ednc20170627Q7vednc

你可以使用自编码器来让长序列表示为新长度,然后解码网络将编码表示解释为所需输出。这可以是让无监督自编码器成为序列上的预处理传递者,或近期用于神经语言翻译的编码器-解码器 LSTM 网络。Q7vednc

当然,目前机器学习系统从超长序列中学习或许仍然非常困难,但通过复杂的架构和以上一种或几种方法的结合,我们是可以找到办法解决这些问题的。Q7vednc

其他疯狂的想法Q7vednc

这里还有一些未被充分验证过的想法可供参考。Q7vednc

将输入序列拆分为多个固定长度的子序列,并构建一种模型,将每个子序列作为单独的特征(例如并行输入序列)进行训练。Q7vednc

双向 LSTM,其中每个 LSTM 单元对的一部分处理输入序列的一半,在输出至层外时组合。这种方法可以将序列分为两块或多块处理。Q7vednc

我们还可以探索序列感知编码方法、投影法甚至哈希算法来将时间步的数量减少到指定长度。Q7vednc

20160630000123Q7vednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
您可能感兴趣的文章
  • 称可超越ChatGPT,微软推出新人工智能模型——Kosmos-1 微软推出了 Kosmos-1,据称它是一种多模式大型语言模型 (MLLM),不仅可以对语言提示做出反应,还可以对视觉线索做出反应,可用于一系列任务,包括图像说明、视觉问题回答等等。
  • MWC 2023落下帷幕,盘点国产厂商的那些亮眼表现 MWC 2023(世界移动通信大会2023)于2月27日在巴塞罗那正式向全球移动产业伙伴开启,大会也于3月2日正式落下帷幕。展会持续五天,根据官方数据统计,2023年MWC有2000多家全球厂商参展,中国有以OPPO、荣耀为代表的共计28个国产厂商参展。本次展会,各大厂商纷纷拿出自己的看家本领,可谓是亮点多多,今天就带大家一起看看展会上国产厂商展现的那些亮眼技术吧~
  • 维持ChatGPT运行将需要超过3万块Nvidia显卡 据TrendForce的最新预测,人工智能(AI)将成为Nvidia的最大收入来源之一。该研究公司估计,OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。
  • Win11端Phone Link添加新支持,iPhone能在PC端接打电话 3月1日,微软宣布,为Win11平台上的Phone Link应用程序添加对iPhone的支持。用户通过该应用程序连接PC和iPhone之后,可以在PC端拨打和接听电话、发送和接收短信、直接在PC上查看iPhone的通知。预览版要求Phone Link应用程序版本1.23012.169.0或更高版本。
  • 谷歌达成量子计算机第二里程碑,实现量子计算纠错 2月24日,谷歌CEO Sundar Pichai撰写博客,称公司量子计算又向前迈了一大步。谷歌量子AI团队有史以来首次通过实验证明:可以通过增加量子比特的数量来减少错误。在其最新的研究中,谷歌用49个物理量子比特制作的逻辑量子比特超越了用17个量子比特制作的逻辑量子比特。
  • NVIDIA:超级算力,赋能整车中央计算 由全球电子技术领域知名媒体集团AspenCore主办的“中国国际汽车电子高峰论坛”于2023年2月23日正式拉开帷幕。会上,NVIDIA中国区软件解决方案总监卓睿分享了题为“超级算力,赋能整车中央计算”的主题演讲。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了