作者Luga Lee·2024-05-05 18:18

系统架构师·None

一文读懂Multi-Task Learning（多任务学习）

字数 5266阅读 1577评论 0赞 0

在机器学习（ML）领域，我们通常专注于针对特定指标进行优化，无论是特定的基准测试分数还是业务关键绩效指标。为了实现这一目标，我们通常会训练一个或一组模型来执行特定的任务。然后，我们会对这些模型进行微调和调整，直到性能达到令人满意的水平。然而，这种单一任务训练的方式往往忽略了蕴藏在相关任务中的宝贵信息，这些信息本可以帮助我们在关心的指标上取得更好的成绩。

多任务学习（MTL）的出现为这一问题提供了一种新的思路。MTL 旨在通过让模型学习多个相关任务，来挖掘任务之间的共性信息，并将其应用于原始任务的学习过程中。通过在相关任务之间共享表示，MTL 可以使模型更好地泛化到原始任务，从而提升模型在特定指标上的表现。

1. 什么是Multi-Task Learning ？

多任务学习(Multi-Task Learning, MTL)是一种在机器学习领域中广泛应用的方法，通过共享表示（Shared Representation）来同时训练模型以处理多个相关任务。这个想法的核心在于通过共享信息和模式，可以并行地学习多个任务，从而提高模型在每个任务上的性能。

在多任务学习中，模型被设计为能够处理多个任务的输入和输出。通过共享底层的表示学习，模型可以从一个任务中学习到的信息和模式，有效地迁移到其他相关任务上。这种共享表示的特性使得模型能够更好地捕捉任务之间的共性和相互关系，从而提升整体的性能。

Standard Individual Task Training参考示意图

Multi-Task Training 参考示意图

多任务学习可以被视为一种广泛应用的机器学习方法，如Rich Caruana 在其论文中所提出的一个常见定义，将其描述为一种"归纳转移"的方法。这种方法通过利用相关任务的训练信号中包含的领域信息作为归纳偏见，从而改善模型的泛化能力。
具体而言，归纳转移指的是通过从一个任务中学习到的知识和经验，将这些归纳偏见应用于其他相关任务上。这些归纳偏见可以是关于输入特征的共享表示，也可以是关于模型的参数共享或约束。通过这种方式，模型可以从相关任务中获得额外的信息和结构，以提高在新任务上的性能表现。

多任务学习的一个关键优势是利用相关任务之间的领域信息。这些领域信息可以是任务之间的共享属性、相似的输入分布或相似的输出结构。通过利用这些共享的领域信息，模型能够更有效地进行泛化，从而提高在新任务上的预测准确性。

这种方法对于数据和参数的有效利用至关重要。通过共享表示和共享参数，模型可以更好地捕捉任务之间的共性，并减少对大量训练数据的需求。这种数据和参数的效率提高了模型的训练速度，并降低了过拟合的风险。

2. 为什么需要Multi-Task Learning？

在机器学习领域，单任务学习（Single-Task Learning，STL）是最为常见的一种学习范式。STL 顾名思义，是指模型仅针对单一任务进行训练和优化。然而，在实际应用中，我们往往会遇到多个相关任务，并且这些任务之间可能存在着一定的共性信息。在这种情况下，多任务学习（Multi-Task Learning，MTL）就提供了一种更加有效的解决方案。

多任务学习（Multi-Task Learning，MTL）参考框架

MTL 旨在让模型同时学习多个相关任务，并通过任务之间的信息共享来提高模型的整体性能。与 STL 相比，MTL 具有以下几个显著优势：

减少过拟合的发生
在多任务学习框架下，模型通过共享的表示层学习编码更加通用的特征，而不是仅针对单一任务的特征表示。一般来说，神经网络能够从输入数据中提取出有用的特征，这些特征随后将被用于执行特定的任务(如分类或回归等)。如果我们有多个相关的任务，就没有必要重复提取特征，而只需要一次性提取出这些特征，然后将其输入到各个任务专用的模型中进行处理即可。这正是多任务架构的核心思想所在。
通过共享表示，模型学会了以更加通用的方式来编码特征，而不是专门服务于某个单一任务。这种通用的特征表示方式可以很大程度上减少过拟合的风险。过拟合通常发生在模型过于专注于捕捉某个任务的特殊模式，而忽视了更加广泛、更加本质的特征。但是在多任务学习中，由于模型需要共享底层表示以同时服务于多个任务，因此它被迫学习捕捉更加通用、更具泛化性的特征模式。

这种共享表示机制带来的另一个重要好处是，能够促进知识在不同任务之间的迁移。当不同任务存在某些共性时，通过共享特征编码层，模型可以很好地捕捉这些共性，并将其内化为通用知识表示，从而在其他相关任务上获得正迁移效应，从而使得模型的泛化能力得到进一步增强。

可以看出，多任务学习架构中的共享表示策略不仅可以降低单个任务的过拟合风险，还能促进跨任务知识迁移，从而提升模型的整体泛化性能。这种通过共享机制实现的知识迁移和泛化优势，正是多任务学习相较于单任务学习的一大突出优势所在。

训练及推理效能提升
通过单一模型同时执行多个任务，多任务架构能极大地加快推理过程，对于“效能要求”苛刻的边缘应用场景尤为重要。提升速度和效率的一个常被忽视的好处是，可以通过减少训练和推理阶段的整体计算量来缓解服务器成本的压力。减少计算量同时也意味着降低了必要的能源消耗，进而减少了碳排放。对于需要24/7运行的大型数据中心而言，这种影响会变得尤为显著。

高效的多任务处理管线不仅能降低成本，还能减少碳排放，从而为AI的集成应用带来积极影响。

此外，多任务学习往往能学习到更加紧凑、高度泛化的特征表示，这使得模型在存储和计算上都更加高效。相比于需要为每个任务单独提取和存储特征的传统方式，多任务模型只需保存共享的特征表示，从而节省了大量内存和存储资源。

基于正迁移提高性能
在多任务学习中，存在这样一种情况：当将某些任务一同学习时，会导致各个任务的性能都得到提升，这种现象被称为“正迁移”(Positive Transfer)。与之相对，如果将某些任务一同学习反而会降低它们的性能，则被称为“负迁移”(Negative Transfer)。

正迁移的发生源于不同任务之间存在一定的共性和相关性。当模型通过共享表示层同时学习这些相关任务时，任务间的共性知识会在底层得到很好的提炼和内化，从而形成通用的特征表示。这种通用表示不仅能够提高每个任务的泛化性能，还能促进知识在不同领域的迁移，使得模型在相关任务上的表现都得到提升。

产生正迁移的关键在于，这些任务之间必须存在一定的关联性和互补性，能够共享有价值的底层特征模式。比如在自然语言处理领域，语义理解、语法分析、命名实体识别等任务之间就存在着明显的相关性，一同学习它们可以让模型学习到更加丰富和通用的语义特征表示，从而提升各个任务的性能表现。

3. 常见的Multi-Task Learning方法

在深度学习领域，多任务学习（MTL）作为一种强大的学习范式，因其能够有效提高模型的泛化能力和学习效率而备受关注。MTL的核心思想是让模型同时学习多个相关任务，并通过任务之间的信息共享来提升模型的整体性能。
在深度学习的实现框架下，MTL 的关键在于参数共享策略的应用。通过在神经网络的隐藏层级别共享部分或全部参数，模型可以学习到任务之间的共性特征，从而提高对所有任务的学习效果。根据共享方式和程度的不同，MTL 的参数共享策略可以主要分为两大类：硬参数共享（Hard Parameter Sharing）和软参数共享（Soft Parameter Sharing）。

3.1. 硬参数共享（Hard Parameter Sharing）

硬参数共享(Hard Parameter Sharing)被认为是在神经网络架构中实现多任务学习(Multi-Task Learning, MTL)最常见、最直接的方法，其理念可以追溯到早期开创性的研究。

在硬参数共享的多任务神经网络中，不同任务会共享大部分底层的隐藏层和参数，包括输入层、卷积层、全连接层等用于特征提取和表示学习的模块。这些共享层负责从输入数据中提取出通用的底层特征模式，捕获任务之间的共同本质。但在网络的顶层，每个任务则拥有自己专用的输出层，用于针对具体任务进行预测和决策。

深度神经网络中多任务学习硬参数共享参考示意图

这种架构的核心思想体现在相关的多个任务中存在某些共同的特征模式和统计规律，通过明确地共享底层表示，模型能够高效地从所有任务的数据中学习到这些通用的知识表示，从而提高泛化能力，增强各个任务的性能。

硬参数共享最大的优点在于其高效和简洁。由于大部分网络层和参数是共享的，训练和部署多任务模型的计算开销仅比训练单个任务的模型略高，从而大幅节省了计算资源。此外，这种充分共享的方式也有助于避免过度拟合，提高模型的鲁棒性。
然而，硬参数共享的缺陷在于，过度共享可能会限制每个任务充分发挥其独特性。不同的任务可能需要捕捉不同的特征模式，如果过于严格地共享参数，可能会影响模型拟合每个任务的能力。为克服这一缺陷，研究人员提出了诸如软参数共享等更加灵活的多任务架构。

除了基本的硬共享方法，当前研究还发展出了一些更加先进的硬参数共享变体，比如跨阻尼(Cross-Stitch)、分层的多任务结构等。这些变体旨在通过引入一些任务间的交互机制，在充分共享参数的同时，又能保留一定的任务特异性,取得参数共享和任务专属之间的平衡。

总的来说，硬参数共享是一种高度简洁高效的多任务架构，能够极大地节省计算资源，并促进知识在相关任务间的迁移。它为多任务学习在深度神经网络中的应用奠定了重要基础。虽然存在一定缺陷，但通过与其他策略相结合，硬参数共享仍将是构建高效多任务模型的重要组成部分。

3.2. 软参数共享（Soft Parameter Sharing）

与硬参数共享不同，软参数共享(Soft Parameter Sharing)则提供了一种更加灵活和松散的多任务学习架构。

在软参数共享的框架下，每个任务都拥有自己独立的模型结构和一组专属参数，而不是直接共享大部分网络层。这样的设计考虑到了不同任务可能需要学习不同的特征表示，因此赋予每个任务一定的专属表征能力有助于提升整体性能。

但是，为了实现知识迁移并促进通用表示的学习，软参数共享并非完全将每个任务的模型参数彼此孤立。相反，它通过施加一定的约束,鼓励不同任务的模型参数趋于相似，从而在一定程度上共享了参数。

深度神经网络中多任务学习软参数共享参考示意图

具体来说，软参数共享通常会在损失函数中增加一项特殊的正则化项，用于度量并最小化不同任务模型参数之间的距离或差异。这种正则化策略迫使每个任务在学习任务特有的表示时，也必须兼顾其与其他任务的参数相似性，从而在参数空间获得一定的共享。常见的软参数共享方法包括：

权重共享：仅共享隐藏层的权重参数，而偏置项参数则独立设置。
激活函数共享：共享隐藏层的激活函数，而权重参数则独立设置。
正则化共享：通过正则化项来约束共享参数的相似性，允许每个任务对参数进行微调。

软参数共享能够在保留任务共性特征的基础上，为每个任务提供一定的灵活性，从而更好地平衡模型的泛化能力和个体任务的适应能力。

软参数共享架构的主要优势在于其灵活性。每个任务拥有自己专属的参数，能够自主捕捉与之高度相关的特征模式；同时又通过参数正则化机制获得了一定的参数共享，实现了知识迁移和泛化能力的提升。这种策略非常适合处理那些相关但又存在显著差异的任务。

当然，软参数共享也存在一些需要进一步优化的不足。例如，如何最佳地设计参数距离度量方式，以及如何平衡参数共享和任务独立性等，都是值得探讨的问题。一些新兴的多任务架构，如分层多任务学习(Hierarchical Multi-Task Learning)等，正在尝试从新的角度解决这些难题。

除了上述两种基本策略之外，研究人员还提出了多种混合参数共享策略，旨在进一步提升MTL 的性能。例如，可以通过将不同类型的参数共享策略应用于网络的不同层，或者根据任务之间的相关性程度动态调整共享参数的范围等。

深度学习中的多任务学习通过参数共享策略，有效地利用了任务之间的共性信息，显著提升了模型的学习效率和泛化能力。硬参数共享和软参数共享是两种主要的参数共享策略，各有优缺点。混合参数共享策略则通过结合不同类型的共享策略，进一步提升了MTL 的性能。在选择 MTL 参数共享策略时，需要综合考虑任务之间的相关性、模型的复杂度和训练数据的量等因素。随着研究的深入，MTL 参数共享策略将不断完善，为我们带来更加高效和灵活的多任务学习解决方案。

参考：

大语言模型机器学习

著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

添加新评论0 条评论

Ctrl+Enter 发表

匿名评论

一文读懂Multi-Task Learning（多任务学习）

1. 什么是Multi-Task Learning ？

2. 为什么需要Multi-Task Learning？

3. 常见的Multi-Task Learning方法

3.1. 硬参数共享（Hard Parameter Sharing）

3.2. 软参数共享（Soft Parameter Sharing）

添加新评论0 条评论

作者其他文章

相关文章

相关问题

相关资料