综述笔记《Machine Learning for Combinatorial Optimization: a Methodological Tour d'Horizon》

编程入门行业动态更新时间:2024-10-08 22:13:57

综述<a href=https://www.elefans.com/category/jswz/34/1770047.html style= 笔记《Machine Learning for Combinatorial Optimization: a Methodological Tour d'Horizon》"/>

综述笔记《Machine Learning for Combinatorial Optimization: a Methodological Tour d'Horizon》

这里写目录标题

0. 补充概念
1. Introduction
2. 算法结构（原文 3.2）
- 2.1 端到端的学习 End to end learning
- 2.2 将学习扩充到运筹学算法 Learning to configure algorithms
- 2.3 Machine learning alongside optimization algorithms

0. 补充概念

（1）旅行商问题(travelling salesman problem, TSP)

典型旅行商问题举例：有个快递员分别要给3家顾客送快递，他自己到达每个顾客家的路程各不相同，每个顾客之间的路程也各不相同。那么，如果想要将快递依次送达，并最终返回起点，哪一条路线所走的总距离最短？
思路1-枚举法，但该方法时间复杂度为 O ( n ! ) O(n!) O(n!) ，花费的运算时间太高。
思路2-相对优化的解决方法，如动态规划法、分支定界法，但时间复杂度仍然是指数级的。

（2）P 问题、NP 问题、NPC 问题

【1】漫画：什么是旅行商问题？
【2】NP问题真的很难理解
【3】P问题、NP问题、NPC问题、NP hard问题

补充概念——归约

定义：可以简单理解成问题之间的转化，例如问题 Q : 3 x + 6 = 12 Q: 3x+6=12 Q:3x+6=12，可以转化为一元二次问题 Q ′ : 0 x 2 + 3 x + 6 = 12 Q': 0x^2+3x+6 = 12 Q′:0x2+3x+6=12。只要有办法解决 Q ′ Q' Q′ 就一定能够解决 Q Q Q，对于这种情况，我们可以说问题 Q Q Q归约于问题 Q ′ Q' Q′
归约可以逐级传递，比如问题A归约于问题B，问题B归约于问题C，问题C归约于问题D，那么我们可以说问题A归约于问题D

问题	描述
P 问题(多项式时间算法 Polynomial-time)	时间复杂度可以用多项式表示的算法，例如：归并排序 O ( n l o g n ) O(nlogn) O(nlogn)；冒泡排序 O ( n 2 ) O(n^2) O(n2)；Floyd算法 O ( n 3 ) O(n^3) O(n3)
NP 问题(Non-deterministic Polynomial-time)	无法（至少是暂时无法）在多项式时间内解决的，比如一些算法的时间复杂度是 O ( n ! ) O(n!) O(n!) ，甚至 O ( 2 n ) O(2^n) O(2n)。NP 问题具体指不确定是否存在多项式时间的求解算法，但可以在多项式时间内验证一个猜测解的正确性的问题
NP-hard 问题	如果所有NP问题可在多项式时间内转化（归约，意思是解决了后者也就相应的解决了前者）成某个问题，则该问题称为NP-hard 问题
NPC 问题	将众多 NP 问题层层规约，得到一个或多个终极问题，这些规约的终点就是 NPC 问题。旅行商问题，被科学家证明属于 NPC 问题。

（3）启发式算法

【4】用于组合优化的强化学习：学习策略解决复杂的优化问题
【5】机器学习中“启发式“一词如何理解？——三三的回答

在现实生活中TSP的运用实例涉及到的是成千上万的城市数量运算，为了能在合理的时间(可能是几个小时)内解决问题，通常需要运用那些高度复杂的搜索算法和启发式算法。
启发式就是能快速出结果的算法，出来的结果一般是可用的，但是不能保证全局最优，也不能保证算法的完备性。 全局最优容易理解，完备性是说能这个算法能不能找到所有的解，或者干脆判定此问题无解。

（4）补充背景知识

文章的摘要部分提到 “hand-crafted heuristics”，当时不太理解，后来无意中看到一篇文章【参考链接4，见上】很好地梳理了图神经网络在 NPC 类问题求解的发展过程，其中就提到了这个概念。概括如下：

《 Learning Combinatorial Optimization Algorithms over Graphs》
该文章方法的一大缺点就是使用了辅助函数，以帮助神经网络找到更好的解决方案。这个辅助函数是人为设计的，并且是特定于问题的，而这正是我们想要避免的。（还没有看过这篇文章，此处暂时理解为hand-crafted heuristics，待核实）
《 Attention! Learn to Solve Routing Problems》
该文章开始尝试学习如何在没有人类知识干预的情况下解决问题
《 Learning Heuristics Over Large Graphs Via Deep Reinforcement Learning》
该文章向解决现实世界那般规模大小的问题迈出了重要一步，解决真实的大型实例问题

1. Introduction

从组合优化(CO)问题角度看，机器学习可以从两个方面辅助求解：

假定优化算法具有专家知识，但希望通过快速近似代替繁重计算。希望通过机器学习，在不派生新的显示算法情况下，用一种通用的方法建立这样的近似。
假定优化算法不具备充足专家知识(或不令人满意)，这样一来使用机器学习的目的即为探索解空间，从最优解中学习这种专家知识，以提升算法性能。

文章框架：

Section 2 主要讲的是为理解本文读者需要掌握的组合优化、机器学习、深度学习和强化学习必要的基础知识
Section 3.1 说明机器学习如何通过模仿专家/借助经验以学习到最优策略；Section 3.2 说明 ML 和 CO 的相互作用机制
Section 5 列举现存问题和方法论要点
Section 6 列举该领域挑战
Section 7 总结

2. 算法结构（原文 3.2）

2.1 端到端的学习 End to end learning

用机器学习处理 TSP 问题并不是个新话题，早期工作从90年代开始，集中在 Hopfield 神经网络和自组织神经网络。具体可参照下方文献：

1999《 Neural Networks for Combinatorial Optimization: A Review of More Than a Decade of Research.》

具体端到端的学习框架，描述如下图：

2015《 Pointer networks》

提出 Pointer networks，用 RNN 作为 encoder 解析(parse) 输入图上的 TSP 节点，并生成每个节点的 encoding
再用一个带有注意力机制的 RNN decode，生成每个节点的概率分布
将计算好的 TSP 的解作为目标，训练模型

2017 《 Neural Combinatorial Optimization with Reinforcement Learning 》

用了一个类似的模型，使用的是强化学习，将行程长度(the tour length) 作为 reward
这样的做法能够解决监督学习(supervised / imitation learning)的局限性，例如，必须要计算出问题最优解才能训练的问题。
但反过来，本文中的这种模型，在求不出精确解或者存在多个解时就显得很不明确。

2018《 Attention Solves Your TSP 》

模型中引入了更多先验知识
使用 GNN 替换 RNN 处理输入

2018《 Learning Permutations with Sinkhorn Policy Gradient 》
2017《 A Note on Learning Algorithms for Quadratic Assignment with Graph Neural Networks 》