- 选题背景和意义:
- 选题背景
由于分布式计算的并行性以及大型工作集群上的大量计算资源,分布式计算框架可以及时地进行数据密集型学习任务和大数据应用程序。分布式计算由于将数据传输到分布式机器以及分布式工作人员之间的数据转换过程而不可避免地产生通信成本,这是机器学习范式的基本组成部分。
在节点的分布式集群之间进行数据交换是实现大规模学习算法的关键步骤之一。 在一组工人之间随机整理数据集可以使不同的节点在每个学习时期获得新的数据分配。事实证明,此过程可以改善学习过程(通过测试和培训错误)。但是,分布式数据转换的统计优势是以从主节点到工作节点的额外通信开销为代价的,并且可能成为整个计算时间的主要瓶颈之一。 人们对设计使这种通信开销最小化的方法非常感兴趣。一种方法是在计算节点处提供额外的存储。另一种新兴方法是利用编码通信来最小化总体通信开销。
- 选题意义
了解分布式数据转换的存储量和通信开销之间的基本权衡。编码数据转换主要由数据传递编码函数、解码函数和存储更新函数表征,新颖的对齐编码转换能够进一步优化权衡下限,以达到减小通信开销的目的。
- 课题关键问题及难点:
表征由于随机交换导致的通信开销和分布式工人处可用的存储之间的基本信息理论权衡。
- 寻找数据交换问题的最坏情况通信开销的信息理论下限
课题的最终目标是表征由于随机交换导致的通信开销和分布式工人处可用的存储之间的基本信息理论权衡。作为了解任何随机交换的权衡基本限制的第一步,我们将注意力集中在表征所有交换中最坏情况的最优权衡上。很明显,平均情况下的速率折衷将优于最坏的情况。
- 设计基于放置/更新过程的可实现方案
在各个维度上划分数据点,使每个工作人员都可以存储每个数据点的至少某些部分。通过精心新颖的存储更新,可以随着时间的推移维护存储的结构。
- 充分表征最佳的最坏情况通信开销
通过考虑更复杂的干扰对齐机制,迫使每个工人发现的干扰占据最小的可能的维度,此过程称为“对齐编码交换”方案。方案涉及存储的不同SIP机制,需设计不同的SIP机制以达到基于随时间推移对数据部分进行数据分区和重新标记。
- 文献综述(或调研报告):
随着数据规模的快速增长,基于大数据的机器学习技术在各行各业中逐渐得到广泛应用。对于大规模数据集,单台机器已经满足不了计算需求,人们往往需要使用大规模分布式机器学习方法来实现对大规模数据集的处理。目前,分布式机器学习技术已经得到广泛关注,被应用到各行各业。如何提高分布式机器学习算法的效率已经变成当前的热门研究课题。在分布式机器学习中,多个机器组成一个集群共同完成一个机器学习任务。由于分布式计算的并行性以及大型工作集群上的大量计算资源,分布式计算框架可以及时地进行数据密集型学习任务和大数据应用程序。分布式计算由于将数据传输到分布式机器以及分布式工作人员之间的数据转换过程而不可避免地产生通信成本,这是机器学习范式的基本组成部分。
分布式数据转换的统计优势是以从主节点到工作节点的额外通信开销为代价的,并且可能成为整个计算时间的主要瓶颈之一。而最小化通信开销的方法主要有两种,一种方法是在计算节点处提供额外的存储,另一种新兴方法是利用编码通信来最小化总体通信开销。Mohamed Adel Attia和Ravi Tandon在[1]中提出了一种对齐编码转换方案,该方案的灵感来自于编码交换和干扰对准思想。主要是了解分布式数据转换的存储量和通信开销之间的基本权衡,提出一个数据理论上的信息理论公式,说明潜在的问题参数(工人数K,数据点N,和可用存储量,每个节点S)。然后,提出了用于这些参数的数据交换的通信开销的信息理论下限函数。他们研究的重点放在有线主节点-工人环境的编码数据转换上,在该环境中,通过利用工作人员的多余存储空间来创造编码机会。在每个学习时期之前,将数据存储在主节点上,以便为每个工作人员分配不同的培训数据。分布式学习中的数据交换主要分为两个阶段,分别为数据传递阶段和存储更新阶段。数据传递阶段中,主节点在t 1时刻发送用于后续交换的数据传递编码函数,每个工人应根据传输函数和前一时刻t存储在本地的数据可靠地解码所需的t 1时刻数据批次。而为了能够确保可解码性,在每个工人处都具有可解码性约束。存储更新阶段中,在t 1时刻,每个工作人员根据放置策略更新其存储的内容,并且每个工人处也都有存储更新约束。
在[1]中Mohamed Adel Attia和Ravi Tandon研究了编码交换问题的信息理论极限,考虑了编码转换问题的最坏情况表征,并提出了数据传递和存储更新阶段转换算法。在[2]中Kangwook Lee专注于分布式学习算法的两个最基本的构建块:矩阵乘法和数据转换,编码转换算法基于Maddah-Ali和Niesen [3]的编码缓存方案。Rashish Tandon在[4]中提出了一种新颖的编码理论框架,以减轻分布式学习中的落后者,展示了如何仔细地跨梯度复制数据块和编码可以为同步梯度下降提供对故障和散乱的容忍。而[5]中Ligeng Zhu则从安全性角度提出了可以从公共共享的梯度中获取私人训练数据,并称其为梯度的深度泄露。Qian Yu 在[6]中提出了拉格朗日编码计算,可以在分布式环境下实现安全和私有的计算,从而提高计算和通信效率。
