数据挑战专题

数据是现代系统性能工程任务中许多重要决策过程的基础。数据可以告诉我们一个系统性能的过去和现在,帮助我们对系统的性能进行预测。因此,受MSR和PROMISE等其他几个会议的启发,ICPE 2022将首次引入数据挑战专题。

我们会在这个专题下提供一个工业性能数据集。我们邀请参与者就数据集提出并探讨研究问题。这项挑战是开放性的:参与者可以选择自己最感兴趣的研究问题。参与者可以通过短论文形式讨论提议的方法和/或工具以及自己的发现,并在主会上进行介绍。

如何参与挑战

  • 阅读数据描述

  • 思考如何用这些数据做一些有意思的事。可以是任何您想要的内容,包括可视化、分析、方法或工具

  • 实施您的想法,对其进行评估,并将想法和结果写成一篇短论文

数据说明

今年的挑战数据集由MongoDB提供。

MongoDB一直在其连续集成系统中运行性能测试。多个系统配置中运行着可以产生数千个性能结果的数百个测试。这些结果会借助变点检测分析识别性能变化,然后手动分类并分配给开发人员进行修复。MongoDB之前在ICPE 2020ICPE 2021上发表的论文中讨论过这个过程,并发布了底层源代码。现在MongoDB又开放了底层数据集。数据集包括多年来积累的性能结果。数据集还包括计算出的变点、分类决策以及为解决问题而创建的工单等相关数据。

使用变点检测大大提高了检测性能何时发生变化的能力。然而,当前的算法仍然会识别出许多不可操作的变化,这些变化要么是由系统噪声引起的,要么小到无法操作。这样就给对结果进行分类的人员带来了很大的负担,并会导致遗漏某些变化的风险。

对参与者来说,可能的高层次想法包括但不限于:

  • 改进现有的变点检测算法(提高灵敏度和精度)

  • 开发能够对系统产生的变点进行自动分类的算法

  • 探索不同的测试、配置和提交的性能之间的相关性

  • 给出改进的调度算法,从而能够在不影响准确性的情况下减少测试执行总数或总检测时间

  • 开发算法或可视化技术,比较一段时间内的性能(例如,逐年),从而确定这个时间段内统计学上的显著变化(而不是仅进行变点比较)。

重要日期

提交时间与其他早期专题(海报、教程、演示/工作进展/愿景和研讨会)一致,具体细节可以点击 此处

提交要求

挑战论文应包含以下要素:

  • 对您正在研究的问题进行的描述,并解释为什么这个问题很重要

  • 对您提出的解决方案的描述

  • 对解决方案的评估

  • 对您的解决方案和结果意义的讨论

我们强烈鼓励作者在提交的论文中把解决方案的源代码包括在内(例如,通过一个GitHub存储库),但这并不代表必须提供源代码我们才会接受论文。

挑战论文不得超过4页(包括图解和表格在内),参考文献可以另算1页。挑战论文会发表在ICPE 2022附属会议论文集中。所有挑战论文将由至少两名项目委员会成员进行评审。请注意,提交到该专题下的论文会进行双盲评审:具体细节请参阅“双盲评审常见问题解答页.”。数据挑战专题主席和项目委员会成员会给最佳数据挑战论文颁奖。

请通过 ICPE EasyChair,并选择Data Challenge track (https://easychair.org/conferences/?conf=icpe2022) 来提交论文。

数据挑战主席

  • Cor-Paul Bezemer (University of Alberta)
  • David Daly (MongoDB)
  • Weiyi Shang (Concordia University)

联系方式: icpe22_data@easychair.org