机器学习论文的可复现性逐渐成为了顶会的评价标准之一。越来越多的顶会也在投稿时鼓励作者提交源代码。然而,我们在提交源代码时一定要注意代码的格式,不然,你可能也会遇到跟本文类似的现象。

是的,你没有看错。

事情是这样的

本着对NeurIPS会议认真负责的态度(为了不拖到Deadline),今天下班后我开始了审稿工作。由于会议逐渐鼓励提交源代码,因此,分配给我的6篇稿子中绝大多数都附带了源代码文件方便我们检查可用性。

我熟练地打开附件的zip压缩包,你们猜我看到了什么?

一个后缀名为 .docxword文件!

这个文件是代码的运行说明,类似于我们常用的readme文件。

毕竟咱年轻,没见过市面,第一次看到有人用word写代码说明也是好奇。于是,(很遗憾)我没能管住自己的右手,把鼠标放到了这个文件上。然后就出现了如下尴尬的局面:



我有点懵。为了确认一下我的眼睛是不是有问题,我又对着这个文件,右键-属性,打开文件属性对话框。

对话框上面有一个选项卡叫做详细信息。于是我再一次控制不住自己的右手,点击了那个选项卡。如下图所示。。。



我竟然看到了作者信息

也许是因为word文件不像文本文件一样,它包含了诸多元数据的缘故吧。作者也太不小心了(谁会注意这种问题啊!)。。

给我们的启发

友情提醒大家:今后给顶会交源代码时,一定不要用诸如word等富文本文件!用最简单的代码文件+文本文件、markdown等写说明就足够了!也可以把代码打包之后,发给同事/或找另一台电脑下载下载看看是否有个人信息。不然冷不丁泄露了个人信息,这就违背了会议的双盲要求,得不偿失。

另外,根据评论区网友的提醒,还应该注意以下情形:

  1. 提交代码最好不要用git管理,即使用了git,也最好在提交的版本中删除.git及相关信息,不然也可能被查出作者;
  2. 除代码文件之外,如果要提交大文件(如预训练模型),用Google Drive、Dropbox都会暴露作者信息(Dropbox网页端是匿名的,但是用手机打开链接后会显示作者名!)。因此,最好注册匿名的网盘进行提交。

事情的后续

毕竟这个事情发生了,我也确实看到了作者信息。本着诚实正直的原则(为了甩锅),我发邮件给meta-reviewer向他报告了这一情况,看他如何处理。由于我提交的review是在看到作者信息之前的,所以并不违反双盲规定。剩下的事情就交给他吧!

不过话说回来:谁会用word写readme啊。。。啊。。。