快捷搜索:  

顶会抄顶会?SIGIR论文作者回复质疑,ACM人文已介入

10%公司派【发】【上】市公司变革红利 【能】【见】度【能】源【行】业最具穿透力【的】思想 【地】【产】界【地】【产】界【所】【有】【你】想知【道】【的】【事】儿 财【经】【上】【下】游跨界找寻市场常识 金改实验室金融创货币灵感集散【地】 牛市点线【面】简单专业【时】尚【的】财富平台 科技湃让【我】【们】走近科【学】 澎湃商【学】院品牌课外书,【生】【活】【经】济【学】 【自】贸区连线【自】贸区第【一】信息【和】服务平台 【进】博【会】【在】线走【进】祖【国】世界【进】口博览【会】
被指责抄袭【的】【作】者亲【自】【下】场【分】辨,却被反驳「漏洞百【出】」,顶【会】抄顶【会】【的】故【事】【还】【没】【有】最终【定】论。
【上】周,【一】位 Reddit 网友曝【出】,【一】篇 SIGIR 2019 【的】论文疑似抄袭,论文【中】【的】许【多】段落与 RecSys 2018 【的】【一】篇论文高度相似,只【是】措辞略【有】【不】【同】,但并【没】【有】声明引【用】【后】者。被质疑抄袭【的】【两】位【作】者【分】别【来】【自】荷兰【和】瑞士【的】高校,其【中】【一】位【还】【是】教授。【这】【一】【事】件【在】 Reddit 【上】引【发】围观。原贴【发】酵数【之】【后】,【两】位被指责「抄袭」【的】【作】者终【于】现身回复。然【而】,【他】【们】【的】回复似乎并【不】【能】让【发】帖者信服……
论文【作】者逐条反驳原贴质疑
【在】原帖【中】,【发】帖者列【出】【了】五条【可】【以】证明 SIGIR 2019 论文抄袭 RecSys 2018 论文【的】证据:
【两】篇文章【都】【在】矩阵【分】解框架【的】基础【上】使【用】【了】序列【到】序列【的】【对】抗【学】习模型;
【生】【成】器【和】鉴别器【部】【分】,【两】篇论文【都】将 GRU 【和】 CNN 【分】别【作】【为】【生】【成】器【和】鉴别器;
优化【方】【法】相【同】,即【在】【两】【个】【部】【分】【之】间交替【进】【行】优化;
评估【是】相【同】【的】,即【都】【是】通【过】评估 MSE 【的】推荐性【能】【和】鉴别器【的】准确性【来】表明【生】【成】器已【学】【会】【生】【成】相关评论;
【两】篇论文使【用】【的】符号【和】公式【看】【起】【来】非常相似。
【在】最货币【的】回帖【中】,SIGIR 2019 论文【作】者针【对】【这】些「证据」逐条【进】【行】【了】反驳。
【对】【于】第 1 条证据,【作】者表示,【事】实【上】,【这】【两】篇论文【都】【对】【一】篇 WWW『18 论文《Co-Evolutionary Recommendation Model: Mutual Learning between Ratings and Reviews》【进】【行】【了】拓展(【这】篇【的】【作】者【也】【是】 RecSys 2018 论文【的】【作】者)。SIGIR 2019 论文【的】【作】者【在】研究【中】引【用】【了】 WWW‘18 【的】论文(但很奇怪【的】【是】,【那】篇 RecSys 18 论文并【没】【有】引【用】【他】【们】【自】己【之】【前】【的】【这】项【工】【作】)。
针【对】第 2 条指控,【作】者解释称,【两】篇论文【都】【是】基【于】【对】抗训练,WWW『18 【的】论文【也】【是】如此。【在】句【子】结构【中】,GRU / CNN 【都】【是】相当普遍【的】序列【到】序列【学】习策略。实际【上】,其【他】许【多】论文【也】【都】将 GRU 【和】 CNN 【用】【于】文【本】表示/文档【分】类【的】序列【到】序列【学】习。【所】【以】【两】篇论文【在】【生】【成】器【和】鉴别器【部】【分】【都】遵循类似【的】策略【是】【说】【得】通【的】。
【对】【于】第 3 条证据,【作】者反驳【道】,【这】么【说】并【不】完【全】正确。「【我】【们】【的】论文【中】确实采【用】【了】与 RecSys2018 论文相【同】【的】交替优化【方】【法】,但【这】【种】【方】【法】已【经】相当广泛【了】,【之】【前】【我】【们】【在】 ECML/PKDD2016 【的】【一】篇论文【中】【也】使【用】【了】【这】【种】【方】【法】。另【一】【方】【面】,【为】【了】建模【用】户偏【好】,【我】【们】使【用】【了】非负矩阵【分】解,【而】【不】【是】 RecSys 论文【中】使【用】【的】概率矩阵【分】解。【这】【里】存【在】实质性差别。」
【对】【于】第 4 条【的】评估【方】【法】,【作】者表示,「【这】点【不】准确:评估【是】【不】【同】【的】。尽管 MSE 【是】【用】【于】评级预测【的】广泛使【用】【的】度量,但【在】【我】【们】【的】论文【中】,【我】【们】评估【了】【自】己【的】【方】【法】【在】四【个】与 RecSys 论文【不】【同】【的】数据集【上】【的】性【能】。请注意,【我】【们】【在】实验【部】【分】引【用】【了】 WWW'18 论文,已【经】明确【说】明【了】使【用】相【同】【的】评估【方】案(其【他】基【于】评论【的】推荐系统【的】研究【也】【用】【到】【了】此【方】案)。除【了】【在】 RecSys2018 论文【以】及其【他】基【于】评论【的】推荐系统【的】论文【中】广泛使【用】【的】 PMF 【和】 HFT 【两】【种】基线策略【之】外,【我】【们】【还】针【对】 DeepCoNN、TNET 【和】 WWW'18 论文提【出】【的】 TARMF 【方】【法】评估【了】【我】【们】【的】【方】【法】。【在】【我】【们】【的】实验【中】,【我】【们】【还】评估【了】 RecSys2018 论文【中】未报告【的】潜【在】因素数量【的】影响。【这】些【都】【是】【有】意义【的】差异【所】【在】。」
【对】【于】第 5 条提【到】【的】公式【和】符号【问】题,【作】者解释称,「SIGIR2019 【和】 RecSys2018 【的】论文【都】【是】基【于】【对】抗训练,【就】像 WWW‘18 【那】篇论文【一】【样】,因此【这】些符号/公式【看】【起】【来】很像。然【而】,除【了】使【用】【不】【同】【的】矩阵【分】解【方】【法】【之】外,【对】抗训练【过】程【也】存【在】【一】些差异。【我】【们】【的】论文【中】使【用】【了】 RecGAN 2018 【中】提【到】【的】策略,如引文 [2] 【所】示:
【我】【们】【还】【用】【到】【了】 IRGAN 2017 【的】策略【来】减少训练【中】【的】【方】差,如引文 [18] 【所】示:
RecSys‘18 【那】篇论文采【用】【了】 2017 预印版论文【中】【的】策略,【也】【就】【是】【他】【们】【的】引文 [26]:
【他】【们】【还】采【用】【了】引文 [46] 【中】【的】基线【方】【法】:
「重申【一】【下】,【这】【是】实质性差别。」
除【了】【这】五条「证据」【之】外,原贴【作】者【还】给【出】【了】【三】【个】示例,证明【两】篇论文【的】某些段落【在】措辞【上】【有】【多】么相似。【为】【了】【看】【起】【来】更加直观,【有】位 Reddit 网友将【这】【三】【个】示例【进】【行】【了】标注。
彩色【部】【分】【是】【两】篇论文【不】【一】【样】【的】【部】【分】,其余【部】【分】则相【同】。
【对】此,【作】者表示,【他】【们】【自】己【对】【这】【一】相似度【也】感【到】非常吃惊。
【对】【于】第【一】【个】示例,【他】【们】解释称,由【于】【他】【们】【的】论文只描述【了】 DeepCoNN 模型【的】【工】【作】原理,【所】【以】【两】【个】短句【看】【起】【来】非常相似。
原帖【中】【的】第【一】【个】示例。【上】:SIGIR 2019 论文第 1 【部】【分】。【下】:RecSys 2018 论文第 2 【部】【分】。
至【于】另外【两】【个】示例,【作】者解释【道】,由【于】【两】【个】模型【都】【是】基【于】 WWW‘18 论文,【而】且【都】【用】【到】【了】基【于】双向 GRU 【和】 CNN 【的】序列【到】序列【学】习,【所】【以】术语【是】【一】【样】【的】。例如,使【用】 GRU/CNN 处理文档【分】类【的】序列【到】序列【学】习论文【用】【到】【了】相【同】【的】术语,如「max-pooling」、「fully connected layer」、「concatenate word embeddings」、「the probability of each word」。因此,【这】些词【在】【这】【种】语境【下】非常常【见】。因此,【后】【两】【个】例【子】【看】【起】【来】相似【是】【说】【得】通【的】。
最【后】,【他】【们】【还】解释【了】【为】什么【没】【有】引【用】【那】篇 RecSys 【的】论文。
【作】者表示,尽管【他】【们】【看】【过】【那】篇 RecSys‘18 论文【的】【进】展(【他】【们】【的】论文【发】表【于】 SIGIR 论文 deadlin 【之】【前】【的】【三】【个】月),但【在】搜索基【于】评论【和】深度【学】习【的】推荐系统【的】论文【时】,【那】篇论文并【没】【有】引【起】【他】【们】【的】注意。「【那】篇 RecSys 论文【的】标题【是】关【于】【多】任务【学】习【和】【可】解释推荐【的】,与基【于】评论【和】深度【学】习【的】推荐无关。此外,【那】篇论文【的】摘【要】【和】关键词【不】【会】【和】【我】【们】【的】【方】【法】【产】【生】直接联系。【而】且,请注意,【那】篇论文【没】【有】引【用】 WWW'18 【的】论文。因此,【从】引【用】 WWW‘18 论文【的】【工】【作】【中】找【到】【那】篇论文【也】【是】【不】【可】【能】【的】。」
至此,第【一】回合 battle 宣告结束。但【看】【到】【这】些解释,原贴【的】楼【主】似乎并【不】买账。
原贴楼【主】:【你】【们】【的】解释漏洞百【出】
原贴楼【主】继续【在】帖【子】【下】回复【道】,「【我】很欣赏【你】【们】【能】够【出】【来】【自】证清白,但【在】【我】【看】【来】,【你】【们】【的】回答简直漏洞百【出】」。
楼【主】注意【到】,【作】者【在】回复【中】提【到】【了】【两】次「SIGIR2019 【和】 RecSys2018 【的】论文【都】【是】基【于】【对】抗训练,WWW『18 【的】论文【也】【是】如此」。【于】【是】,【他】【去】读【了】【这】篇论文,但读【过】【之】【后】,【他】并【没】【有】【发】现任何显示其基【于】【对】抗【学】习【的】【地】【方】。【所】【以】,【他】认【为】【作】者【在】混淆概念【以】愚弄读者;
针【对】【作】者【所】【说】【的】「【我】【们】【的】论文【中】使【用】【了】 RecGAN 2018 【中】提【到】【的】策略,如引文 [2] 【所】示;【我】【们】【还】【用】【到】【了】 IRGAN 2017 【的】策略【来】减少训练【中】【的】【方】差,如引文 [18] 【所】示」,楼【主】喊话称,「请明确【说】明【你】【在】论文【中】【用】【来】减少训练【方】差【的】策略并非 RecSys‘18 论文【中】【的】策略。【你】声称【两】篇论文【所】采【用】【的】策略具【有】『实质性差别』,但【我】只【看】【到】【了】参考文献【是】【不】【同】【的】,理论基础几乎完【全】【一】【样】。请【说】明【这】【一】点。」
另外,【作】者声称「【就】【对】【用】户偏【好】【进】【行】建模【而】言,【我】【们】使【用】【的】【是】非负矩阵【分】解,【而】 RecSys 论文使【用】【的】【是】概率矩阵【分】解」。但楼【主】认【为】,概率矩阵【分】解属【于】非负矩阵【分】解【的】【一】类。此外,楼【主】【还】注意【到】,SIGIR2019 论文最终【得】【出】【的】公式 [5] 与 RecSys'18 论文【中】公式 [10] 几乎完【全】相【同】,【所】【以】【他】希望【作】者明确【说】明存【在】哪些「实质性差别」。
SIGIR 2019 论文【中】【的】公式 [5]。
RecSys'18 论文【中】【的】公式 [10]。
最【后】,关【于】措辞【的】【问】题,楼【主】指【出】,SIGIR2019 论文【不】仅复制【了】描述 DeepCoNN 模型【的】语句,【而】且【还】复制【了】描述 TNet 模型【的】语句。难【道】【这】【也】【是】巧合吗?
此外,【对】【于】【作】者【所】【说】【的】「论文【中】使【用】【的】术语【在】文献【中】很常【见】,【所】【以】【两】段【以】【上】相似【的】内容【也】【是】【可】【以】理解【的】」,楼【主】【也】无【法】信服。【他】表示,「请至少再找【一】【个】例【子】【说】明【这】【种】『极度相似性』【的】语句【会】【出】现【在】【同】【行】评审【的】【发】表论文【中】。」
【对】【于】楼【主】【的】货币【一】波质疑,SIGIR2019 【作】者显【得】【有】些疲倦。【为】【了】增加【说】服力,【他】【们】索性【自】己【去】查【了】重并晒【出】【了】查重报告。但【没】想【到】【的】【是】,【就】连【这】份查重报告【也】受【到】【了】质疑。
【一】份被质疑【的】查重报告
查重报告显示,【这】篇 SIGIR19 论文与 RecSys18 论文【之】间【的】相似度【为】 7%。【作】者表示,根据软件公司【的】【说】【法】,24% 及【以】【下】【的】相似度【都】【是】很低【的】(参【见】:https://help.turnitin.com/feedback-studio/turnitin-website/student/the-similarity-report/interpreting-the-similarity-report.htm),【所】【以】 7% 【的】相似度真【的】【是】很低【了】。
另外,【对】【于】报告第【一】页显示【的】五【行】重复句【子】,【作】者表示,【这】【里】【是】【在】讨论相关【工】【作】,【所】提【到】【的】文献【都】【有】标注,【他】【们】【不】应该因此【而】被钉死【在】【十】字架【上】。【他】【们】【没】【有】声明【这】【里】【是】【自】己原创【的】。撰写论文初稿【的】第【一】【作】者【也】表示论文【是】【他】【自】己写【的】。
报告第【一】页截图。
然【而】,查重报告公开【之】【后】,【事】情并【没】【有】【就】此打住。
原贴楼【主】认【为】,论文【作】者使【用】【的】软件【是】【为】【了】检查【学】【生】论文剽窃【而】设计【的】,【学】【生】论文与其【他】材料【有】【一】【定】程度【的】重叠【是】【可】【以】接受【的】,但【一】【个】【经】【过】【同】【行】评审【的】论文【有】【这】【种】程度【的】重叠【是】【不】【可】接受【的】。【而】且楼【主】认【为】,【作】者【好】像比错【了】数据。【他】【们】只提【到】【自】己【的】论文与 RecSys18 论文【的】相似度【是】 7%,远低【于】 24% 【的】【分】界线,但实际【上】应该【看】【的】数字【是】该论文与其【他】材料【的】总体相似度,【而】【这】【一】数字高达 23%,只比 24% 低【一】点。
除【了】【这】位楼【主】【之】外,【一】位【用】户名【为】 eamonnkeogh 【的】网友【也】【对】查重报告提【出】【了】质疑,认【为】 7% 【的】相似度并【不】足【以】证明【作】者【的】清白,因【为】真正【的】抄袭者【有】各【种】办【法】降低查重率。
SIGIR 【大】【会】【人】文已介入
【经】【过】【两】轮【的】 battle,质疑【和】被质疑者并【没】【有】达【成】共识,但【这】件【事】已【经】惊【动】【了】 ACM SIGIR 【人】文、SIGIR 【大】【会】指导委员【会】【人】文 Ben Carterette。【他】【在】帖【子】【下】【面】留言【道】,「【我】【们】已【经】注意【到】【了】【这】【个】情况。ACM 【有】明确【的】规【定】【和】程序【来】报告【和】判【定】【可】【能】【的】剽窃【事】件。众【所】周知,【这】【是】非常严重【的】指控,最【好】由具备【一】【个】【工】【作】【和】资质【的】【中】立第【三】【方】【来】裁决。如果【你】想正式投诉,【你】【可】【以】投诉。」
另外,【他】【还】给【出】【了】 ACM 关【于】剽窃规【定】【的】文件链接。该文件显示,ACM 将剽窃【行】【为】【分】【为】【以】【下】几【种】:
逐字抄写、几乎逐字抄写【可】【能】【有】意意译【他】【人】【作】品【的】某些【部】【分】;
抄袭【他】【人】【作】品【中】【不】常【见】【的】【方】程式、表格、图表、插图、演示文稿【可】【能】照片等元素,抄袭【可】【能】故意意译【他】【人】句【子】但【不】给【出】适当【可】【能】完整【出】处;
【一】字【不】差【地】抄袭【他】【人】【的】【部】【分】【作】品,并给【出】【不】正确【的】【出】处。
根据抄袭【的】严重程度,ACM 将抄袭【行】【为】【分】【为】五级。其【中】,最轻【的】【一】级只需【要】写【道】歉信,然【后】由 ACM 【出】更正声明,【作】品仍【有】【发】表【的】机【会】。
【而】【对】【于】最严重【的】剽窃【行】【为】,剽窃者【不】仅需【要】写【道】歉信,【而】且五【年】【之】内【不】【得】向 ACM 【的】任何机构投稿。此外,剽窃【的】证据将提交 ACM 职业【道】德委员【会】【作】【为】参考并【发】送给剽窃者【的】院【长】、导师等相关【人】士。
【就】目【前】【的】情况【来】【看】,【这】篇 SIGIR 论文【是】否存【在】抄袭【行】【为】【还】很难【得】【出】【定】论。【在】 ACM 给【出】官【方】裁决【之】【前】,【大】【家】【可】【以】查【看】【两】篇论文【自】【行】【分】析。
相关链接:
SIGIR2019 论文:https://gofile.io/?c=ej2y69
RecSys 2018 论文:https://researchrepository.ucd.ie/bitstream/10197/10892/4/Why%20I%20like%20it%20Multi%20Task%20learning%20for%20recommendation%20and%20Explanation.pdf
reddit 讨论:https://www.reddit.com/r/MachineLearning/comments/dq82x7/discussion_a_questionable_sigir_2019_paper/
原标题:《顶【会】抄顶【会】?SIGIR论文【作】者回复质疑,ACM【人】文已介入》
阅读原文
关键词 >> SIGIR 2019 特别声明【本】文【为】【自】媒体、【作】者等湃客【在】澎湃货币闻【上】传并【发】布,仅代表【作】者观点,【不】代表澎湃货币闻【的】观点【可】【能】立场,澎湃货币闻仅提供信息【发】布平台。
SIGIR 2019

您可能还会对下面的文章感兴趣:

最新评论 查看所有评论
加载中......
发表评论