被高被引的期刊有更高质量的同行评议吗?评论通常是保密的,“质量”的定义难以捉摸,所以这是一个很难回答的问题。但是,使用机器学习研究生物医学期刊上10,000份同行评审报告的研究人员已经尝试过。他们发明了质量的替代措施,他们称之为彻底性和帮助性。
他们的工作,在预印本文章中报道17月,发现在影响因子较高的期刊上发表的综述似乎花了更多的时间讨论论文的方法,但与影响因子较低的期刊的综述相比,花在提出改进建议上的时间更少。然而,高影响和低影响期刊之间的差异不大,可变性很高。作者说,这表明期刊的影响因子是“单个手稿审稿质量的不良预测因子”。
如何撰写全面的同行评审
安娜·塞维林(Anna Severin)在伯尔尼大学和瑞士国家科学基金会(SNSF)的科学政策博士学位和学术出版方面领导了这项研究,她向《自然》杂志讲述了这项工作以及大规模研究同行评审的其他努力。Severin现在是德国管理咨询公司凯捷发明公司的健康顾问。
您是如何获得这些机密的同行评审报告的?
Publons网站(由分析公司Clarivate拥有)拥有一个由期刊或学者自己提交的数百万条评论的数据库。他们给了我们访问权限,因为他们对更好地了解同行评审质量感兴趣。
可以衡量同行评审的质量吗?
没有定义。我与科学家、大学、资助者和出版商的焦点小组向我展示了“高质量”的同行评审对每个人来说都意味着不同的东西。例如,作者通常希望及时提出改进论文的建议,而编辑通常希望获得关于是否发表的建议(并说明原因)。
一种方法是使用清单来系统地评分一个人对综述的主观意见,例如它在多大程度上评论了研究的方法,解释或其他方面。研究人员开发了评论质量工具2和阿卡迪亚核对清单3.但是,我们无法在数千条评论中大规模手动运行这些清单。
所以你用来衡量“彻底性”和“帮助性”?
SNSF与都柏林大学学院的政治学家斯特凡·穆勒(Stefan Müller)合作,他是使用软件分析文本的专家,使用机器学习评估评论的内容。我们专注于彻底性(句子是否可以归类为对材料和方法,陈述,结果和讨论的评论,或论文的重要性)和帮助性(如果句子与表扬或批评有关,提供示例或提出改进建议)。
我们从医学和生命科学期刊中随机挑选了10,000条评论,并手动将其中2,000个句子的内容分配给无,其中一个或多个类别。然后,我们训练了一个机器学习模型来预测另外187,000个句子的类别。
你发现了什么?
期刊影响因子似乎确实与同行评审内容和审稿人的特征有关。我们发现,为影响力较大的期刊提供的报告往往更长,审稿人更有可能来自欧洲和北美。在影响较大的期刊报告中,更大比例的句子往往是关于材料和方法的;与影响较小的期刊的评论相比,论文的展示比例较小,或提出改进论文的建议。
但这些比例即使在具有相似影响因子的期刊中也存在很大差异。因此,我想说的是,影响因子是评论“彻底性”和“有用性”的不良预测指标。我们将其解释为“质量”方面的代理。
当然,这种技术也有局限性:机器学习总是错误地标记一些句子,尽管我们的检查表明这些错误不会系统地偏向结果。此外,我们无法检查我们编码的评论中提出的声明是否正确。