科学文献的那些事儿

2022-10-28 11:12:12 浏览数 (1)

前言

  现在有越来越多的人涌入了读研、读博的大潮当中,但是“如何搜索到自己需要的科学文献,并进行阅读和管理”却成了一个比较棘手的问题。所以,今天打算介绍一些本人在这方面的经验。

  一般的科学探索过程可以分为以下几个大的版块:选题搜索文献阅读文献提出想法代码编写与测试 以及 论文撰写与投稿。其中,选题可以是一个具体的题目,也可以是几个关键词,比如说“钙钛矿”、“能带间隙”、“机器学习”等。在明确了选题之后,我们仍然可能不知道我们想要关注和解决的问题是什么。这种时候往往需要通过在阅读一定量的文献之后,才有可能对问题本身有一个比较清晰的认识。所以说,前三个版块其实都可以归于 提出问题 的大步骤里。事实上,提出想法 也是需要建立在阅读一定量的文献的基础上的。如果不能够很好地掌握研究方向上的各种各样的研究思路和关注的问题,自然也就无法产生自己的想法,甚至说可能有些时候自己的想法已经被研究过了而不自知。再一个与文献有关系的版块就是 论文撰写与投稿。一旦在上一个版块中有了与你期待的一致的结果时,这里不仅需要把你的想法和结果告诉别人,还需要通过对文献的引用来多方面地论证自己观点的正确性和适用性。这其实也是论文撰写过程中最难的一环,如果缺少这一环,那么你撰写的论文将和实验报告没有什么太大的差别。不过,对于一些原创性极强的文章,可能会有一种难以找到相关的文献来论证自己观点。一般来说,可能在完全相同或相近的研究方向上存在的文献非常少,但是和自己的研究中所用到的细节上的相关研究应该还是有不少的,同样可以用来论证细节上的正确性和适用性。

  接下来,将从与文献有关的搜索阅读管理几个方面分享一些具体的经验。

文献搜索

  最初大家印象里的文献搜索可能就是在 百度必应谷歌 等第三方搜索引擎中输入关键词(中文/英文),然后可能进阶到用 百度学术必应学术谷歌学术 等专注于文献或书籍的搜索引擎搜索关键词。当然了,国内外高校基本上新生入学都会有一个图书馆教育。一般的图书馆教育中,除了日常的借书、还书的事务性教育外,还有一大部分是关于如何正确地、合理地使用图书馆所购买的各项文献数据库,并遵守应有的学术规范、学术道德。接着大家可能会发现学校图书馆的主页上其实也有一个大大的搜索框。这个搜索框也是一个搜索引擎,而且是学校花钱购买的统一了学校所有纸质资源和电子资源的搜索引擎。发现了这个之后,很多人可能会从第三方提供的搜索引擎转向图书馆的搜索引擎。可是用了不久之后,慢慢地会觉得是不是哪里出了问题,怎么搜索不到更多我想要的文献了?哈哈哈,有这种感觉完全没有什么问题,这是一个必然的结果。所谓的搜索引擎是建立在一个复杂的数据库和索引上的,如果数据库没有及时更新信息,那么采用相同的关键词搜索出来的文献列表自然没有什么变化。图书馆搜索引擎如此,第三方搜索引擎亦是如此。

  单单依靠图书馆搜索引擎和第三方搜索引擎可能都无法满足最新、最全的需求,我们需要借助更加全面的搜索引擎工具– Web of Science (WoS)。这个搜索引擎最初是由在美国费城的科学情报研究所建立的,之后又转交给 科睿唯安(Clarivate)公司 进行维护。WoS 包含了非常丰富的文献数据以及引用情况,如 SCI 索引、SSCI 索引、ESCI 索引、书籍索引等。下表比较了这三种不同的搜索引擎的优势和缺点。

搜索引擎提供方

优势

缺点

图书馆

有版权可直接下载(登录后校外也可)

缺少某些数据库

第三方搜索

搜索引擎算法更好

偶有未索引文献;无法直接下载

Web of Science

数据库索引和相关信息齐全

搜索引擎一般

  有人觉得,既然说三种搜索引擎各有千秋那为什么不同时使用它们三个呢?当然,三者同时使用的话可以进行优势互补,可以满足 80% 以上的个人需求。那还有 20% 的需求指的是什么呢?又需要如何满足呢?实际上,并不是说我们需要的文献就可以通过我们定义的那几个关键词在搜索引擎中搜索出来。相反,有不少可能对我们非常有用的文献所关联的关键词并非我们常用的。

  对于这部分文献我们需要从两种方法来补齐。一种是,改变搜索的策略为“按人名搜索”。“按人名搜索”与“按关键词搜索”不同的是,前者的结果是某个研究者参与的所有工作,后者的结果是可能与关键词非常相关的很多研究者的某项工作。当我们阅读到一定量的文献之后,其实我们可以知道在国内外有哪些非常知名的研究者或研究团队在从事和我们相同或类似的工作。一般来说,某个研究者或者研究团队都是在一个研究方向上会有持续性的研究。这样一来,随着时间的积累自然也会有不少的值得一读的文献。顺便提一句,当我们刚进入一个研究团队开始我们的研究时,应该先阅读一下研究团队发表的大部分文章,以此明确未来可能的研究方向。甚至说,你可能从这些文章中发现一些你可以做的点(问题)。另外一种是,让平台为你自动推荐,比如 Research Gate、Mendeley、谷歌学术等。这些平台会根据你日常阅读或已发表的文献来推荐你可能感兴趣的文献,虽然说有些时候推荐的文献并不是让人很感兴趣,但是只要几十篇里面有一篇可以对你有所帮助,那么它的价值就已经足够了。

  以下就对上述所提到的三种文献搜索方式进行详细地解释:

按关键词搜索

  关键词搜索其实是模糊搜索中最常用的一种搜索策略,不管对于任何的搜索引擎来说,都是同样有效的。唯一的差别是,根据搜索引擎的算法不同、数据库索引不同,搜索出来的结果会有差异。而且,当我们输入中文关键词或英文关键词时,也会对搜索结果产生影响。因为搜索结果也是与关键词所使用的语言密切相关的,比如说在图书馆搜索引擎中搜索中文关键词,那么默认搜索结果将会以中文优先,英文及其他语言的结果会在中文结果之后。除了某些像 WoS 那样只支持多语言界面单语言搜索的搜索引擎之外,其他大部分搜索引擎亦然。所以,如果想要搜索中文文献可以使用 知网、万方、维普 来代替 WoS。相反,如果想要搜索英文文献最好使用 WoS。

  以下就拿“基于机器学习的二元合金的固溶度研究”来举例。首先根据这个标题,可以确定几个英文关键词:alloys、machine learning、 solid solubility。其次,需要选择一个搜索引擎,这里选用 必应学术。以下是搜索的结果。(哈哈哈,没想到我的文章居然是最相关的。)

  如果直接点击搜索结果的链接,那么将会直接跳转到文献的在线出版页。一般来说,学校购买的版权都是只能校园网内使用的。如果在校外直接访问文献的在线出版页,会提示你没有权限在线访问文献的所有内容以及下载。这个时候我们就可以打开图书馆搜索引擎搜索想要的文献标题,并且使用自己的校园账号登录授权。结果如下图所示。

  从图中可以看出,如果学校已购买版权,就会像上面那样是“有全文(请点击查看全文了解详情)”。但是问题是,如果我们在校外即使点击了这个链接,也会提示没有权限。这又是怎么了?我们期待的是可以直接访问有权限的页面。实际上,出版商们为了能够有效地控制所有可用的请求都是从可以追踪的授权方发出的,坚持限制只有固定的公网校园网 IP 段有权限。这样就是说,你想要在校外通过 IP 验证权限访问文献就必须连上学校的 VPN。但是学校的 VPN 也是花钱买的,所以还是会有客户端数量的限制,尤其一个大学往往是几万人起步,显然 VPN 的路径是特别拥堵的。为此,国外诞生了名为 EZproxy 的图书馆专用代理软件。它主要是给所有可能会使用到的网站都做了一个反向代理,并且利用学校提供的 IDP 服务进行鉴权。国外很多高校都采用了 EZproxy 作为校外访问图书馆资源的替代方式。

  国内高校虽然没有使用 EZproxy,但是有一个由北京大学计算中心开发和维护的 CARSI 联盟认证。CARSI 与 EZproxy 不同的是,它不依赖于每个高校去建立一套完整的反向代理,而是借助所有出版商提供的第三方账号鉴权 API 为学校和出版商之间架起了一座桥。登录之后如下图所示,会展示学校购买的所有数据库。

  因为刚才我们想要下载的文章属于 ScienceDirect 平台的,所以我们点击进入下图详情页面。然后点击访问资源,系统会帮助你自动完成登录操作,并且显示如下图所示的“You have institutional access”。

  现在我们去再次刷新一下刚才文献的在线出版页,发现也已经变成了有权限访问和下载了。

  这里也尝试了一下在 WoS 中搜索相同的关键词,搜索结果如下。(没想到最相关的结果也还是我的那篇文章。)这里的“出版商处的全文”其实与图书馆搜索引擎中的全文类似–点击就会直接跳转到文献的在线出版页。如果点击这里的标题的话,就会跳转到如下的详情页。在这个详情页里,我们可以看到非常丰富的相关信息,比如作者的 ORCID 号、文献的 DOI 号、摘要、资助信息、期刊的相关信息等。这里值得一提的是,每个研究者都可以创建一个属于自己的唯一 ORCID 号,不论所在单位或联系邮箱发生了改变都可以保持 ORCID 号完全不变。并且,ORCID 提供一个学术页面,可以介绍个人的教育经历、发表论文以及自定义的链接。现在一般投稿的时候都会建议与 ORCID 账号连接,这样可以保证相同的名字不同的人的一一对应,为整理某个研究者发表的所有文章列表非常有用。

按人名搜索

  前面提到为了补足关键词搜索所欠缺的 20% 未发现的文献,我们通常还会通过搜索某个研究者来发现他参加的所有相关工作。虽然上面提到的三种搜索引擎都可以把姓名当做关键词来进行搜索,但是仍然有可能有很多同名的其他人的工作,或者缺失目标研究者的某些工作。为了得到尽可能完整的列表,通常采用 Scopus 专门搜索研究者。可以看到 WoS 的文献详情页面中的作者信息虽然没有错,但是上面提供的作者链接可能是有问题的,主要是因为同名不同人的问题。

  Scopus 是由 ELSEVIER (爱思唯尔) 出版社建立的,与 ScienceDirect 属于兄弟网站。所以,如果你已经进行了刚才的登录,现在进入 Scopus 网站时就会是已登录状态。而且,Scopus 同时也提供一个期刊度量评价服务,虽然有类似 的第三方评价网站,但是这个指标还是更靠谱的。首先访问 Scopus,然后点击顶部导航栏中的作者搜索,并输入姓和名(拼音或英文)点击搜索即可查看搜索结果。输入 Li 和 Shengzhou 的搜索结果如下所示,第二个就是我自己。

  那么我们可以点击这第二项进入查看详情,如下图所示。如果你开始看到的画面链接有很多灰色的地方,可以点击右上角铃铛旁边的机构登录按钮再次登录,之后就可以看到下图这样完整的画面了。不得不说,Scopus 整理出来的文章列表还是非常齐全的,其中连预印本也包括在内了。同样,这里既可以查看基本信息,也可以点击“View at Publisher”查看文献的在线出版页。甚至说,这里最后还有一个“相关文献”的推荐按钮,或许可以从中找到更多我们需要的文献。除此之外,如果我们在推荐列表中看到了感兴趣的文献,还可以点击其中的作者查看该作者参与的所有文献的列表,岂不是一举多得。

平台自动推荐

  另外一种获取推荐文献的方式是注册 Research Gate、Mendeley、谷歌学术等平台的账号,并关注一些研究者的账号,那么系统将会定期向你发送推荐邮件。一般来说,频率不会太高,最多一周一次。除此之外,还可以关注领域内的一些知名公众号。毕竟对于一篇刚在线发表公众号的文献来说,公众号的运营者可能很快就知道了,而搜索引擎由于采用爬虫自动爬取很大可能还没来得及增加索引。

文献阅读

  虽然利用以上文献搜索方法可能获取到了你想要的文献,但是从文献中阅读出对你有用的东西依旧困难。如果你去知乎上搜索一下“如何阅读文献”,可能会有一大堆的回答,而且讲得都很有道理。但是归根结底,理论和实践还是两回事。对于不同的人来说,也会有不同适合的方法。有些时候能够从摘要中就能够觉得获取到了想要的信息,有些时候甚至阅读了全文也很难获取到想要的信息,这种差异就体现了事先预判的必要性。一般来说,文献的结构与我们开展科学研究的过程基本上是一致的。

  • Introduction 部分:首先要提出问题,其次要介绍问题相关的研究现状(目的也是为了对问题本身进行充分讨论得出自己将要在文献中解决的问题),接着是简要概括全文的目标、方法和结果。
  • Method 部分:要对提出的方法或模型的构成以及数据集作出充分的阐述,有必要的话可能还有一些简单的性能测试预备。
  • Results 部分:会对所有的结果进行说明,但一定是按照开展研究的思路进行说明的。比如说,想要验证提出模型的好坏,首先要与别的方法的结果进行一个横向的比较,当然也可以包括一个模型内部模块必要性的纵向性能比较。这样可以在某种程度上证明提出的模型的确可以解决对应的问题,但是还缺乏更多的验证。因此,往往还会用一个没有见过的数据集来验证一下模型的泛化能力。如此一来,模型的完备性得到了证明。
  • Discussion 部分:会对研究过程中一些比较关键性的结果或者细节进行充分讨论,从而在理论层面上巩固模型的可用性。有些期刊也会将结果与讨论两个部分放在一起。
  • Conclusion 部分:可能有人觉得这个部分用处不大,但又是必不可少的。因为当读者阅读完以上所有内容之后还需要这个部分来帮他重新总结升华一下,进一步理清思路。在这个部分,也有的作者会提出一些比较前瞻性的考虑,比如未来可以研究的方向或可能实现的目标等。

  个人觉得读一篇文献可以有四个目标:找到主线、找到支线、找到“有趣之处”和找到可研究点,接下来就对它们逐一解释。

找到主线

  每一篇文献能够被发表在期刊上,一定有其比较优秀的地方,有的时候是一点,有的时候是几点。从摘要中我们可以获得至少一点,而这一点一般来说会与标题相呼应。有了这样一个预期之后,我们去阅读全文的时候就能找到主线是什么。当然,主线也应该是由“提出的问题”和“解决方案”组成的。

找到支线

  对于一篇文献来说,除了上述的主线之外,应该还可能会有若干条支线。支线的任务有可能是做一些前期工作,为进一步引入解决方案做好准备;也有可能是针对解决方案中的某个细节进行更加深入的探究,进一步增强解决方案的理论可信度;也有可能是对一些小问题的简单探索,并不打算作为主要的结果或结论告诉大家。无论是这里面的哪一种,都对我们进一步了解和思考文献所提出的解决方案有很大的帮助。

找到“有趣之处”

  这里所说的“有趣之处”并不一定是来自解决方案中的某个核心的思路或者模块,也有可能是作者在实践的过程中偶然得到的灵感体现在了解决方案的某个细节上。这种“有趣之处”,虽然可能不能为你提出想要解决问题的思路,但是却能够给你带来更加灵活的思考。比如说,在机器学习领域已经有各种各样的基础算法,诸如支持向量机、决策树、随机森林、贝叶斯优化等等。不少现有的工作都是在这些算法的基础上提出针对某一方面的改进,尤其是应用于交叉领域学科,似乎原有的机器学习算法就已经足够了。这其实会很大地限制你的思考空间,很难有一些实践上的灵活应用。

  这里举一个交叉验证方法集成学习灵活应用的例子。一般来说,交叉验证方法是为了提高验证模型分类或预测能力的准确性,但是在交叉验证中实际上根据训练集和验证集的不同会训练得到多个同质模型。往往我们只会关注于交叉验证后的模型平均效果如何,而不会关心学习之后的模型是否也可以利用起来。有文献就利用集成学习将交叉验证得到的多个同质模型集成为一个强学习模型。这样一来,既保证了模型的分类或预测能力,又使得学习模型变得更加具有鲁棒性。只有去深入了解和理解这些,才能在实际应用中灵活应用所学的基础知识得到更好的成果。

找到可研究点

  阅读文献不仅仅是在了解与选题相关的国内外研究现状,同时也是在找选题中的可研究点,即需要解决且有可能解决的问题。虽然可能在某些课题组已有研究成果的基础上存在这样的可研究点,但是依旧需要联系客观的研究需求,提出属于自己的可研究点。

  可研究点可以通过在阅读一定量文献之后进行文献总结的方式,梳理现有的研究问题和解决方案以及待解决的研究问题,从而判断有哪些可研究点是值得研究并可能研究的。当然,理论还是要和实际结合的,比如说导师有哪方面的事情想去做,那也应该将其考虑进来,作出一个比较恰当、可行性高的判断。

文献管理

  文献的管理其实是一个非常繁琐的过程,也不存在绝对完美的方式方法。知乎上有很多关于“如何使用 iPad Pro 和 Apple pencil 搭配来做笔记”的回答。虽然所展示的做阅读笔记的方式让人感觉看起来很不错,但是自己实践起来却非常困难。主要有两个原因:一是文献阅读大部分是 PDF 文件,需要边读边在旁边做笔记,但是诸多因素限制了这一目标的实现;二是在 iPad 上书写与在纸质上书写存在较大的不同,无法有相同的感觉,也无法获得相同的效果。因此,本人采用的文献管理方法依旧比较传统,大部分文献还是要打印出来,然后在纸质上边读边做笔记。唯独在文献引用管理上借助一下工具 Mendeley。

PDF 文件的管理

  首先 PDF 文件的命名需要有比较好的规范。比如说,可以按照“(期刊简写) 文献标题.pdf”的格式来命名所有文献。这样一来,相同期刊的文献就会排列在一起,再按照字母顺序进行排列。同时为了很好地区分某些专题或系列文献,可以建立一个单独的文件夹,将它们放进去。这样的好处是想要哪个方向的文献可以在很小的范围找到,不好的地方是如果只想找文献中的一个小细节,那么可能不大容易与文件夹名字联系起来。另外,使用网盘进行同步也是非常有必要的。这样可以在没有常用电脑在身边的时候,也可以在网盘上找到想要的文献。

Mendeley 的使用

  Mendeley 是一款完全免费的文献管理软件。

  • Mendeley 客户端不仅可以从 PDF 文件或引用条目中自动识别文献的相关信息,还可以直接打开 PDF 文件进行阅读。如果不是很强调软件的界面,可能你就不需要其他的 PDF 阅读软件了。
  • Mendeley 提供文献同步功能,当你将文献放到 Mendeley 客户端或者上传到网页上时,会自动同步所有登录设备。只不过同步的容量有所限制,5 GB 左右。如果你只将引用条目导入 Mendeley 的话,这样的容量完全是非常充足的。
  • Mendeley 与 Microsoft Office 完全无缝兼容,支持在撰写论文时直接从你的库里选择文献并自动生成引用。当然,你也可以选择你要投递的期刊,Mendeley 会帮你自动转换引用格式。

  和 Mendeley 类似的文献管理软件也有很多,比如 RefWorks、Endnote、Citavi 等等。相比之下,其他大部分文献管理软件都是收费的。不过有些学校也会买某个软件的版权,只要你还是在校生,都可以使用。

结束语

  在看完以上的内容之后,相信你对科学文献相关的一些问题可能能得到解答了吧。如果存在什么疑问也不要紧,在实践的过程中不断总结和扩展自己的知识面,相信很快就可以把问题都解决了。

  加油

0 人点赞