服务热线
038-92295073
技术文章
Technical articlesPaper Pal:一其中英文论文及其代码大数据搜索平台余万, 付聿炜, 熊贇, 朱扬勇1 引言在开展科研事情的历程中,科研人员需要从大量实时更新的论文中连续地跟踪学术界前沿的生长情况,学习最新研究结果。近年来,人工智能(artificial intelligence, AI)、数据挖掘等领域受到的关注度不停增加,相关集会的论文数量呈发作式增长。图1显示了arXiv数据库中2010—2019年AI领域的论文增长情况。
可是,庞大的论文数量导致科研人员搜索论文的历程中泯灭了大量的时间。图1 2010—2019年arXiv数据库中AI领域的论文增长情况现在,已经有许多论文搜索引擎,如Microsoft Academic、Arxiv Sanity Preserver、Papers With Code以及AMiner等。其中,Microsoft Academic凭据研究领域对论文举行了分类,并提供了论文的全文链接、所揭晓的集会或期刊、引用的参考文献等;Arxiv Sanity Preserver提供了arXiv上论文的浏览、搜索和排序功效,并凭据用户收藏的论文,使用TF-IDF和支持向量机(support vector machine,SVM)实现论文推荐。
对于盘算机领域的科研人员,论文中提出的算法、模型的代码是相当重要的学习资源,能够让人更直观、快速地明白和掌握一个新算法或新模型,但Microsoft Academic和Arxiv Sanity Preserver等未提供代码信息。在众多代码平台中, GitHub成为现在很是有代表性的代码平台。
可是,在搜索论文和对应的代码时,科研人员需要在差别的搜索平台上往返切换以获取论文和代码,这无疑增加了科研事情的时间。为相识决论文和论文代码在空间上的差异问题,Atlas ML推出一个免费、开源的机械学习领域的论文和代码分享平台——Papers With Code,该平台不提供盘算机领域的中文论文。AMiner是现在功效较全的研究者、论文搜索平台,其构建的主要目的是通过整合多源数据提供研究者搜索分析功效来构建研究者网络和学术论文网络。
该平台也提供中英文论文的搜索功效,并包罗部门可人工编辑的论文相应的代码链接。差别于AMiner平台的构建目的,本文聚焦中国盘算机领域的科研人员在搜索论文中的实际需求,以“中国盘算机学会(China Computer Federation,CCF)推荐分区论文+代码+中文期刊+推荐”为定位,设计和实现了一个使用友好、免费、开源的盘算机领域论文与代码搜索系统——Paper Pal。Paper Pal针对中国盘算机领域的科研人员需求,根据CCF推荐论文分区对平台中的论文举行分类,提供利便的选项卡和搜索支持,平台功效越发聚焦。
现在, Paper Pal共收录英文文献29 507篇、中文文献2 130篇以及代码6 147份,笼罩人工智能、数据挖掘领域的CCF分区的35个A类和B类集会以及四大盘算机领域中文期刊(《盘算机学报》《软件学报》《盘算机研究与生长》《大数据》)。同时,平台具有可扩展性,将连续收集整合新的集会和期刊的论文。此外,用户也可以接纳关键词、期刊名、集会名等方式举行论文搜索。
Paper Pal还提供论文收藏功效,以便用户记载、整理以及追溯,同时将用户收藏的论文作为用户的行为数据泉源,使用系统内置的论文推荐功效,推测用户可能感兴趣的论文,资助用户在更短的时间内找到所需要的资料,进一步提升用户的使用体验。表1对Paper Pal和上述其他论文搜索平台举行了对比。2 相关技术Paper Pal平台卖力对论文及其代码举行收集、存储并提供搜索和推送功效。
这里需要解决几个问题:第一,数据是多泉源的,如何合理地举行数据整合,以提升平台数据质量是基础;第二,论文数据是文本类型,如何有效地举行存储和预处置惩罚是焦点;第三,平台中既有中文论文又有英文论文,如何提供精准搜索是关键。针对上述问题,本文接纳了当前大数据领域中主流的数据获取、数据存储和数据检索技术,并凭据本系统的特点举行了革新,包罗在MongoDB与Elasticsearch之间举行数据同步,从而实现在使用MongoDB数据存储的优势和Elasticsearch强大的中文搜索能力的同时,保证搜索效果与数据存储更新的同步。此外,接纳面向异质网络的推荐模型对用户的搜索行为举行分析,以实现论文推送。
2.1 数据获取与存储实现Paper Pal的第一步是收集论文及其相关数据,现在本系统收集了CCF推荐分区A类、B类集会近3年揭晓的人工智能、数据挖掘领域的论文。数据来自DBLP上论文所在的期刊、集会的详细信息。
同时,从Microsoft Academic上获取了论文被引用的次数。综合上述信息,系统提供的论文相关信息包罗论文的标题、作者、出书日期、论文PDF文档链接和被引用的次数等。
除英文论文外,Paper Pal还从盘算机领域的中文期刊中获取了中文论文数据。获取到论文信息后,进一步整合论文中先容的模型和算法的相关代码。
系统将GitHub看成Paper Pal的代码数据泉源,通过GitHub提供的API来获取代码数据。虽然有些论文没有论文原作者宣布的代码,可是会有其他研究人员在GitHub上分享实现的代码。收集完论文数据和对应的代码之后,将其存储到数据库中。本系统使用MongoDB提供数据存储和治理服务。
每篇英文论文的记载有11个属性,划分为:论文的ID、标题、摘要、作者、公布日期、代码链接、PDF链接、关键词、被引用次数、揭晓集会或期刊、揭晓年份。2.2 中英文论文搜索方法Paper Pal收集的论文包罗中文论文和英文论文。为实现更高效、准确、利便的中英文检索功效,Paper Pal选取Elasticsearch作为搜索引擎。
Elasticsearch是一个开源的、基于Lucene的漫衍式数据搜索引擎,能够提供快速的检索功效,具有易扩展、近实时的特点。Elasticsearch的倒排索引功效能够有效地提高多条件查询的检索效率;Elasticsearch支持中文分词插件IK Analyzer,能够更好、更利便地满足Paper Pal对中文文献的检索需求。除此之外,Elasticsearch另有与之配套的可视化工具Kibana和日志收集分析工具Logstash,能够为Paper Pal提供日志收集、文本检索和数据可视化分析整套流程的服务。
但Elasticsearch容易因为软硬件瓦解而造成数据丢失且无法恢复,因此Elasticsearch通常与关系型数据库或非关系型数据库配合使用,其中数据库作为持久化存储组件提供约束限制和系统鲁棒性保证,而Elasticsearch基于数据内容实现庞大的搜索查询。Paper Pal的数据被存储在MongoDB中,在本系统中,笔者把MongoDB的论文数据同步到Elasticsearch中,并实时监听MongoDB中数据的更新情况。如图2所示,Paper Pal使用Mongo-connector来跟踪事先建设好的MongoDB Replica Set的oplog(operations log),使用Mongoconnector的文档治理器Elastic2doc-manager将MongoDB的数据导入Elasticserach,并实时监听oplog的变化,以保持Elasticsearch与MongoDB之间数据的同步。
图2 将MongoDB的数据同步到Elasticsearch中2.3 论文推荐方法思量到现在收集的用户数据有限,现在Paper Pal使用与Arxiv Sanity Preserver相似的基于内容的推荐方法,即凭据用户收藏的论文的标题与摘要,使用TF-IDF和SVM将论文的词频等作为特征来盘算其他论文和用户收藏的论文在词的语义上的相似度。同时,Paper Pal系统内置了笔者提出的基于异质网络表现学习的基于元路径增强的图注意力编码(metapath enhanced graph attention encoder, MEGAE)模型,模型框架如图3所示。
该模型将论文、用户看成一个异质网络,将用户搜索以及收藏的论文作为用户和论文之间的边,当用户注册并登录Paper Pal后,Paper Pal会将用户收藏和浏览的论文信息记入数据库,这些数据将被用来更新网络,为推荐功效积累数据泉源。例如,当用户A看了论文B之后,Paper Pal会在异质网络中为用户A和论文B添加一条连边。Paper Pal使用MEGAE模型学习异质网络中每个差别节点的低维向量表现和异质网络结构信息,捕捉用户的兴趣点,从而为用户推荐论文。
比起单纯使用词频作为特征举行推荐,MEGAE模型不仅能捕捉到异质网络的结构信息,同时还能学习到异质网络中隐含的语义关系,实现更精准的个性化推荐。凭据本系统的特点,即论文具有CCF分区信息,揭晓论文的集会或期刊所属的CCF分区和论文领域可以作为论文的标签加入论文节点的属性中,即将MEGAE模型应用到思量节点属性的属性网络图中。图3 MEGAE模型框架3 平台效果Paper Pal平台为中国盘算机领域的科研事情者提供了“分区搜索”功效,即直接进入CCF推荐分区集会或中文期刊举行搜索(如图4所示)。
用户可以选择浏览CCF推荐分区集会或中文期刊的论文,系统凭据用户的选择显示相应的论文列表。论文列表包罗论文的标题、作者、揭晓日期、摘要、PDF文档链接、代码链接以及被引次数等信息。
思量到存在详细某一期刊/集会论文数量多而且用户只想搜索该期刊/集会下的论文的情况,Paper Pal为用户提供两种搜索规模,一种是在所有期刊/集会下举行搜索,另一种是在某个特定的期刊/集会下举行搜索。“分区搜索”是区分于其他平台的重要功效。
因为用户对高质量论文的关注度通常更高,所以本功效通过给出中国盘算机学会的高质量集会推荐列表及其中的论文,为用户提供直接的搜索服务。而在现有其他平台上,用户必须先去查阅哪些集会在中国盘算机学会的推荐列表中,然后再到搜索平台中用关键词举行检索。因此,本平台将大幅淘汰用户在搜索高质量论文(盘算机学会推荐列表中的集会论文)时泯灭的时间。
此外,用户泯灭相其时间查阅到所需的集会名之后,在现有其他平台上将集会名作为关键词举行搜索时,搜索效果会泛起偏差。例如international conference on machine learning(ICML)中有“machine learning”,若将“machine learning”作为关键词举行搜索,将会把该词作为标题或摘要等中的匹配词返回,而不是搜索ICML。
最后,如果在现有其他平台上直接使用集会名的缩写来搜索集会,对搜索质量将是更大的挑战。因此,本平台的搜索聚焦关键词与论文主题等的匹配度,而不需要思量以集会名为关键词的匹配,所以,本平台具有更高的精准度。图4 Paper Pal的“分区搜索”页面当用户查阅到自己感兴趣的论文时,可以进入论文的详情页面,将论文添加到收藏夹中。Paper Pal凭据论文的标题和摘要使用TF-IDF和SVM生成该论文的相似论文目录。
用户可在论文的详情页面(如图5所示),进一步检察与当前论文相似的论文。Paper Pal基于MEGAE模型的论文推荐功效需用户注册、登录,而且在平台积累到一定数量的用户收藏数据后才气使用。
MEGAE模型使用图注意力编码器来捕捉网络结构的信息,能够增强模型的可解释性,同时还能学习到由论文、作者、集会/期刊等组成的异质网络中隐含的语义关系,实现更精准的个性化推荐。例如,可以凭据论文是否具有互助者或论文是否揭晓在差别集会上等差别的条件,实现差别语义路径下的推荐。其生成的推荐目录可在“为您推荐”版块中查阅。
图5 论文的详情页面Paper Pal也将连续收集和更新一系列公然的数据集,并凭据差别的研究偏向对数据集举行划分(如图6所示)。图6 公然数据集页面4 竣事语本文设计和实现了一个论文及其代码大数据搜索系统——Paper Pal,旨在为中国盘算机领域的科研人员提供一个功效更全面的中英文论文及其代码大数据搜索工具。
该平台基于多源数据获取、MongoDB数据库存储、非结构化文本抽取转换和Elasticsearch中文数据检索等方法和技术,整合了CCF推荐分区集会和部门海内盘算机领域的中文期刊的论文及其已公然在GitHub上的代码,并提供论文及其代码大数据搜索功效;还接纳面向异质网络的推荐模型实现用户搜索行为分析,为用户推送感兴趣的论文。Paper Pal平台将大幅缩短科研人员查找文献的时间,资助科研人员在更短的时间内更有效地获取更多、更全面的资料,而且该平台中积累的盘算机领域高质量中英文论文、代码及其数据集形成了科研结果研究的大数据资源库,为科研大数据研究提供了富厚的数据基础,也为科研趋势分析研究提供了数据支持,对连续开展科研领域的结果希望研究具有重要意义。联系我们:Tel:010-81055448 010-81055490 010-81055534E-mail:bdr@bjxintong.com.cn http://www.infocomm-journal.com/bdrhttp://www.j-bigdataresearch.com.cn/转载、互助:010-81055537大数据期刊《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出书社主办,中国盘算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出书的期刊,已乐成入选中文科技焦点期刊、中国盘算机学会会刊、中国盘算机学会推荐中文科技期刊,并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受接待期刊。
关注《大数据》期刊微信民众号,获取更多内容。
本文来源:欧宝app-www.gerbertradefinance.com
地址:湖北省鄂州市卫滨区费近大楼861号
电话:038-92295073
邮箱:admin@gerbertradefinance.com
Copyright © 2000-2021 www.gerbertradefinance.com. 欧宝app科技 版权所有 备案号:ICP备95133827号-6