论文笔记《LEARNING SPARQL QUERIES FROM EXPECTED RESULTS》

论文笔记《LEARNING SPARQL QUERIES FROM EXPECTED RESULTS》

摘要:提出一种算法LSQ,可以从预期结果中学习SPQRAL查询。算法利用SPARQL1.1将大多数复杂计算都放在SPARQL endpoint上。算法的运作为通过构建和测试为表达成SPARQL查询的假设,并用主动学习的方法从用户收集一小部分例子。实验评估部分使用过去提出的官方DBpedia SPARQL endpoint上的真实查询,实验表明不到一分钟的时间可以学习其中的82%并只问用户一次。

1.介绍

带有复杂结构的信息查询对用户来说并不容易,用户需要时间去学习数据中的词汇和关系,论文使用表示为RDF的信息上下文来解决问题。论文提出的算法可以学习标准相对应的SPARQL查询,通过相对复杂的查询,将大部分计算过程移到SPARQL endpoint.

2.preliminary

RDF:核心概念是RDF三元组(主谓宾),RDF术语可以是IRI(国际化资源标识符),它充当话语领域中某些实体的全局标识符。空白节点,是话语领域中某个实体的本地标识符; 一个文字,代表一个具体的值,如一串字符或一个数字。三元组的主语可以是IRI或空白节点,谓词必须是IRI,宾语可以是任意RDF术语。

3. 相关工作

许多研究员提出查询RDF图的方法来代替手写正式查询,大致上这些方法可以分为:分面浏览,自然语言界面,可视化界面和推荐。论文与已有相似不同的是,已有方法在客户端进行计算使用类似CBD的方法获取关于资源的信息,然后计算他们的交集,而论文的方法利用SPARQL1.1的新特点将大部分复杂学习转移到SPARQL endpoint。

4.学习SPARQL查询

定义一:hypothesis——一个hypothesis包含SPARQL三元模式和filters,且每个hypothesis的三元模板都含有固定的谓词(谓词即是一个IRI),主语和宾语可以是IRI,文字或变量。要求对应于由假设定义的基本图形模式的无向图是连通图。
定义二:hypothesis对应的查询——与假设相对应的查询是在头部 具有单个变量的SPARQL SELECT查询。
为了制定hypothesis,LSQ使用一组正例P和一组反例N,两个组都包含RDF图的IRI。
LSQ的算法流程

LSQ的算法流程