论文笔记《LEARNING SPARQL QUERIES FROM EXPECTED RESULTS》

时间 2021-01-02 标签论文笔记 SPARQL

论文笔记《LEARNING SPARQL QUERIES FROM EXPECTED RESULTS》

摘要：提出一种算法LSQ,可以从预期结果中学习SPQRAL查询。算法利用SPARQL1.1将大多数复杂计算都放在SPARQL endpoint上。算法的运作为通过构建和测试为表达成SPARQL查询的假设，并用主动学习的方法从用户收集一小部分例子。实验评估部分使用过去提出的官方DBpedia SPARQL endpoint上的真实查询，实验表明不到一分钟的时间可以学习其中的82%并只问用户一次。

1.介绍

带有复杂结构的信息查询对用户来说并不容易，用户需要时间去学习数据中的词汇和关系，论文使用表示为RDF的信息上下文来解决问题。论文提出的算法可以学习标准相对应的SPARQL查询，通过相对复杂的查询，将大部分计算过程移到SPARQL endpoint.

2.preliminary

RDF:核心概念是RDF三元组（主谓宾），RDF术语可以是IRI（国际化资源标识符），它充当话语领域中某些实体的全局标识符。空白节点，是话语领域中某个实体的本地标识符; 一个文字，代表一个具体的值，如一串字符或一个数字。三元组的主语可以是IRI或空白节点，谓词必须是IRI，宾语可以是任意RDF术语。

3. 相关工作

许多研究员提出查询RDF图的方法来代替手写正式查询，大致上这些方法可以分为：分面浏览，自然语言界面，可视化界面和推荐。论文与已有相似不同的是，已有方法在客户端进行计算使用类似CBD的方法获取关于资源的信息，然后计算他们的交集，而论文的方法利用SPARQL1.1的新特点将大部分复杂学习转移到SPARQL endpoint。

4.学习SPARQL查询

定义一：hypothesis——一个hypothesis包含SPARQL三元模式和filters,且每个hypothesis的三元模板都含有固定的谓词（谓词即是一个IRI），主语和宾语可以是IRI，文字或变量。要求对应于由假设定义的基本图形模式的无向图是连通图。
定义二：hypothesis对应的查询——与假设相对应的查询是在头部具有单个变量的SPARQL SELECT查询。
为了制定hypothesis，LSQ使用一组正例P和一组反例N，两个组都包含RDF图的IRI。
LSQ的算法流程