使用Tika进行非结构化内容的读写-1

时间 2021-01-16 标签数据结构 lucene 全文检索工作 XML

前缀时间在使用Jackrabbit作非结构化内容的存取，当问到当存取一个word文档时，jackrabbit能不能对word文档里面的内容作全文检索呢。回去查了一下相关的文档，是可以的，而且用的是一个叫Tika的工具。

Tika原先是一个Lucene的子项目，即对内容作元数据抽取用。更多的时候，是对一个平时所用的文档类数据作信息的进一步读取，这些信息是隐藏在文档本身的。这就要求有一个统一的工具来做这些事情，而Tika就提供了一个统一的调用接口来完成这些工作。

Tika通过一个parser和一个contentHandler来进行文档分析和处理，其中parser负责解析具体的文档，当解析到需要进行处理的时候，调用contentHandler进行解析内容的处理。contentHandler（org.xml.sax）是一个用于处理sax解析的程序接口，当parser解析到某些内容时（如节点之间的信息，以及节点本身的信息）时，便会根据需要去调用contentHandler的相关处理方法。即一个负责解析，一个负责处理，两者相互协作，最终将信息通过一定的手段返回回来。

Parser是一个接口，对不同的文档进行处理时，需要寻找具体的解析器来实现具体的解析工作。Tika通过MimeType来实现对一个文档的具体识别工作，即识别出一个文档是什么样的类型，然后再根据类型寻找相应的parser。最后调用具体实现的parser来完成parse工作。

ContentHandler也是一个接口，对不同的信息进行处理时，需要自己调用具体的信息处理类。一般来说，如果只关心文档内的内容（即有信息的地方），可以使用WriteOutContentHandler。这个handler将所以被解析到的信息通过一个output或write输出到调用者提供的输出流中，这样最终可以读取这个writer中的数据。例如，ParseUtils中的getStringContent(工具方法)，即通过WriterOutContentHandler进行信息的读取，最终返回这些信息。

除这些信息之外，还有一些信息需要在处理的过程中被解析和保存，比如一个文档的标题，作者以及contentType等。在tika中，这些信息被保存在一个叫Metadata的对象中。metadata保存了很多与具体文档相关的值，它以一个map的形式，保存相应的元数据信息值。如对于word，它会保存其中的Author，Keywords这些信息。这些信息对于用一些关键信息进行文档检索非常有用。

看整个处理流程，可以用下面的图来表示：

在具体实现中，用到了大量的装饰器，将一个parser包装在另一个parser中，同时也是将一个contentHandler包装在另一个handler中，所以在进行程序定位时很麻烦。但简单点来说，还是将底层进行的parser进行上层包装来进行高级的信息解析，最后返回相应的信息。具体的代码逻辑实现，参考使用Tika进行非结构化内容的读写-2.