1、构建example
为json文件里的每个word和tag构建对应的example,每个example的构成 :
2、构建feature
为每个example构建feature,即获取每个word的id,每个label的id,mask等信息,形式如下:
Feature包含:
下面展示其中一个example的feature,也就是训练集的其中一个输出:
token
就是中文的字,如果是数字就是NUM表示。
input id
input mask
segment_ids
lable_ids
其中,0是tag为“SPACE”,1是tag为",COMMA",2是tag为".PERIOD",3是tag为"?QUESTIONMARK"。
参考文献:https://github.com/w5688414/BERT-Punctuation-Prediction