bert模型相关(一)

模型输入处理

1、构建example
为json文件里的每个word和tag构建对应的example,每个example的构成 :

  • guid:
    示例的唯一ID,比如训练集就是train-1009,测试集就是test-1009
    text_a:
  • 字符串:
    第一个序列的未标记文本(无符号的)。由于是单序列任务,仅必须指定此序列。
  • lable:
    (可选)字符串,example的标签,也就是上面的tag,只为训练集和验证集的example指定标签,但不为测试集指定。

2、构建feature
为每个example构建feature,即获取每个word的id,每个label的id,mask等信息,形式如下:
Feature包含:
在这里插入图片描述
下面展示其中一个example的feature,也就是训练集的其中一个输出:

  • token
    就是中文的字,如果是数字就是NUM表示。

  • input id

  • input mask

  • segment_ids

  • lable_ids
    其中,0是tag为“SPACE”,1是tag为",COMMA",2是tag为".PERIOD",3是tag为"?QUESTIONMARK"。

在这里插入图片描述 参考文献:https://github.com/w5688414/BERT-Punctuation-Prediction