bert模型相关（一）

时间 2021-01-04 标签项目实训记录日志机器学习自然语言处理

模型输入处理

1、构建example
为json文件里的每个word和tag构建对应的example，每个example的构成：

2、构建feature
为每个example构建feature，即获取每个word的id，每个label的id，mask等信息，形式如下：
Feature包含：

下面展示其中一个example的feature，也就是训练集的其中一个输出：

token
就是中文的字，如果是数字就是NUM表示。
input id
input mask
segment_ids
lable_ids
其中，0是tag为“SPACE”，1是tag为",COMMA"，2是tag为".PERIOD"，3是tag为"?QUESTIONMARK"。

参考文献：https://github.com/w5688414/BERT-Punctuation-Prediction