BERT学习笔记一:运行BERT模型代码前

电脑配置

CPU:
tensorflow1.11+protobuf3.6.0
pip install tensorflow=1.11
pip安装tensorflow1.11默认会将protobuf升级至3.6.1(坑了好久)
先卸载protobuf:pip uninstall protobuf
安装protobuf3.6.0:pip install protobuf=3.6.0
在这里插入图片描述git

GPU:
tensorflow_gpu-1.11.0+ cuDNN_7+ CUDA_9
protobuf3.6.0
配置参考:windows7 64位机上安装配置CUDA 9.1+cudnn7操做步骤github

BERT源码下载

网址:https://github.com/google-research/bertweb

BERT代码+数据:
连接:https://pan.baidu.com/s/1MfYOb1Ou-t-sMU239yFNbA
提取码:4ucwwindows

代码简单介绍

在这里插入图片描述
create_pretraining_data.py
做用:建立预训练模型 依赖:tokenization.py
extract_features.py
做用:提取特征 依赖:tokenization.pymodeling.py
modeling.py
做用:模型参数(包含模型相关类及函数) 依赖:无
modeling_test.py
做用:简单测试模型 依赖:modeling.py
optimization.py
做用:与模型优化相关的类和函数 依赖:无
optimization_test.py
做用:建立预训练模型 依赖:tokenization.py
run_classifier.py
做用:模型微调 依赖:tokenization.pymodeling.pyoptimization.py
run_pretraining.py
做用:用pretraining.py生成的数据进行预训练 依赖:modeling.pyoptimization.py
run_squad.py
做用:在SQuAD数据集上运行BERT模型
依赖:tokenization.pymodeling.pyoptimization.py
tokenization.py
做用:文本标记化的类和函数 依赖:无
tokenization_test.py
做用:文本标记化测试 依赖:tokenization.pysvg