1.单语料
2.平行语料
3.复杂结构
类型 | 说明 | 例子 |
---|---|---|
单语料 | 只有句子和句子集合 | 整理好的英文文档,中文古诗数据集 |
平行语料 | 有句子和句子之间的1vs1对应关系 | 中英文翻译数据集,对话数据集 |
其它 | 复杂的结构 | 知乎的回答和评论数据 |
1.语料例子
①Penn Treebank
数据集地址:
Pytorch集成的数据集DataLoader:https://pytorchnlp.readthedocs.io/en/latest/_modules/torchnlp/datasets/penn_treebank.html
Benchmark结果:https://paperswithcode.com/sota/language-modelling-on-penn-treebank-word
②Daily Dialog
英文对话经典bench mark数据集
Paper:https://arxiv.org/abs/1710.03957
数据集地址:http://yanran.li/dailydialog.html
③WMT-1x翻译数据集
官网:http://www.statmt.org/wmt18/translation-task.html
④中文闲聊数据集
50万中文闲聊数据:https://drive.google.com/file/d/1nEuew_KNpTMbyy7BO4c8bXMXN351RCPp/view?usp=sharing
日常闲聊数据: https://github.com/codemayq/chinese_chatbot_corpus
⑤中国古诗数据集
数据集地址: https://github.com/congcong0806/Chinese-Poetry-Dataset
⑥英文语言模型语料总结:http://nlpprogress.com/english/language_modeling.html
https://www.nltk.org/
基本的英文NLP操作均支持
treebank包含PTB数据集
https://github.com/fxsjy/jieba
https://github.com/isnowfy/snownlp
Pip install snownlp
评测文本摘要好坏开源库
https://scikit-learn.org/stable/
机器学习和数据处理辅助神器
3.Word2Vec
使用一个欧式空间向量表示词汇
条件独立
代码示例
初始化
统计频率
得到先验概率、联合概率
根据后验概率判决
概率计算