本书的目的是介绍自然语言处理技术及应用,本书的前半部是一些基础知识和技术的介绍,后半部是相关的任务及应用,最后还介绍了当下的一些前言技术。
本书内容分为四个部分:基础知识、相关模型技术、相关任务及应用、前沿技术,各部分章节如下:
第一部分:第1-3章,主要介绍自然语言处理的基础知识、技术发展路线、相关任务介绍以及词表示模型等。第二部分:第4-5章,主要介绍相关模型和技术,其中包括统计机器学习模型和神经网络模型等。第三部分:第6-12章,主要介绍自然语言处理的理解、转换和生成三个层面;主要应用包括机器翻译、自动文摘、信息抽取、对话系统、文本分类等任务和应用。
第四部分:第13-15章,主要包括当前自然语言处理的一些前沿研究领域,如因果关系发现、小样本知识抽取及其其它应用等工作。本书可以作为高校相关专业师生的学习用书和培训学校的教材。
第1章 引言与历史回顾……………………………………………………………………… 1
1.1 自然语言处理概述 …………………………………………………………………… 1
1.2 自然语言处理历史回顾 ……………………………………………………………… 2
第2章 数据预处理…………………………………………………………………………… 4
2.1 数据预处理的目的 …………………………………………………………………… 4
2.2 数据预处理的作用 …………………………………………………………………… 5
2.3 自然语言处理中的数据预处理 ……………………………………………………… 6
2.4 数据预处理的基本流程 ……………………………………………………………… 7
2.5 数据标准化…………………………………………………………………………… 12
2.6 向量表示法…………………………………………………………………………… 23
第3章 统计语言模型 ……………………………………………………………………… 31
3.1 自然语言处理的基本方法…………………………………………………………… 31
3.2 统计语言模型及其变体……………………………………………………………… 36
3.3 概率图概述…………………………………………………………………………… 41
3.4 信息论概述…………………………………………………………………………… 49
3.5 信息论的应用………………………………………………………………………… 58
第4章 机器学习在自然语言处理中的应用 ……………………………………………… 66
4.1 监督学习概述………………………………………………………………………… 66
4.2 监督学习类型………………………………………………………………………… 68
4.3 监督学习和无监督学习的区别……………………………………………………… 77
4.4 支持向量机(SVM) ………………………………………………………………… 78
4.5 朴素贝叶斯…………………………………………………………………………… 82
4.6 决策树………………………………………………………………………………… 86
4.7 随机森林……………………………………………………………………………… 90
4.8 梯度提升机…………………………………………………………………………… 93
第5章 深度学习基础 ……………………………………………………………………… 96
5.1 神经网络的基本概念………………………………………………………………… 96
5.2 卷积神经网络和循环神经网络 …………………………………………………… 102
5.3 长短期记忆网络和门控循环单元网络 …………………………………………… 116
第6章 现代自然语言处理模型…………………………………………………………… 120
6.1 Transformer和自注意力机制 …………………………………………………… 120
6.2 BERT、GPT、XLNet等预训练模型 ……………………………………………… 134
6.3 微调和迁移学习的策略 …………………………………………………………… 145
第7章 自然语言处理任务和技术………………………………………………………… 157
7.1 文本分类和知识抽取 ……………………………………………………………… 157
7.2 机器翻译和信息检索 ……………………………………………………………… 166
7.3 问答系统和对话系统 ……………………………………………………………… 173
第8章 大语言模型………………………………………………………………………… 182
8.1 大语言模型的兴起与发展 ………………………………………………………… 182
8.2 大语言模型的架构与原理 ………………………………………………………… 186
8.3 训练大语言模型 …………………………………………………………………… 194
8.4 微调与应用 ………………………………………………………………………… 201
8.5 性能评估与解释性 ………………………………………………………………… 208
参考文献……………………………………………………………………………………… 222