java多线程-进程与线程（一）

时间 2020-12-27

java多线程-进程与线程（一）

进程

进程是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。在早期面向进程设计的计算机结构中，进程是程序的基本执行实体；在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。
一个进程就是一个正在执行程序的实例，包括程序计数器，寄存器和变量的当前值。从概念上说，每个进程都拥有自己的虚拟CPU。实际上真正的CPU在各个进程间来回切换。
一个进程是某种类型的一个活动，它有程序，输入，输出以及状态。
如果一个程序启动了两次，就创建了两个进程，如：打开两个QQ，就是两个进程。

创建进程

系统初始化
执行了正在运行的进程所调用的进程创建系统调用。
用户请求创建一个新进程。
一个批处理作业的初始化。

进程的层次结构

进程只有一个父进程，但是可以有0个，一个，多个子进程。

进程的状态

运行态：该时刻进程实际占用CPU。
就绪态：可运行，但因为其他进程正在运行而暂时停止。
阻塞态：除非某种外部事件发生，否则进程不能运行

进程的实现

为了实现进程模型，操作系统维护者一张表格，即进程表。每个进程占用一个进程控制块。
进程控制块包含了进程状态的重要信息：程序计数器，堆栈指针，内存分配状况，所打开文件的状态，账户和调度信息，以及其他在进程由运行态转换到就绪态或阻塞态必须保存的信息。

进程块中包含的信息：

进程管理：寄存器程序计数器程序状态字堆栈指针进程状态,优先级，调度参数，进程ID，父进程，进程组，信号，进程开始时间，使用的CPU时间，
下次子进程CPU时间，下次报警时间。
存储管理：正文，数据，堆栈段指针。
文件管理：根目录，工作目录，文件描述符，用户ID，组ID。

线程

线程是进程的一个实体，是CPU调度和分派的基本单位，他是比进程更小的能独立运行的基本单位，线程自己基本上不拥有系统资源。
线程是程序中一个单一的顺序控制流程。进程内一个相对独立的、可调度的执行单元，是系统独立调度和分派CPU的基本单位指运行中的程序的调度单位。
在运行时，只是暂用一些计数器、寄存器和栈。

进程与线程的区别

进程用于把资源集中到一起，而线程则是在CPU上被调度执行的实体。

进程：指在系统中能独立运行并作为资源分配的基本单位，它是由一组机器指令、数据和堆栈等组成的，是一个能独立运行的活动实体。
线程：是进程的一个实体，是CPU调度和分派的基本单位，他是比进程更小的能独立运行的基本单位，线程自己基本上不拥有系统资源。

多个进程的内部数据和状态都是完全独立的,而多线程是共享一块内存空间和一组系统资源,有可能互相影响. 线程本身的数据通常只有寄存器数据，以及一个程序执行时使用的堆栈，所以线程的切换比进程切换的负担要小。

在同一进程中的不同线程之间的独立性要比不同进程之间的独立性低得多。这是因为为防止进程之间彼此干扰和破坏，每个进程都拥有一个独立的地址空间和其它资源，除了共享全局变量外，不允许其它进程的访问。但是同一进程中的不同线程往往是为了提高并发性以及进行相互之间的合作而创建的，它们共享进程的内存地址空间和资源，如每个线程都可以访问它们所属进程地址空间中的所有地址，如一个线程的堆栈可以被其它线程读、写，甚至完全清除。

由于在创建或撤销进程时，系统都要为之分配或回收资源，如内存空间、I/O设备等。因此，操作系统为此所付出的开销将显著地大于在创建或撤消线程时的开销。类似的，在进程切换时，涉及到整个当前进程CPU环境的保存环境的设置以及新被调度运行的CPU环境的设置，而线程切换只需保存和设置少量的寄存器的内容，并不涉及存储器管理方面的操作，可见，进程切换的开销也远大于线程切换的开销。此外，由于同一进程中的多个线程具有相同的地址空间，致使他们之间的同步和通信的实现也变得比较容易。在有的系统中，现成的切换、同步、和通信都无需操作系统内核的干预。

同一个进程中，线程之间共享：地址空间，全局变量，打开文件子进程，信号与信号处理程序，账户信息，报警信息。线程自己拥有的有：程序计数器，寄存器，堆栈，状态。

线程的状态转换

java语言定义了5种线程状态，在任意一个时间点，一个线程只能有其中一种状态

新建：创建后尚未启动线程处于这种状态
运行：runable包括了操作系统线程状态中的running和ready，也就是处于此状态的线程有可能处于正在执行，也有可能正在等待着CPU为它分配执行时间。
无期限等待（waiting）：处于这种状态的线程不会被分配CPU执行时间，它们要等待被其他线程显式地唤醒。一下状态会导致线程无限等待：
- 没有设置TImerout参数的Object.wait()方法。
- 没有设置TImerout参数的Thread.join()方法。
- LackSupport.park()方法。
期限等待（Timed waiting）：处于这种状态的线程也不会被分配CPU执行时间，不过无须等待被其他线程显式地唤醒，在一定时间之后它们会有系统自动唤醒。
- Thread.sleep()方法。
- 设置TImerout参数的Object.wait()方法。
- 设置TImerout参数的Thread.join()方法。
- LackSupport.parkNanos()方法。
- LackSupport.parkUntil()方法。
阻塞（Blocked）：线程被阻塞了，“阻塞“与”等待状态“的区别是：阻塞状态在等待着获取到一个排他锁，这个事件将在另外一个线程放弃这个锁的时候发生（synchronized就是这样的）。而“等待状态”则是等待一段时间或者唤醒动作发生（wait与notify／notifyAll）。
结束（Terminated）：已终止线程的线程状态，线程执行结束。

多线程基础知识

Java中如果我们自己没有产生线程，那么系统就会给我们产生一个线程（主线程，main方法就在主线程上运行），我们的程序都是由线程来执行的。
进程：执行中的程序（程序是静态的概念，进程是动态的概念）。
线程的实现有两种方式，第一种方式是继承Thread类，然后重写run方法；第二种是实现Runnable接口，然后实现其run方法。
将我们希望线程执行的代码放到run方法中，然后通过start方法来启动线程，start方法首先为线程的执行准备好系统资源，然后再去调用run方法。当某个类继承了Thread类之后，该类就叫做一个线程类。
一个进程至少要包含一个线程。
对于单核CPU来说，某一时刻只能有一个线程在执行（微观串行），从宏观角度来看，多个线程在同时执行（宏观并行）。
对于双核或双核以上的CPU来说，可以真正做到微观并行。
并行与并发：并行是指多个cpu实例或者多台机器同时执行一段处理逻辑，是真正的同时。并发是指通过cpu调度算法，让用户看上去同时执行，实际上从cpu操作层面不是真正的同时。并发往往在场景中有公用的资源，那么针对这个公用的资源往往产生瓶颈，我们会用TPS或者QPS来反应这个系统的处理能力。
线程安全：经常用来描绘一段代码。指在并发的情况之下，该代码经过多线程使用，线程的调度顺序不影响任何结果。这个时候使用多线程，我们只需要关注系统的内存，cpu是不是够用即可。反过来，线程不安全就意味着线程的调度顺序会影响最终结果。
同步：Java中的同步指的是通过人为的控制和调度，保证共享资源的多线程访问成为线程安全，来保证结果的准确。如上面的代码简单加入@synchronized关键字。在保证结果准确的同时，提高性能，才是优秀的程序。线程安全的优先级高于性能。

线程上下文切换（转载）

转载地址：http://www.cnblogs.com/xrq730/p/5186609.html

并发编程的目的是为了让程序运行得更快，但是并不是启动更多的线程就能让程序最大限度地并发执行。在进行并发编程时，如果希望通过多线程执行任务让程序运行得更快，会面临非常多的挑战，比如上下文切换的问题、死锁的问题，以及受限于硬件和软件的资源限制问题，本文要研究的是上下文切换的问题。

什么是上下文切换

即使是单核CPU也支持多线程执行代码，CPU通过给每个线程分配CPU时间片来实现这个机制。时间片是CPU分配给各个线程的时间，因为时间片非常短，所以CPU通过不停地切换线程执行，让我们感觉多个线程时同时执行的，时间片一般是几十毫秒（ms）。

CPU通过时间片分配算法来循环执行任务，当前任务执行一个时间片后会切换到下一个任务。但是，在切换前会保存上一个任务的状态，以便下次切换回这个任务时，可以再次加载这个任务的状态，从任务保存到再加载的过程就是一次上下文切换。

这就像我们同时读两本书，当我们在读一本英文的技术书籍时，发现某个单词不认识，于是便打开中英文词典，但是在放下英文书籍之前，大脑必须先记住这本书读到了多少页的第多少行，等查完单词之后，能够继续读这本书。这样的切换是会影响读书效率的，同样上下文切换也会影响多线程的执行速度。

引起线程上下文切换的原因

对于我们经常使用的抢占式操作系统而言，引起线程上下文切换的原因大概有以下几种：

当前执行任务的时间片用完之后，系统CPU正常调度下一个任务
当前执行任务碰到IO阻塞，调度器将此任务挂起，继续下一任务
多个任务抢占锁资源，当前任务没有抢到锁资源，被调度器挂起，继续下一任务
用户代码挂起当前任务，让出CPU时间
硬件中断

linux 查看上下文切换次数：vmstat 1

如何减少上下文切换

既然上下文切换会导致额外的开销，因此减少上下文切换次数便可以提高多线程程序的运行效率。减少上下文切换的方法有无锁并发编程、CAS算法、使用最少线程和使用协程。

无锁并发编程。多线程竞争时，会引起上下文切换，所以多线程处理数据时，可以用一些办法来避免使用锁，如将数据的ID按照Hash取模分段，不同的线程处理不同段的数据
CAS算法。Java的Atomic包使用CAS算法来更新数据，而不需要加锁
使用最少线程。避免创建不需要的线程，比如任务很少，但是创建了很多线程来处理，这样会造成大量线程都处于等待状态
协程。在单线程里实现多任务的调度，并在单线程里维持多个任务间的切换