NIO 与缓冲区

mark

Java NIO 简介

Java NIO (New IO/Non Blocking IO),官方给的定义是 New IO,但是我们也可以当作是 Non Blocking IO,即非阻塞式 IO,是从 Java 1.4 版本开始引入的一个新的 IO API,可以替代标准的 Java IO API。NIO 与原来的 IO 有同样的作用和目的,但是使用的方式完全不同,NIO 支 持面向缓冲区的、基于通道的 IO 操作。NIO 将以更加高效的方式进行文件的读写操作。

传统 IO 与 NIO 区别

mark

原来的 IO 是面向数据流的,包括网络流、文件流等等,要想双向传输只能分别建立输入流和输出流:输入输出流你可以把它当作管道,只能单向流动,一边作为输出,一边作为输入,这样我们操作的就是流, 面向输入输出流的编程!

mark

现在看看 NIO,NIO 相当于建立的不是输入输出流,而是通道,通道只是负责连接,可以把通道看成是铁路,把缓冲区看成是火车,数据看作火车上的乘客,火车既能从应用程序到网络、扫描设备、文件,也能从网络、扫描设备、文件等到应用程序,是双向的 IO, 所以 NIO 是面向缓冲区的!

mark

阻塞式 IO 与非阻塞 IO、选择器等区别主要是针对网络通信而言的

通道和缓冲区

Java NIO 系统的核心在于:通道 (Channel) 和缓冲区 (Buffer)。通道表示打开到 IO 设备 (例如:文件、套接字) 的连接。若需要使用 NIO 系统,需要获取用于连接 IO 设备的通道以及用于容纳数据的缓冲区。然后操作缓冲区,对数据进行处理。 简而言之,Channel 负责传输、Buffer 存储

缓冲区原理和操作

缓冲区 (Buffer):一个用于特定基本数据类型的容器。由 java.nio 包定义的,所有缓冲区都是 Buffer 抽象类的子类。Java NIO 中的 Buffer 主要用于与 NIO 通道进行交互,数据是从通道读入缓冲区,从缓冲区写入通道中的。

缓冲区中的四个核心属性

  • capacity:缓冲区中最大存储数据的容量,一旦声明不能改变
  • limit:界限,表示缓冲区中可以操作数据的大小(limit 后面的数据是不能进行读写的)
  • position:位置,表示缓冲区中正在操作数据的位置
  • mark:标记,表示记录当前 position 的位置,可以通过 reset () 恢复到 mark 的位置

关系:0 <= mark <= position <= limit <= capacity

mark

下面是一段关于 Buffer 的联系代码,以 ByteBuffer 为例:

mark

如何分析这一段程序呢,下面这个张图可以很容易的理解这几个属性

mark

上述例子展示了其中 position、capacity、limit 的作用,没说到 mark 的作用,mark:标记,表示记录当前 position 的位置,可以通过 reset () 恢复到 mark 的位置

mark

重点就是理解 Buffer 的四个属性,顺便总结一下 API 吧

  • allocate () 开辟缓冲区
  • put () 存数据
  • flip () 切换到读模式
  • get () 取数据
  • rewind () 重复度数据
  • clear () 清空缓冲区
  • mark () 标记此时 position 值
  • reset () 恢复到 mark () 标记位置
  • hasRemaining () 判断缓冲区还有没有可以操作的数据
  • remaining () 缓冲区可操作数据的数量

mark

直接缓冲区和非直接缓冲区

字节缓冲区要么是直接的,要么是非直接的。如果为直接字节缓冲区,则 Java 虚拟机会尽最大努力直接在此缓冲区上执行本机 I/0 操作。也就是说,在每次调用基础操作系统的一个本机 I/O 操作之前 (或之后),虚拟机都会尽量避免将缓冲区的内容复制到中间缓冲区中 (或从中间缓冲区中复制内容)。

直接字节缓冲区可以通过调用此类的 allocateDirect () 工厂方法来创建。此方法返回的缓冲区进行分配和取消分配所需成本通常高于非直接缓冲区。直接缓冲区的内容可以驻留在常规的垃圾回收堆之外,因此,它们对应用程序的内存需求量造成的影响可能并不明显。所以,建议将直接缓冲区主要分配给那些易受基础系统的本机 I/O 操作影响的大型、持久的缓冲区。一般情况下,最好仅在直接缓冲区能在程序性能方面带来明显好处时分配它们。

直接字节缓冲区还可以通过 FileChannel 的 map () 方法将文件区域直接映射到内存中来创建。该方法返回 MappedByteBuffer。Java 平台的实现有助于通过 JNI 从本机代码创建直接字节缓冲区。如果以上这些缓冲区
中的某个缓冲区实例指的是不可访问的内存区域,则试图访问该区域不会更改该缓冲区的内容,并且将会在
访问期间或稍后的某个时间导致抛出不确定的异常。

字节缓冲区是直接缓冲区还是非直接缓冲区可通过调用其 isDirect () 方法来确定。提供此方法是为了能够在
性能关键型代码中执行显式缓冲区管理。

非直接缓冲区

mark

传统 IO 操作时,JVM 在缓存在自己的 JVM 内存中,自己的 JVM 内存中的数据需要经过 copy 到内核缓存中,由操作系统决定何时把数据写入磁盘,但是一旦 JVM 把数据 write 到了缓存,操作系统把用户地址空间的缓存数据 copy 到自己的内核地址空间中,那么 JVM 时可以随时更改缓存中的数据的,但是程序员也没有操作 JVM Gc 的能力,这样应用程序 IO 就变得很低效,要经过 copy 到内核地址空间这一个步骤

直接缓冲区

mark

直接缓冲区时直接在物理内存中开辟了一个缓冲区,那么这个缓冲区是直接建立在 OS 的物理内存中的。相当于省略了中的 copy 的过程,可以提高效率,但是这样做也是有缺点的,比如非常消耗资源,缓冲区直接建立在物理内存中是一个非常巨大的消耗(主要是分配和销毁),而且一旦 JVM 把数据写入到物理内存缓冲区,那么这里的数据就不归 JVM 管了,这里的数据何时写到磁盘中,完全是由操作系统控制的。而且这块资源什么时候销毁呢?那就是 JVM Gc 发生的时候,但是 JVM GC 这不是我们能控制的!

那么什么时候用这一块缓冲区比较好呢?比如有一些很大的数据长时间需要在内存中进行操作的话,就可以使用直接缓冲区!通过查看源码可以看到

1
2
3
public native long allocateMemory(long var1); // 建立直接缓冲区调用的方法 

return new HeapByteBuffer(capacity, capacity); // 非直接缓冲区直接新建数组放在堆中

mark