NIO与缓冲区

mark

Java NIO简介

Java NIO (New IO/Non Blocking IO),官方给的定义是New IO,但是我们也可以当作是Non Blocking IO,即非阻塞式IO,是从Java 1.4版本开始引入的一个新的IO API,可以替代标准的Java IO API。NIO与原来的IO有同样的作用和目的,但是使用的方式完全不同,NIO支 持面向缓冲区的、基于通道的IO操作。NIO将以更加高效的方式进行文件的读写操作。

传统IO与NIO区别

mark

原来的IO是面向数据流的,包括网络流、文件流等等,要想双向传输只能分别建立输入流和输出流:输入输出流你可以把它当作管道,只能单向流动,一边作为输出,一边作为输入,这样我们操作的就是流,面向输入输出流的编程!

mark

现在看看NIO,NIO相当于建立的不是输入输出流,而是通道,通道只是负责连接,可以把通道看成是铁路,把缓冲区看成是火车,数据看作火车上的乘客,火车既能从应用程序到网络、扫描设备、文件,也能从网络、扫描设备、文件等到应用程序,是双向的IO,所以NIO是面向缓冲区的!

mark

阻塞式IO与非阻塞IO、选择器等区别主要是针对网络通信而言的

通道和缓冲区

Java NIO系统的核心在于:通道(Channel)和缓冲区(Buffer)。通道表示打开到IO设备(例如:文件、套接字)的连接。若需要使用NIO系统,需要获取用于连接IO设备的通道以及用于容纳数据的缓冲区。然后操作缓冲区,对数据进行处理。简而言之,Channel负责传输、Buffer存储

缓冲区原理和操作

缓冲区(Buffer):一个用于特定基本数据类型的容器。由java.nio包定义的,所有缓冲区都是Buffer抽象类的子类。Java NIO中的Buffer主要用于与NIO通道进行交互,数据是从通道读入缓冲区,从缓冲区写入通道中的。

缓冲区中的四个核心属性

  • capacity:缓冲区中最大存储数据的容量,一旦声明不能改变
  • limit:界限,表示缓冲区中可以操作数据的大小(limit后面的数据是不能进行读写的)
  • position:位置,表示缓冲区中正在操作数据的位置
  • mark:标记,表示记录当前position的位置,可以通过reset()恢复到mark的位置

关系:0 <= mark <= position <= limit <= capacity

mark

下面是一段关于Buffer的联系代码,以ByteBuffer为例:

mark

如何分析这一段程序呢,下面这个张图可以很容易的理解这几个属性

mark

上述例子展示了其中position、capacity、limit的作用,没说到mark的作用,mark:标记,表示记录当前position的位置,可以通过reset()恢复到mark的位置

mark

重点就是理解Buffer的四个属性,顺便总结一下API吧

  • allocate() 开辟缓冲区
  • put() 存数据
  • flip() 切换到读模式
  • get() 取数据
  • rewind() 重复度数据
  • clear() 清空缓冲区
  • mark() 标记此时position值
  • reset() 恢复到mark() 标记位置
  • hasRemaining() 判断缓冲区还有没有可以操作的数据
  • remaining() 缓冲区可操作数据的数量

mark

直接缓冲区和非直接缓冲区

字节缓冲区要么是直接的,要么是非直接的。如果为直接字节缓冲区,则Java虚拟机会尽最大努力直接在此缓冲区上执行本机I/0操作。也就是说,在每次调用基础操作系统的一个本机I/O操作之前(或之后),虚拟机都会尽量避免将缓冲区的内容复制到中间缓冲区中(或从中间缓冲区中复制内容)。

直接字节缓冲区可以通过调用此类的allocateDirect()工厂方法来创建。此方法返回的缓冲区进行分配和取消分配所需成本通常高于非直接缓冲区。直接缓冲区的内容可以驻留在常规的垃圾回收堆之外,因此,它们对应用程序的内存需求量造成的影响可能并不明显。所以,建议将直接缓冲区主要分配给那些易受基础系统的本机I/O操作影响的大型、持久的缓冲区。一般情况下,最好仅在直接缓冲区能在程序性能方面带来明显好处时分配它们。

直接字节缓冲区还可以通过FileChannel的map()方法将文件区域直接映射到内存中来创建。该方法返回MappedByteBuffer。Java 平台的实现有助于通过JNI从本机代码创建直接字节缓冲区。如果以上这些缓冲区 中的某个缓冲区实例指的是不可访问的内存区域,则试图访问该区域不会更改该缓冲区的内容,并且将会在 访问期间或稍后的某个时间导致抛出不确定的异常。

字节缓冲区是直接缓冲区还是非直接缓冲区可通过调用其isDirect()方法来确定。提供此方法是为了能够在 性能关键型代码中执行显式缓冲区管理。

非直接缓冲区

mark

传统IO操作时,JVM在缓存在自己的JVM内存中,自己的JVM内存中的数据需要经过copy到内核缓存中,由操作系统决定何时把数据写入磁盘,但是一旦JVM把数据write到了缓存,操作系统把用户地址空间的缓存数据copy到自己的内核地址空间中,那么JVM时可以随时更改缓存中的数据的,但是程序员也没有操作JVM Gc的能力,这样应用程序IO就变得很低效,要经过copy到内核地址空间这一个步骤

直接缓冲区

mark

直接缓冲区时直接在物理内存中开辟了一个缓冲区,那么这个缓冲区是直接建立在OS的物理内存中的。相当于省略了中的copy的过程,可以提高效率,但是这样做也是有缺点的,比如非常消耗资源,缓冲区直接建立在物理内存中是一个非常巨大的消耗(主要是分配和销毁),而且一旦JVM把数据写入到物理内存缓冲区,那么这里的数据就不归JVM管了,这里的数据何时写到磁盘中,完全是由操作系统控制的。而且这块资源什么时候销毁呢?那就是JVM Gc 发生的时候,但是JVM GC这不是我们能控制的!

那么什么时候用这一块缓冲区比较好呢?比如有一些很大的数据长时间需要在内存中进行操作的话,就可以使用直接缓冲区!通过查看源码可以看到

1public native long allocateMemory(long var1); //建立直接缓冲区调用的方法
2
3return new HeapByteBuffer(capacity, capacity); //非直接缓冲区直接新建数组放在堆中

mark