《java 8 实战》读书笔记 -第六章用流收集数据

时间 2019-12-06 标签 java 8 实战读书笔记第六章流收集数据

1、收集器简介

把列表中的交易按货币分组：java

Map<Currency, List<Transaction>> transactionsByCurrencies = 
 transactions.stream().collect(groupingBy(Transaction::getCurrency));

从Collectors
类提供的工厂方法（例如groupingBy）建立的收集器。它们主要提供了三大功能：算法

将流元素归约和汇总为一个值
元素分组
元素分区

2、归约和汇总

数一数菜单里有多少种菜：安全

long howManyDishes = menu.stream().collect(Collectors.counting());

这还能够写得更为直接：app

long howManyDishes = menu.stream().count();

1.查找流中的最大值和最小值

可使用两个收集器，Collectors.maxBy和Collectors.minBy，来计算流中的最大或最小值。这两个收集器接收一个Comparator参数来比较流中的元素.
找出菜单中热量最高的菜:框架

Comparator<Dish> dishCaloriesComparator = 
 Comparator.comparingInt(Dish::getCalories); 
Optional<Dish> mostCalorieDish = 
 menu.stream() 
 .collect(maxBy(dishCaloriesComparator));

2.汇总

Collectors.summingInt
它可接受一个把对象映射为求和所需int的函数，并返回一个收集器；该收集器在传递给普通的collect方法后即执行咱们须要的汇总操做。
eg:异步
```
int totalCalories = menu.stream().collect(summingInt(Dish::getCalories));
```
另外，Collectors.summingLong和Collectors.summingDouble方法的做用彻底同样，能够用于求和字段为long或double的状况。还有Collectors.averagingInt，连同对应的averagingLong和averagingDouble能够计算数值的平均数。ide
summarizing操做
经过一次summarizing操做你能够就数出菜单中元素的个数，并获得菜肴热量总和、平均值、最大值和最小值：函数
```
IntSummaryStatistics menuStatistics = 
menu.stream().collect(summarizingInt(Dish::getCalories));
```
这个收集器会把全部这些信息收集到一个叫做IntSummaryStatistics的类里，它提供了方便的取值（getter）方法来访问结果。打印menuStatisticobject会获得如下输出：优化
```
IntSummaryStatistics{count=9, sum=4300, min=120, 
average=477.777778, max=800}
```
一样，相应的summarizingLong和summarizingDouble工厂方法有相关的LongSummaryStatistics和DoubleSummaryStatistics类型。ui

3.链接字符串

joining工厂方法返回的收集器会把对流中每个对象应用toString方法获得的全部字符串链接成一个字符串。

String shortMenu = menu.stream().map(Dish::getName).collect(joining());

joining工厂方法有一个重载版本能够接受元素之间的分界符

String shortMenu = menu.stream().map(Dish::getName).collect(joining(", "));

4.广义的归约汇总

能够用reducing方法建立的收集器来计算你菜单的总热量，以下所示：

int totalCalories = menu.stream().collect(reducing( 
 0, Dish::getCalories, (i, j) -> i + j));

第一个参数是归约操做的起始值。
第二个参数将菜肴转换成一个表示其所含热量的int。
第三个参数是一个BinaryOperator，将两个项目累积成一个同类型的值。这里它就是对两个int求和。

单参数形式的reducing来找到热量最高的菜，以下所示：

Optional<Dish> mostCalorieDish = 
 menu.stream().collect(reducing( 
 (d1, d2) -> d1.getCalories() > d2.getCalories() ? d1 : d2));

相比stream的reduce方法collect方法特别适合表达可变容器上的归约，更关键的是它适合并行操做

计算菜单里全部菜肴的卡路里总和，以不一样的方法执行一样的操做:

第一种：

int totalCalories = menu.stream().collect(reducing(0, 
 Dish::getCalories,
 Integer::sum));

第二种：

int totalCalories = 
  menu.stream().map(Dish::getCalories).reduce(Integer::sum).get();//reduce返回的是Optional

第三种:

int totalCalories = menu.stream().mapToInt(Dish::getCalories).sum();

最后一种最佳。

3、分组

假设你要把菜单中的菜按照类型进行分类，有肉的放一组，有鱼的放一组，其余的都放另外一组。用Collectors.groupingBy工厂方法返回的收集器就能够轻松地完成这项任务，以下所示：

Map<Dish.Type, List<Dish>> dishesByType = 
 menu.stream().collect(groupingBy(Dish::getType));

其结果是下面的Map：

{FISH=[prawns, salmon], OTHER=[french fries, rice, season fruit, pizza], 
MEAT=[pork, beef, chicken]}

给groupingBy方法传递了一个Function（以方法引用的形式），它提取了流中每一道Dish的Dish.Type。咱们把这个Function叫做 分类函数

若是Dish中没有定义类型获取方法，可使用lambda表达式：

public enum CaloricLevel { DIET, NORMAL, FAT } 

Map<CaloricLevel, List<Dish>> dishesByCaloricLevel = menu.stream().collect( 
 groupingBy(dish -> { 
 if (dish.getCalories() <= 400) return CaloricLevel.DIET; 
 else if (dish.getCalories() <= 700) return 
 CaloricLevel.NORMAL; 
 else return CaloricLevel.FAT; 
 } ));

1.多级分组

使用一个由双参数版本的Collectors.groupingBy工厂方法建立的收集器，它除了普通的分类函数以外，还能够接受collector类型的第二个参数:

Map<Dish.Type, Map<CaloricLevel, List<Dish>>> dishesByTypeCaloricLevel = 
menu.stream().collect( 
 groupingBy(Dish::getType, 
 groupingBy(dish -> { 
 if (dish.getCalories() <= 400) return CaloricLevel.DIET; 
 else if (dish.getCalories() <= 700) return CaloricLevel.NORMAL; 
 else return CaloricLevel.FAT; 
 } ) 
 ) 
);

这种多级分组操做能够扩展至任意层级，n级分组就会获得一个表明n级树形结构的n级Map

2.按子组收集数据

传递给第一个groupingBy的第二个收集器能够是任何类型，而不必定是另外一groupingBy

Map<Dish.Type, Long> typesCount = menu.stream().collect( 
 groupingBy(Dish::getType, counting()));

其结果是下面的Map：

{MEAT=3, FISH=2, OTHER=4}

普通的单参数groupingBy(f)（其中f是分类函数）其实是 groupingBy(f, toList())的简便写法。

把收集器的结果转换为另外一种类型
查找每一个子组中热量最高的Dish

Map<Dish.Type, Dish> mostCaloricByType = 
menu.stream() 
.collect(groupingBy(Dish::getType,
collectingAndThen( 
maxBy(comparingInt(Dish::getCalories)), //maxBy工厂方法生成的收集器的类型是Optional
Optional::get)));

包装的Optional没什么用，把收集器返回的结果转换为另外一种类型，你可使用 Collectors.collectingAndThen工厂方法；返回的收集器groupingBy收集器只有在应用分组条件后，第一次在流中找到某个键对应的元素时才会把键加入分组Map中,因此Optional::get这个操做放在这里是安全的，由于reducing收集器永远都不会返回Optional.empty()

与groupingBy联合使用的其余收集器的例子

Map<Dish.Type, Integer> totalCaloriesByType = 
menu.stream().collect(groupingBy(Dish::getType, 
summingInt(Dish::getCalories)));

对于每种类型的Dish，菜单中都有哪些CaloricLevel。咱们能够把groupingBy和mapping收集器结合起来，以下所示：

Map<Dish.Type, Set<CaloricLevel>> caloricLevelsByType = 
menu.stream().collect( 
groupingBy(Dish::getType, mapping( 
dish -> { 
if (dish.getCalories() <= 400) return CaloricLevel.DIET; 
else if (dish.getCalories() <= 700) return CaloricLevel.NORMAL; 
else return CaloricLevel.FAT;
}, 
toSet() )));//生成的CaloricLevel流传递给一个toSet收集器，
//它和toList相似，不过是把流中的元素累积到一个Set而不是List中，以便仅保留各不相同的值。

但经过使用toCollection，你就能够有更多的控制。例如，你能够给它传递一个构造函数引用来要求HashSet:

Map<Dish.Type, Set<CaloricLevel>> caloricLevelsByType = 
menu.stream().collect( 
groupingBy(Dish::getType, mapping( 
dish -> { if (dish.getCalories() <= 400) return CaloricLevel.DIET; 
else if (dish.getCalories() <= 700) return CaloricLevel.NORMAL; 
else return CaloricLevel.FAT; }, 
toCollection(HashSet::new) )));

4、分区

1.分区的优点

分区是分组的特殊状况：由一个谓词（返回一个布尔值的函数）做为分类函数，它称分区函数。分区函数返回一个布尔值，这意味着获得的分组Map的键类型是Boolean，因而它最多能够分为两组——true是一组，false是一组。例如，若是你是素食者或是请了一位素食的朋友来共进晚餐，可能会想要把菜单按照素食和非素食分开：

Map<Boolean, List<Dish>> partitionedMenu = 
 menu.stream().collect(partitioningBy(Dish::isVegetarian));

计算素食和非素食的数量：

menu.stream().collect(partitioningBy(Dish::isVegetarian,
 counting()));

2.将数字按质数和非质数分区

public boolean isPrime(int candidate) { 
 int candidateRoot = (int) Math.sqrt((double) candidate); 
 return IntStream.rangeClosed(2, candidateRoot) 
 .noneMatch(i -> candidate % i == 0); 
}

public Map<Boolean, List<Integer>> partitionPrimes(int n) { 
 return IntStream.rangeClosed(2, n).boxed() 
 .collect( 
 partitioningBy(candidate -> isPrime(candidate))); 
}

Collectors类的静态工厂方法:

5、收集器接口

public interface Collector<T, A, R> { 
 Supplier<A> supplier(); 
 BiConsumer<A, T> accumulator(); 
 Function<A, R> finisher(); 
 BinaryOperator<A> combiner(); 
 Set<Characteristics> characteristics(); 
}

T是流中要收集的项目的泛型。
A是累加器的类型，累加器是在收集过程当中用于累积部分结果的对象。
R是收集操做获得的对象（一般但并不必定是集合）的类型。

例如，你能够实现一个ToListCollector<T>类，将Stream<T>中的全部元素收集List<T>里，它的签名以下：

public class ToListCollector<T> implements Collector<T, List<T>, List<T>>

1.理解 Collector 接口声明的方法

(1)创建新的结果容器：supplier方法

在调用时它会建立一个空的累加器实例，供数据收集过程使用

public Supplier<List<T>> supplier() { 
 return () -> new ArrayList<T>(); 
}

或者使用构造函数引用;

public Supplier<List<T>> supplier() { 
 return ArrayList::new; 
}

(2)将元素添加到结果容器：accumulator方法

accumulator方法会返回执行归约操做的函数。当遍历到流中第n个元素时，这个函数执行时会有两个参数：保存归约结果的累加器（已收集了流中的前 n1 个项目），还有第n个元素自己。该函数将返回void，由于累加器是原位更新，即函数的执行改变了它的内部状态以体现遍历的元素的效果。对于ToListCollector，这个函数仅仅会把当前项目添加至已经遍历过的项目的列表：

public BiConsumer<List<T>, T> accumulator() { 
 return (list, item) -> list.add(item); 
}

你也可使用方法引用，这会更为简洁：

public BiConsumer<List<T>, T> accumulator() { 
 return List::add; 
}

(3)对结果容器应用最终转换：finisher方法

在遍历完流后，finisher方法必须返回在累积过程的最后要调用的一个函数，以便将累加器对象转换为整个集合操做的最终结果。

public Function<List<T>, List<T>> finisher() { 
 return Function.identity(); //累加器对象刚好符合预期的最终结果，
//所以无需进行转换。因此finisher方法只需返回identity函数
}

(4) 合并两个结果容器：combiner方法

combiner方法会返回一个供归约操做使用的函数，它定义了对流的各个子部分进行并行处理时，各个子部分归约所得的累加器要如何合并。

public BinaryOperator<List<T>> combiner() { 
 return (list1, list2) -> { 
 list1.addAll(list2); 
 return list1; } 
}

有了这第四个方法，就能够对流进行并行归约了,会用到Java 7中引入的Fork/Join框架和Spliterator抽象

Fork/Join是什么？
Fork/Join框架是Java7提供的并行执行任务框架，思想是将大任务分解成小任务，而后小任务又能够继续分解，而后每一个小任务分别计算出结果再合并起来，最后将汇总的结果做为大任务结果。其思想和MapReduce的思想很是相似。对于任务的分割，要求各个子任务之间相互独立，可以并行独立地执行任务，互相之间不影响。

Fork/Join的运行流程图以下：

咱们能够经过Fork/Join单词字面上的意思去理解这个框架。Fork是叉子分叉的意思，即将大任务分解成并行的小任务，Join是链接结合的意思，即将全部并行的小任务的执行结果汇总起来。

工做窃取算法
ForkJoin采用了工做窃取（work-stealing）算法，若一个工做线程的任务队列为空没有任务执行时，便从其余工做线程中获取任务主动执行。为了实现工做窃取，在工做线程中维护了双端队列，窃取任务线程从队尾获取任务，被窃取任务线程从队头获取任务。这种机制充分利用线程进行并行计算，减小了线程竞争。可是当队列中只存在一个任务了时，两个线程去取反而会形成资源浪费。

工做窃取的运行流程图以下：

Fork/Join核心类
1.ForkJoinPool
ForkJoinPool是ForkJoin框架中的任务调度器，和ThreadPoolExecutor同样实现了本身的线程池，提供了三种调度子任务的方法：
execute：异步执行指定任务，无返回结果；
invoke、invokeAll：同步执行指定任务，等待完成才返回结果；
submit：异步执行指定任务，并当即返回一个Future对象；
2.ForkJoinTask
Fork/Join框架中的实际的执行任务类，有如下两种实现，通常继承这两种实现类便可。
RecursiveAction：用于无结果返回的子任务；
RecursiveTask：用于有结果返回的子任务；
Fork/Join框架实战
下面实现一个Fork/Join小例子，从1+2+...10亿，每一个任务只能处理1000个数相加，超过1000个的自动分解成小任务并行处理；并展现了经过不使用Fork/Join和使用时的时间损耗对比。
import java.util.concurrent.ForkJoinPool;
import java.util.concurrent.RecursiveTask;

public class ForkJoinTask extends RecursiveTask<Long> {
   private static final long MAX = 1000000000L;
   private static final long THRESHOLD = 1000L;
   private long start;
   private long end;

   public ForkJoinTask(long start, long end) {
       this.start = start;
       this.end = end;
   }

   public static void main(String[] args) {
       test();
       System.out.println("--------------------");
       testForkJoin();
   }

   private static void test() {
       System.out.println("test");
       long start = System.currentTimeMillis();
       Long sum = 0L;
       for (long i = 0L; i <= MAX; i++) {
           sum += i;
       }
       System.out.println(sum);
       System.out.println(System.currentTimeMillis() - start + "ms");
   }

   private static void testForkJoin() {
       System.out.println("testForkJoin");
       long start = System.currentTimeMillis();
       ForkJoinPool forkJoinPool = new ForkJoinPool();
       Long sum = forkJoinPool.invoke(new ForkJoinTask(1, MAX));
       System.out.println(sum);
       System.out.println(System.currentTimeMillis() - start + "ms");
   }

   @Override
   protected Long compute() {
       long sum = 0;
       if (end - start <= THRESHOLD) {
           for (long i = start; i <= end; i++) {
               sum += i;
           }
           return sum;
       } else {
           long mid = (start + end) / 2;

           ForkJoinTask task1 = new ForkJoinTask(start, mid);
           task1.fork();

           ForkJoinTask task2 = new ForkJoinTask(mid + 1, end);
           task2.fork();

           return task1.join() + task2.join();
       }
   }

}
这里须要计算结果，因此任务继承的是RecursiveTask类。ForkJoinTask须要实现compute方法，在这个方法里首先须要判断任务是否小于等于阈值1000，若是是就直接执行任务。不然分割成两个子任务，每一个子任务在调用fork方法时，又会进入compute方法，看看当前子任务是否须要继续分割成孙任务，若是不须要继续分割，则执行当前子任务并返回结果。使用join方法会阻塞并等待子任务执行完并获得其结果。

程序输出：
test
500000000500000000
4992ms
--------------------
testForkJoin
500000000500000000
508ms
须要特别注意的是：

ForkJoinPool 使用submit 或 invoke 提交的区别：invoke是同步执行，调用以后须要等待任务完成，才能执行后面的代码；submit是异步执行，只有在Future调用get的时候会阻塞。
这里继承的是RecursiveTask，还能够继承RecursiveAction。前者适用于有返回值的场景，然后者适合于没有返回值的场景
这一点是最容易忽略的地方，其实这里执行子任务调用fork方法并非最佳的选择，最佳的选择是invokeAll方法。
leftTask.fork();  
rightTask.fork();
替换为
invokeAll(leftTask, rightTask);
具体说一下原理：对于Fork/Join模式，假如Pool里面线程数量是固定的，那么调用子任务的fork方法至关于A先分工给B，而后A当监工不干活，B去完成A交代的任务。因此上面的模式至关于浪费了一个线程。那么若是使用invokeAll至关于A分工给B后，A和B都去完成工做。这样能够更好的利用线程池，缩短执行的时间。

(5) characteristics方法

返回一个不可变的Characteristics集合，它定义了收集器的行为——尤为是关于流是否能够并行归约，以及可使用哪些优化的提示。
Characteristics是一个包含三个项目的枚举。

UNORDERED——归约结果不受流中项目的遍历和累积顺序的影响。
CONCURRENT——accumulator函数能够从多个线程同时调用，且该收集器能够并行归约流。若是收集器没有标为UNORDERED，那它仅在用于无序数据源时才能够并行归约。
IDENTITY_FINISH——这代表完成器方法返回的函数是一个恒等函数，能够跳过。这种状况下，累加器对象将会直接用做归约过程的最终结果。这也意味着，将累加器A不加检查地转换为结果R是安全的。

@Override 
 public Set<Characteristics> characteristics() { 
 return Collections.unmodifiableSet(EnumSet.of( 
 IDENTITY_FINISH, CONCURRENT));
 }

2.进行自定义收集而不去实现Collector

Stream有一个重载的collect方法能够接受另外三个函数——supplier、accumulator和combiner，其语义和Collector接口的相应方法返回的函数彻底相同。

List<Dish> dishes = menuStream.collect( 
 ArrayList::new,
 List::add,
 List::addAll);//它永远都是一个IDENTITY_FINISH和CONCURRENT但并不是UNORDERED的收集器。

《java 8 实战》读书笔记 -第六章 用流收集数据