实验特点 - 《Flink 中文文档 - 帮助手册 - 教程》

将预分区数据流重新解释为被Key化的数据流

译者：flink.sojb.cn

本节介绍DataStream API中的实验性函数。实验性函数仍在不断发展，可能不稳定，不完整，或者在未来版本中会发生重大变化。

将预分区数据流重新解释为被Key化的数据流

我们可以将预分区数据流重新解释为被Key化的数据流，以避免混乱。

警告：重新解释的数据流必须已经在预先划分的确切地以同样的方式Flink的keyBy将在洗牌WRT键组分配分区中的数据。

一个用例可能是两个作业之间的物化混乱：第一个作业执行keyBy shuffle并将每个输出实现为一个分区。第二个作业的来源是，对于每个并行实例，从第一个作业创建的相应分区中读取。现在可以将这些源重新解释为被Key化的数据流，例如应用窗口。请注意，这个技巧使第二个作业难以平行，这对于细粒度的恢复方案很有帮助。

这种重新解释函数通过DataStreamUtils以下方式公开：

 static <T, K> KeyedStream<T, K> reinterpretAsKeyedStream(
        DataStream<T> stream,
        KeySelector<T, K> keySelector,
        TypeInformation<K> typeInfo)

给定基本流，Keys选择器和类型信息，该方法从基本流创建Keys流。

代码示例：

 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStreamSource<Integer> source = ...
        DataStreamUtils.reinterpretAsKeyedStream(source, (in) -> in, TypeInformation.of(Integer.class))
            .timeWindow(Time.seconds(1))
            .reduce((a, b) -> a + b)
            .addSink(new DiscardingSink<>());
        env.execute();

 val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    val source = ...
    new DataStreamUtils(source).reinterpretAsKeyedStream((in) => in)
      .timeWindow(Time.seconds(1))
      .reduce((a, b) => a + b)
      .addSink(new DiscardingSink[Int])
    env.execute()