Spark sql的批处理物理计划BatchScanExec有什么用-云计算-互联网-天达云

Spark sql的批处理物理计划BatchScanExec有什么用
更新：HHH 时间：2023-1-7

这篇文章将为大家详细讲解有关Spark sql的批处理物理计划BatchScanExec有什么用，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

BatchScanExec是batch类的物理计划，对应的逻辑计划是DataSourceV2Relation，是Datasource。

它的入参是Scan类，Scan类有两个重要方法，一个获取分区列表信息；另一个方法获取读取器工厂。

override lazy val partitions: Seq[InputPartition] = batch.planInputPartitions()
  override lazy val readerFactory: PartitionReaderFactory = batch.createReaderFactory()
  override lazy val inputRDD: RDD[InternalRow] = {
    new DataSourceRDD(sparkContext, partitions, readerFactory, supportsColumnar)
  }

planInputPartitions方法获取分区列表；createReaderFactory获取分区读取者工厂，这两者决定一个DataSourceRDD来作为inputRDD对象。

对于传统的DataSource类，只要实现对应数据源的Scan子类就可以使用了。

而StreamingDataSourceV2Relation对应的物理计划是MicroBatchScanExec和ContinuousScanExec，这时候Scan就不用了，而使用MicroBatchStream和ContinuousStream两个流的定义类。

关于“Spark sql的批处理物理计划BatchScanExec有什么用”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。


返回云计算教程...

新手上路

产品管理

支付方式

关于我们