[WIP][SPARK-50298][CONNECT] Implement verifySchema parameter of createDataFrame in Spark Connect #48841

xinrong-meng · 2024-11-14T09:44:39Z

The PR targets at Spark Connect only. Spark Classic has been handled in #48677.

verifySchema parameter of createDataFrame on Spark Classic decides whether to verify data types of every row against schema.

Now it's not supported on Spark Connect.

The PR proposes to support verifySchema on Spark Connect.

By default, verifySchema parameter is pyspark._NoValue, if not provided, createDataFrame with

pyarrow.Table, verifySchema = False
pandas.DataFrame with Arrow optimization, verifySchema = spark.sql.execution.pandas.convertToArrowArraySafely
regular Python instances, verifySchema = True

numpy ndarray input will be supported in a separate PR.

Parity with Spark Classic.

verifySchema on Connect

a211003

github-actions bot added SQL PYTHON CONNECT labels Nov 14, 2024

fix; test

d524d1f

Provide feedback