본문 바로가기

[PySpark Documentation/API Reference] Spark SQL

Core Classes

pyspark.sql.SparkSession

The entry point to programming Spark with the Dataset and DataFrame API.

-> pyspark 사용 시 스파크 세션을 할당해야 spark 프로그래밍을 시작할 수 있음

pyspark.sql.Catalog

User-facing catalog API, accessible through SparkSession.catalog.

pyspark.sql.DataFrame

A distributed collection of data grouped into named columns.

pyspark.sql.Column

A column in a DataFrame.

pyspark.sql.Observation

Class to observe (named) metrics on a DataFrame.

원하는 count, max 등 기본 api를 이용해 나만의 metirc을 정의할 수 있고 한꺼번에 얻을 수 있도록 도와주는 듯?

metric pipeline 같은 느낌.. 

pyspark.sql.Row

pyspark.sql.GroupedData

pyspark.sql.PandasCogroupedOps

pyspark.sql.DataFrameNaFunctions

pyspark.sql.DataFrameStatFunctions

pyspark.sql.Window

pyspark.sql.DataFrameReader

pyspark.sql.DataFrameWriter

Spark Session

Configuration

Input/Output

DataFrame

Column

Data Types

Row

Functions

Window

Grouping

Catalog

Observation

Avro

'Spark & Hadoop' 카테고리의 다른 글

[SparkByExamples] Pyspark Tutorial  (0) 2022.11.04