본문 바로가기

[PySpark Documentation/API Reference] Spark SQL

뢀뢀이 2022. 10. 23. 18:43

Core Classes

pyspark.sql.SparkSession

The entry point to programming Spark with the Dataset and DataFrame API.

-> pyspark 사용 시 스파크 세션을 할당해야 spark 프로그래밍을 시작할 수 있음

pyspark.sql.Catalog

User-facing catalog API, accessible through SparkSession.catalog.

카탈로그
- 메타스토어에 접근하기 위한 인터페이스
  - 메타스토어: 메타정보를 보관하고 사용자의 요청에 따라 관련 정보를 제공하는 곳
    (출처: https://wikidocs.net/28353 )
- 즉, 데이터베이스, 로컬 및 외부 테이블, 함수, 테이블 컬럼, 임시 뷰의 데이터 목록
  (출처: https://mallikarjuna_g.gitbooks.io/spark/content/spark-sql-Catalog.html#contract )
- 테이블, 데이터베이스 리스팅 하는 데 사용
  - 사용 예시

pyspark.sql.DataFrame

A distributed collection of data grouped into named columns.

pyspark.sql.Column

A column in a DataFrame.

pyspark.sql.Observation

Class to observe (named) metrics on a DataFrame.

원하는 count, max 등 기본 api를 이용해 나만의 metirc을 정의할 수 있고 한꺼번에 얻을 수 있도록 도와주는 듯?

metric pipeline 같은 느낌..

pyspark.sql.Row

pyspark.sql.GroupedData

pyspark.sql.PandasCogroupedOps

pyspark.sql.DataFrameNaFunctions

pyspark.sql.DataFrameStatFunctions

pyspark.sql.Window

pyspark.sql.DataFrameReader

pyspark.sql.DataFrameWriter

Spark Session

pyspark.sql.conf.RuntimeConfig

pyspark.sql.Row.asDict

pyspark.sql.Observation.get

저작자표시 변경금지

'Spark & Hadoop' 카테고리의 다른 글

[SparkByExamples] Pyspark Tutorial (0)	2022.11.04

티스토리툴바