'pyspark' 태그의 글 목록

본문 바로가기

pyspark

[Spark] SQL - 두 컬럼을 병합하여 새로운 Dataframe 만들기 이전 글에서 list 형태로 저장되어있는 데이터를 각각의 row들로 분리하여 두 컬럼을 추출하는 것까지 진행하였다. 다음 순서로 두 컬럼을 이어붙여 아래와 같은 Dataframe을 생성하려고 했으나 pandas의 concat 역할을 수행하는 pyspark의 함수를 찾을 수 없었다. 단순히 join으로는 두 컬럼을 가로로 붙일 수 없다. 대안 두 데이터 프레임에 monotonically_increasing_id() 를 이용하여 id를 부여한다. id를 기준으로 left join 한다. id를 삭제한다. df1 = df1 .withColumn("id", monotonically_increasing_id()) df2 = df2 .withColumn("id", monotonically_increasing_id(.. 더보기

[Spark] SQL - explode()를 사용하여 list 형태의 Row 분리하기 원본 데이터셋은 위와 같이 되어있으며 여기서 Brand와 Product 칼럼을 추출하고자 하였다. 하지만 select 결과 아래와 같이 Row들이 list형태로 들어가있었다. > df.select(df.Brand, df.Product) +--------------------+--------------------+ | Brand| Product| +--------------------+--------------------+ |[LO, LO, LO, Non-...|[AirPods Pro, Air...| +--------------------+--------------------+ pyspark.sql.functions.explode explode함수는 주어진 배열 또는 맵의 각 요소에 대해 새 행을 반환한다.. 더보기

이전 1 다음

티스토리툴바