paint-brush
SQL 창 함수 이해를 위한 초보자 가이드 - 2부by@yonatansali
13,910
13,910

SQL 창 함수 이해를 위한 초보자 가이드 - 2부

Yonatan Sali8m2024/01/20
Read on Terminal Reader

좀 더 고급 SQL 개념을 살펴보겠습니다. 언뜻 보면 다소 복잡하게 들릴 수도 있지만, 가능한 모든 경우에 대해 초보자에게 적합한 간단한 예를 제공할 것이므로 드리프트를 쉽게 잡을 수 있을 것입니다.
featured image - SQL 창 함수 이해를 위한 초보자 가이드 - 2부
Yonatan Sali HackerNoon profile picture

에서 이전 기사 , 우리는 다양한 분석 문제를 해결하기 위한 훌륭한 도구인 창 기능에 대해 이야기했습니다. 복잡한 쿼리를 작성할 필요 없이 고급 분석 및 데이터 조작과 같은 기능에 액세스할 수 있습니다. 계속 읽기 전에 첫 번째 부분부터 시작하는 것이 좋습니다. SQL에서 창 함수가 작동하는 방식에 대한 기본 아이디어를 파악하는 데 도움이 되기 때문입니다.


이제 기본 사항에 익숙해졌으므로 고급 SQL 개념을 살펴보겠습니다. 언뜻 보면 다소 복잡하게 들릴 수도 있지만, 가능한 모든 경우에 대해 초보자에게 적합한 간단한 예를 제공할 것이므로 드리프트를 쉽게 잡을 수 있을 것입니다.


콘텐츠 개요

  • Cumulative Sum
  • Ranking Window Functions
  • Use cases
  • Offset window functions
  • Key Takeaways

누적 합계

우리는 이미 over() 표현식에 매개변수가 없거나 매개변수별로 분할된 예를 고려했습니다. 이제 over() 표현식에 사용할 수 있는 두 번째 매개변수인 order by를 살펴보겠습니다.


직원 ID, 직원 이름, 부서, 급여 및 모든 급여 합계를 요청해 보겠습니다.

 select employee_id, employee_name, department, salary, sum(salary) over() from salary 



이제 over() 표현식에 매개변수별로 order by를 추가하겠습니다.

 select employee_id, employee_name, department, salary, sum(salary) over(order by employee_id desc) from salary 



여기서 무슨 일이 일어났는지 좀 더 자세히 살펴봐야 할 것 같습니다.


  1. 우선, Employee_id가 이제 내림차순으로 정렬됩니다.


  2. 창 기능을 적용한 결과 열에는 이제 누적 합계가 있습니다.


나는 당신이 누적 합계에 대해 잘 알고 있다고 믿습니다. 그 본질은 간단합니다. 누적 합계 또는 누계는 "지금까지 얼마"를 의미합니다. 누적합의 정의는 더 많은 추가로 증가하거나 커지는 주어진 수열의 합입니다.


예에서 얻은 내용은 다음과 같습니다. Employee_id 값이 가장 높은 직원의 급여는 3700이고 누적 합계도 3700입니다. 두 번째 직원의 급여는 1500이고 누적 합계는 5200입니다. 세 번째 직원 , 급여가 2900이면 누적 합계가 8100이 되는 식입니다.


over() 표현식의 order by 매개변수는 순서를 지정합니다. 창 함수를 집계하는 경우 누적 합계의 순서를 결정합니다.


over() 표현식에서는 partition by 및 order by 속성을 모두 지정할 수 있습니다.

 select employee_id, employee_name, department, salary, sum(salary) over(partition by department order by employee_id desc) from salary 



이 경우 누적 합계는 구간별로 계산됩니다.


주의! over() 표현식에 두 속성이 모두 지정되면 파티션 by가 항상 먼저 오고 그 뒤에 by 순서가 옵니다. 예: over(부서별 파티션 순서, 직원 ID별) .


누적 합계에 대해 논의한 후에는 아마도 이것이 자주 사용되는 유일한 유형의 누적 합계일 것이라고 말할 필요가 있습니다. 반대로 누적 평균과 누적 개수는 거의 사용되지 않습니다.


그럼에도 불구하고 우리는 누적 평균 계산의 예를 제시할 것입니다. 이는 특정 지점까지 일련의 값의 평균을 알려줍니다.

 select employee_id, employee_name, department, salary, avg(salary) over(order by employee_id desc) from salary 



순위창 기능

우리는 순위 창 기능을 사용하여 값 집합 내에서 값의 위치를 결정합니다. OVER 절 내의 ORDER BY 표현식은 순위 기준을 지정하며 각 값에는 지정된 파티션 내에서 순위가 할당됩니다. 행이 순위 기준에 대해 동일한 값을 공유하는 경우 동일한 순위가 할당됩니다.


순위 창 기능이 어떻게 작동하는지 확인하기 위해 급여 테이블에서 직원 ID, 직원 이름, 부서 및 급여 열을 요청해 보겠습니다.

 select employee_id, employee_name, department, salary from salary 


이제 창 함수 row_number() over() 를 사용하여 열을 하나 더 추가합니다.

 select employee_id, employee_name, department, salary, row_number() over() from salary 



창 함수 row_number() over()는 순서를 변경하지 않고 행에 번호를 할당했습니다. 지금까지는 이것이 우리에게 큰 가치를 가져다주지 않았습니다. 그렇죠?


하지만 급여 내림차순으로 행에 번호를 매기고 싶다면 어떻게 해야 할까요? 이를 달성하려면 정렬 순서를 지정해야 합니다. 즉, 매개변수별 순서를 over() 표현식에 전달해야 합니다.

 select employee_id, employee_name, department, salary, row_number() over(order by salary desc) from salary 


비교를 위해 쿼리에 나머지 순위 함수를 추가하겠습니다.

 select employee_id, employee_name, department, salary, row_number() over(order by salary desc), rank() over(order by salary desc), dense_rank() over(order by salary desc), percent_rank() over(order by salary desc), ntile(5) over(order by salary desc) from salary


각 순위 창 기능을 살펴보겠습니다.


  1. 창 함수 row_number() over(order by 급여 설명)은 급여의 내림차순으로 행 순위를 지정하고 행 번호를 할당합니다. Annie와 Tony는 급여는 같지만 번호가 다릅니다.


  2. 창 함수 Rank() over(order by 급여 desc )는 급여의 내림차순으로 순위를 할당합니다. 동일한 값에 대해 동일한 순위를 할당하지만 다음 값에는 새 행 번호가 부여됩니다.


  3. 창 함수 density_rank() over(order by 급여 desc)는 급여의 내림차순으로 순위를 할당합니다. 동일한 값에 대해 동일한 순위를 할당합니다.


  4. 창 함수 Percent_rank() over(order by 급여 desc) 는 현재 행의 상대(백분율) 순위이며, 공식: (순위 - 1) / (파티션의 총 행 수 - 1)으로 계산됩니다.


  5. 창 함수 ntile(5) over(order by 급여 desc)는 행 수를 5개의 동일한 부분으로 나누고 각 부분에 숫자를 할당합니다. 부품 수는 ntile(5) 함수 내에서 지정됩니다.


주의! 집계 함수(예: sum(salary))와 달리 순위 함수(예: row_number())는 내부에 열을 사용하지 않습니다. 그러나 ntile(5) 함수에서는 부품 수가 지정됩니다.

사용 사례

순위 창 기능을 활용하여 실용적인 작업을 살펴보는 시간입니다. 사원 ID, 사원 이름, 부서, 급여를 표시하고 급여 내림차순으로 행 번호를 할당하겠습니다.

 select employee_id, employee_name, department, salary, row_number() over(order by salary desc) from salary 



경우에 따라 부서(섹션) 내에서 급여 내림차순으로 행 번호를 매겨야 할 수도 있습니다. 이는 over() 표현식에 속성별 파티션을 추가하여 수행할 수 있습니다.

 select employee_id, employee_name, department, salary, row_number() over(partition by department order by salary desc) from salary 


작업을 더욱 어렵게 만들어 보겠습니다. 부서당 급여가 가장 높은 직원을 한 명만 유지해야 합니다. 이는 하위 쿼리를 사용하여 수행할 수 있습니다.

 select * from ( select employee_id, employee_name, department, salary, row_number() over(partition by department order by salary desc) as rn from salary ) as t2 where rn = 1 


그리고 한 가지 더 예를 들어, 각 도시에서 급여가 가장 높은 직원 3명을 표시해야 하는 경우 다음을 수행합니다.

 select * from ( select employee_id, employee_name, city, salary, row_number() over(partition by city order by salary desc) as rn from salary ) as t2 where rn <= 3 



이러한 종류의 작업은 특히 일부 속성의 오름차순 또는 내림차순으로 섹션(그룹) 내의 특정 행 수를 표시해야 하는 경우 매우 일반적입니다. 실제로 나는 창 함수 row_number() over() 를 일관되게 사용하고, 물론 dark_rank() over() 도 사용합니다.

오프셋 창 기능

이러한 함수를 사용하면 현재 행에서 떨어진 거리를 기준으로 다른 행의 데이터를 반환할 수 있습니다. 좀 더 시각적으로 만들기 위해 first_value(), last_value() 및 nth_value() 함수를 살펴보겠습니다.

 select t1.*, first_value(salary)over(partition by department), last_value(salary)over(partition by department), nth_value(salary,2)over(partition by department) from salary as t1 order by department 


주의! 세 가지 창 기능 모두에서 필수적인 매개변수로 파티션을 지정합니다. 매개변수별 순서는 필수는 아니지만 이를 지정하여 파티션 내의 행 순서를 변경할 수 있습니다. 예를 들어 아래 쿼리에서는 섹션(부서) 내에서 급여를 기준으로 정렬했는데 이제 first_value가 해당 섹션에서 가장 높은 급여가 됩니다.

 select t1.*, first_value(salary)over(partition by department order by salary decs), last_value(salary)over(partition by department order by salary decs), nth_value(salary,2)over(partition by department order by salary decs) from salary as t1 order by department


first_value(salary) over(부서별 파티션)last_value(salary) over(부서별 파티션) 함수는 섹션(부서) 내의 첫 번째 및 마지막 급여 값을 표시합니다.


그리고 nth_value(salary, 2) over(partition by 부서) 함수는 섹션(department) 내의 두 번째 급여 값을 표시합니다. nth_value() 에는 섹션 내의 행 번호라는 추가 인수가 지정됩니다. 우리의 경우 행 번호는 2이므로 함수는 두 번째 급여 값을 표시합니다.


위의 함수 외에도 lag()Lead() 함수도 있습니다. lag() 함수는 현재 행 앞에 있는 행에서 값을 가져오는 데 사용됩니다. Lead() 함수는 현재 행의 다음 행에서 값을 가져오는 데 사용됩니다.

 select t1.*, lag(salary)over(order by salary), lead(salary)over(order by salary) from salary as t1 


보시다시피, lag (salary) over (order by Salary) 함수는 급여를 한 행 아래로 이동시키고, Lead(salary) over(order by Salary) 함수는 급여를 한 행 위로 이동합니다. 이 함수들은 상당히 비슷하지만 lag() 를 사용하는 것이 더 편리하다고 생각합니다.

주의! 이러한 함수의 경우 over() 표현식에서 매개변수별로 순서를 지정하는 것이 필수입니다. partition by를 사용하여 분할을 지정할 수도 있지만 필수는 아닙니다.

 select t1.*, lag(salary)over(partition by department order by salary) from salary as t1 order by department 


여기서 lag()는 이전과 동일한 기능을 수행하지만 이제는 특히 섹션(부서) 내에서 수행됩니다.


주요 시사점

마지막으로 오늘 다룬 내용에 대한 간략한 개요는 다음과 같습니다.


  • 누적 합계는 각 후속 추가로 누적되는 시퀀스의 누계를 나타냅니다.


  • 순위 창 함수는 순위 기준을 지정하는 표현식별 순서를 사용하여 값 집합 내에서 값의 위치를 결정하는 데 사용됩니다.


  • 오프셋 창 함수에는 first_value() , last_value()nth_value() 가 포함되어 현재 행과의 거리에 따라 다른 행에서 데이터를 검색할 수 있습니다. lag()Lead() 함수를 잊지 마세요. lag() 함수는 현재 행 앞에 있는 행에서 값을 가져오는 데 유용할 수 있으며, Lead() 함수는 현재 행 뒤의 행에서 값을 가져오는 데 사용됩니다.


참여해 주셔서 감사합니다. 이 기사가 SQL의 창 기능을 더 잘 이해하고 일상적인 작업을 더욱 자신감 있고 빠르게 수행하는 데 도움이 되기를 바랍니다.