paint-brush
비즈니스 인텔리전스용 AI로 데이터 준비 향상~에 의해@cleanlab
618 판독값
618 판독값

비즈니스 인텔리전스용 AI로 데이터 준비 향상

~에 의해 Cleanlab6m2023/11/07
Read on Terminal Reader

너무 오래; 읽다

이 기사에서는 데이터 분석 및 비즈니스 인텔리전스 분야의 데이터 팀이 비즈니스 사용자에게 필요한 솔루션을 구축하고 데이터 인프라를 구축하는 엔지니어링 팀과 협력하는 방법에 대해 설명합니다. 이러한 솔루션을 구축하는 분석가는 다양한 소스에서 데이터를 준비해야 하며, 데이터 준비 도구를 통해 수행되는 쿼리를 위해 데이터가 삭제되었는지 확인해야 합니다. 데이터 중심 AI 방식은 데이터 단계 정리를 자동화하여 최소한의 노력으로 더 깔끔한 버전의 데이터 세트를 내보낼 수 있습니다. 또한 이 기사에서는 효과적인 데이터 분석을 위해 데이터 품질을 유지하는 것이 어떻게 중요한지, 그리고 데이터 중심 AI가 AI 시스템을 구축하는 데 사용되는 데이터를 체계적으로 엔지니어링하는 방식에 대해 설명합니다.
featured image - 비즈니스 인텔리전스용 AI로 데이터 준비 향상
Cleanlab HackerNoon profile picture
0-item
1-item
2-item

데이터 분석 및 비즈니스 인텔리전스의 세계에서 비즈니스 사용자(빨간색)에게 필요한 솔루션을 구축하고 엔지니어링 팀(파란색)과 협력하는 " 보라색 팀 "이라고도 불리는 데이터 팀은 본질적으로 데이터를 위한 인프라를 구축합니다. .


BI 팀은 주로 비즈니스 사용자 소비를 위한 보고서 및 필수 대시보드를 제공하는 흐름 또는 파이프라인 구축 작업을 수행합니다.


데이터 팀이 Mode , Superset , Lightdash 와 같은 최종 사용자 솔루션을 구축하거나 Tableau 또는 PowerBI와 같이 한동안 "데이터 분석" 공간에 있었던 업계 리더를 구축하는 데 도움이 되는 많은 차세대 도구가 있습니다.


이러한 솔루션을 구축하는 분석가는 다양한 소스의 데이터를 준비하여 쿼리를 위해 데이터를 정리해야 합니다. "데이터 준비"라는 워크플로우에서 정리 단계를 수행하기 위한 도구 또는 변환 세트입니다.



데이터 분석가가 데이터를 준비하기 위해 사용하는 인기 있는 데이터 준비 도구



대규모 언어 모델의 출현으로 AI에 대한 논의는 소프트웨어 엔지니어링 스택 전반에 걸쳐 일반적인 추세가 되었습니다. 하지만 데이터 중심 AI 방식을 사용하면 데이터 단계 정리를 자동화할 수 있다고 말하면 어떻게 될까요? 최소한의 노력으로 더 깔끔한 버전의 데이터 세트를 내보낼 수 있습니다!


이 블로그에서는 데이터 중심 AI를 사용하여 BI 도구용 데이터를 쉽게 준비하여 후속 데이터 분석에서 신뢰할 수 있는 결론을 얻을 수 있는 방법에 대해 설명합니다.

데이터 분석가 워크플로우

몇 년 전만 해도 데이터 분석가는 데이터를 수동으로 수집, 정리, 분석해야 했으며, 이는 귀중한 통찰력을 얻는 능력을 제한하는 시간 소모적인 프로세스였습니다.



오늘날 Alteryx , Tableau 등과 같은 데이터 준비 도구가 도입되면서 데이터 분석 환경은 큰 변화를 겪었습니다.


이러한 효율적인 도구는 워크플로우를 단순화하여 분석가가 여러 소스의 데이터를 원활하게 통합하고, 데이터 정리 작업을 자동화하고, 시각적으로 매력적이고 통찰력 있는 데이터 표현을 생성할 수 있도록 해줍니다.



수동 데이터 준비 후 데이터 분석


도구를 사용하여 준비된 데이터는 특정 비즈니스 쿼리를 식별하기 위한 BI 도구를 사용하여 분석됩니다.

예를 들어, 고객이 고객 서비스 포털에서 직면한 문제를 기록하고 인간 또는 자동화된 작업 관리자가 레이블을 지정하는 은행 내의 고객 요청 데이터 세트를 생각해 보세요.


비즈니스 분석가가 특정 문제 범주에 대해 나타나는 고객 요청 수를 결정한다고 상상해 보십시오. 다음은 111 고객 문제를 표시하는 beneficiary_not_allowed 카테고리를 사용하여 그/그녀가 보게 될 결과입니다.




마찬가지로 분석가가 ATM 이라는 단어와 관련된 문제 인스턴스 수를 확인하려는 경우 빠른 분석을 통해 아래의 시각적 표현이 반환됩니다. change_pin 카테고리의 문제 수를 확인하세요.



간단하고 간단해 보이지만 데이터 세트를 더 깊이 파고들면 몇 가지 경우에 고객 요청의 분류가 잘못된 것을 발견할 수 있습니다.


예를 들어:

텍스트

라벨(데이터세트 기준)

라벨(이상적으로)

내 카드가 거의 만료되었습니다. 새 제품을 얼마나 빨리 구입할 수 있으며 비용은 얼마입니까?

apple_pay_or_google_pay

카드_about_to_expire


실제 데이터는 대부분 지저분하고 구조화되어 있지 않기 때문에 통계를 통해 가치를 추론하기가 어렵습니다. 우리는 인간과 기계가 데이터를 기반으로 결정을 내리기를 원하므로 데이터에 라벨을 잘 지정하고, 잘못된 데이터를 제거하고, 중복을 제거하는 것이 중요합니다.

데이터 중심 AI


분석에 사용된 데이터가 정확하고 최신이며 중복이 없는지 확인하는 것이 중요합니다. 그렇게 하지 않으면 잘못된 결정과 결론이 나올 수 있습니다. 예를 들어, 사용자 프로필 데이터의 빈 위치 필드나 위치 필드의 형식이 일관되지 않으면 오류가 발생할 수 있습니다. 따라서 효과적인 데이터 분석을 위해서는 데이터 품질을 유지하는 것이 중요합니다.


데이터 중심 AI는 AI 시스템을 구축하는 데 사용되는 데이터를 체계적으로 엔지니어링하는 학문입니다. 실제 세계의 대부분의 데이터는 구조화되지 않았거나 잘못 레이블이 지정되어 있습니다. 올바른 레이블이 지정된 훈련 데이터 세트가 포함된 고품질 데이터 세트는 더 나은 결과를 예측할 수 있는 효율적인 모델로 이어집니다.


더 나은 결과는 더 나은 고객 경험을 낳습니다. 자세한 내용은 MIT의 데이터 중심 AI 과정을 참조하세요.

클린랩을 소개합니다


Cleanlab은 데이터 세트의 문제를 자동으로 감지하여 데이터와 라벨을 정리하는 데 도움이 되는 오픈 소스 프로젝트입니다. Cleanlab은 Curtis Northcutt( Cleanlab.ai 의 공동 창립자이기도 함) 등이 데이터 세트 레이블의 불확실성을 추정하는 방법에 대해 설명하는 논문을 기반으로 자신감 있는 학습을 사용합니다.


Cleanlab은 기본적으로 AI를 유도하여 데이터 분석 워크플로우를 향상시킵니다.



Cleanlab Studio를 사용하여 데이터 자동 정리

Cleanlab Studio는 오픈 소스 패키지 Cleanlab을 기반으로 구축된 코드 없는 도구로, 분석 워크플로를 위한 데이터를 준비하는 데 도움이 됩니다. Databricks , Snowflake 와 같은 데이터 웨어하우스 또는 AWS S3 와 같은 Cloud Object Store에서 데이터를 가져올 수도 있습니다.

1 단계:

Cleanlab Studio 에 액세스하려면 등록하세요.



일부 샘플 데이터 세트 및 프로젝트가 포함된 대시보드에 로그인됩니다.



2 단계:

업로드 마법사를 시작하려면 "데이터 세트 업로드"를 클릭하세요. 컴퓨터, URL, API 또는 Databricks 및 Snowflake와 같은 데이터 웨어하우스에서 데이터 세트를 업로드할 수 있습니다.



Cleanlab Studio는 텍스트, 이미지, 음성 또는 표 형식과 같은 데이터 스키마 및 양식을 자동으로 추론합니다.



세부 사항을 확인하면 업로드된 데이터 세트와 데이터 업로드 중에 발생한 관련 오류(있는 경우)가 포함된 화면이 표시됩니다.


참고: 일부 데이터 세트는 업로드하는 데 몇 분 정도 걸릴 수 있습니다. 데이터세트가 Cleanlab Studio에 완전히 업로드되면 Cleanlab에서 이메일로 알려드립니다.




3단계:

데이터 세트 유형에 따라 특정 기계 학습 작업을 사용하여 데이터 문제를 식별할 수 있습니다. 현재 Cleanlab Studio는 텍스트, 표 및 이미지 데이터와 관련된 여러 ML 분류 작업을 지원합니다.


분류에 따라 이는 K 클래스 중 하나이거나 K 클래스 중 1~N일 수 있습니다. 이 데이터세트에서 각 고객 요청은 특정 카테고리에 속합니다. 이는 "다중 클래스" 분류입니다.




Cleanlab 스튜디오는 텍스트 및 레이블 열을 자동으로 감지합니다. 필요한 경우 수정할 수 있습니다.




빠른 모델을 사용하면 최상의 결과를 얻지 못할 수도 있습니다. 시간을 고려하여 Fast를 선택하는 것도 하나의 선택 사항입니다.


내 데이터를 정리하세요!”를 누르세요. ”

4단계:

Cleanlab Studio는 데이터세트에서 모델 앙상블을 실행하고 문제 개요를 제시합니다!

앞서 지적했듯이 데이터 세트에는 데이터와 이상값이 잘못 분류되어 있어 분석 시 전체 의사 결정 프로세스에 가치를 추가하지 못할 수 있습니다.




또한 상단의 분석 보기로 전환하여 데이터 세트에 대해 Cleanlab Studio에서 식별한 문제에 대한 메타 분석을 살펴볼 수도 있습니다.




5단계:

Cleanlab Studio의 흥미로운 부분은 정리된 데이터 세트를 내보내는 것뿐만 아니라 데이터에 대한 문제 지향적인 보기를 제공한다는 것입니다. 데이터 분석가 및 비즈니스 인텔리전스 사용자가 수년 동안 원했던 누락된 데이터 준비 워크벤치입니다.


Cleanlab Studio에서 제공되는 키보드 지원 작업을 통해 각 문제를 정렬하거나 아래 버튼을 클릭하여 "Cleanset 내보내기"를 내보낼 수 있습니다.





AI 지원 데이터 준비 후 데이터 분석


정리된 데이터 세트를 사용하여 동일한 데이터 분석을 살펴보겠습니다.


cancel_transfervisa_or_mastercard 카테고리의 숫자에 차이가 있는 것 같습니다. 이는 더 작은 데이터 세트이지만 이러한 데이터 수정으로 인해 더 큰 규모의 추정치와 잠재적인 비즈니스 결정이 크게 달라질 수 있다는 점에 유의하는 것이 중요합니다.




마찬가지로 문제가 적절하게 표시되면 일부 범주에 대한 고객 요청이 사라지는 것을 확인할 수 있습니다.




데이터 분석가이거나 비즈니스 인텔리전스 커뮤니티의 일원이라면 Cleanlab Studio가 데이터 준비 워크플로우를 혁신할 수 있습니다. 지금 Cleanlab Studio를 사용해 보다 안정적이고 정확한 데이터 분석을 위한 AI 지원 데이터 정리의 힘을 경험해보세요.

결론

Cleanlab Studio는 Fortune 500대 기업의 수천 명의 엔지니어, 분석가, 데이터 과학자가 사용하는 노코드 데이터 준비 워크벤치입니다. 이 혁신적인 플랫폼은 실제의 잘못된 데이터를 사용하여 보다 안정적이고 정확한 기계 학습 모델을 교육하기 위해 MIT에서 개척되었습니다. 자세한 내용을 보려면 Slack 커뮤니티 에 가입하세요.