지금까지는 정답(Label)이 있는 지도 학습(Supervised Learning) 모델을 중심으로 공부해 보았습니다.이번 글에서는 완전히 새로운 방식인 비지도 학습(Unsupervised Learning)에 대해 알아보고, 대표 알고리즘 중 하나인 K-Means 클러스터링을 직접 실습해보겠습니다.1️⃣ 비지도 학습이란 무엇인가요?비지도 학습(Unsupervised Learning)은 정답이 없는 데이터를 기반으로 숨겨진 구조나 패턴을 찾아내는 학습 방식입니다.즉, 데이터에 어떤 레이블도 주어지지 않은 상태에서 모델이 스스로 규칙을 발견하는 것이 핵심입니다.📌 주요 활용 사례고객 세분화 (Cluster Analysis): 고객을 성향이나 행동에 따라 그룹화이상 탐지 (Anomaly Detection):..
앞서 우리는 로지스틱 회귀(Logistic Regression)를 이용해 두 개의 클래스를 구분하는 이진 분류(Binary Classification) 문제를 해결해 보았습니다.이번 글에서는 그보다 한 단계 확장된 문제인 다중 클래스 분류(Multiclass Classification)와 이를 해결하기 위한 대표적인 방법인 소프트맥스 회귀(Softmax Regression)에 대해 알아보겠습니다.1️⃣ 다중 클래스 분류란 무엇인가요?다중 클래스 분류는 세 개 이상의 클래스 중 하나를 예측하는 문제를 말합니다.이진 분류가 "A냐, B냐"를 판단하는 문제라면, 다중 클래스 분류는 "A, B, C 중 무엇인가?"를 묻는 문제라고 할 수 있습니다.📌 예시손글씨 숫자 분류 (0~9)영어 알파벳 인식 (A~Z)제..
앞서 선형 회귀와 다중 선형 회귀를 통해 숫자(연속값)를 예측하는 회귀 문제를 다루었습니다.이제부터는 조금 다른 유형의 문제, 즉 분류(Classification) 문제를 해결하는 방법을 알아보겠습니다.그 출발점이 되는 알고리즘이 바로 로지스틱 회귀(Logistic Regression)입니다.1️⃣ 로지스틱 회귀란 무엇인가요?로지스틱 회귀는 이름에 ‘회귀’가 들어가 있지만, 사실은 분류(Classification) 문제를 해결하는 알고리즘입니다.선형 회귀처럼 연속적인 숫자를 예측하는 것이 아니라, 입력 데이터를 기반으로 특정 범주(클래스)에 속할 확률을 예측합니다.예를 들어 다음과 같은 이진 분류 문제를 처리할 수 있습니다:이메일이 스팸인지 정상인지 분류어떤 환자가 질병이 있는지 여부 예측사용자가 광고를..
앞선 글에서는 다중 선형 회귀 모델을 구현하고 평가하는 방법에 대해 알아보았습니다.이번 글에서는 실제 프로젝트에서 더 좋은 예측 결과를 얻기 위해 자주 사용되는 회귀 모델 성능 개선 기법들을 소개해 드리겠습니다.1️⃣ 특성 선택 (Feature Selection)모델에 사용되는 특성(Feature)이 많다고 해서 무조건 성능이 좋아지는 것은 아닙니다.오히려 불필요한 특성이 포함되면 예측 정확도가 떨어지거나 과적합(overfitting)이 발생할 수 있습니다.따라서 중요한 변수만 남기고 불필요한 특성은 제거하는 것이 중요합니다.📌 대표적인 특성 선택 방법상관 계수 분석: 타겟과 상관관계가 약한 특성을 제거합니다.VIF (Variance Inflation Factor): 다중공선성이 높은 특성을 제거합니다..
1️⃣ 다중 선형 회귀란 무엇인가요?다중 선형 회귀(Multiple Linear Regression)는 단순 선형 회귀의 확장 개념으로, 두 개 이상의 독립 변수를 사용하여 하나의 종속 변수 YY를 예측하는 회귀 모델입니다.현실에서는 하나의 원인보다 여러 요인이 함께 작용하는 경우가 많기 때문에, 단순 선형 회귀보다 더 실용적인 분석이 가능합니다.예를 들어, 주택 가격은 단순히 ‘평수’뿐 아니라 ‘방 개수’, ‘건물 연식’, ‘위치’ 등 다양한 요소의 영향을 받을 수 있습니다. 이처럼 여러 요인이 함께 작용할 때 다중 선형 회귀가 효과적으로 사용됩니다.2️⃣ 수학적 표현다중 선형 회귀는 다음과 같은 형태의 방정식으로 표현됩니다:각 독립 변수의 영향을 선형적으로 조합하여 예측값을 계산하는 방식입니다.3️⃣..
1️⃣ 선형 회귀란?선형 회귀(Linear Regression)는 입력 변수(독립 변수, X)와 출력 변수(종속 변수, Y) 사이의 관계를 직선 형태로 모델링하는 대표적인 지도 학습 알고리즘입니다.복잡한 모델로 가기 전, 데이터를 예측하는 가장 기초적인 접근 방식으로 많이 사용됩니다.예를 들어,공부 시간(X)과 시험 점수(Y)광고 비용(X)과 매출(Y)주택 크기(X)와 가격(Y)이러한 관계를 하나의 직선(또는 다차원의 평면)으로 표현하고자 할 때 선형 회귀가 활용됩니다.2️⃣ 선형 회귀의 수학적 구조📌 단순 선형 회귀단 하나의 입력 변수 X가 있는 경우, 선형 회귀는 아래와 같은 1차 함수 형태를 가집니다:Y=WX+bY: 예측값 (종속 변수)X: 입력값 (독립 변수)W: 기울기 (가중치)b: 절편 (b..
1️⃣ 머신러닝이란?머신러닝(Machine Learning)은 데이터를 이용해 패턴을 학습하고, 이를 바탕으로 예측이나 의사결정을 자동으로 수행하는 기술입니다.기존의 전통적인 프로그래밍 방식에서는 사람이 명확한 규칙을 코드로 작성하지만, 머신러닝에서는 알고리즘이 데이터로부터 규칙을 학습한다는 점이 다릅니다.2️⃣ 머신러닝의 주요 분류📌 지도 학습 (Supervised Learning)입력 데이터(Features)와 정답(Label)이 함께 주어지는 방식주어진 정답을 기준으로 모델이 예측하도록 학습예시이메일 스팸 필터링이미지 분류 (고양이 vs 강아지)주식 가격 예측대표 알고리즘선형 회귀로지스틱 회귀의사결정나무, 랜덤 포레스트서포트 벡터 머신 (SVM)인공신경망 (Neural Networks)📌 비지도..
우리만의 데이터 분석 플랫폼 설계 아이디어“벤치마킹의 끝은 따라잡기가 아니라, 자신만의 방향을 세우는 것이다.”목표: 유연하고 강력하며 모두를 위한 데이터 분석 플랫폼우리가 만들고자 하는 플랫폼은 단지 데이터를 수집하고 저장하는 시스템이 아니라:👨💻 데이터 엔지니어가 안정적으로 파이프라인을 운영하고,📊 분석가가 빠르게 인사이트를 추출하며,🧠 데이터 과학자가 AI/ML 모델을 실험하고 배포할 수 있고,👩💼 PM과 비즈니스 사용자도 쉽게 대시보드를 보고 질문을 던질 수 있는“멀티 롤(Multi-role)” 중심의 실용적인 분석 플랫폼입니다.이 글에서는 지금까지의 데이터브릭스 벤치마킹을 바탕으로, 다음과 같은 설계 영역별로 아이디어를 구체화해 봅니다:1. 아키텍처 전략: 레이크하우스 기반의 유연..