728x90
반응형
SMALL
=

전체 글

인공지능 (AI)/머신러닝 (ML)

3 - 예측을 더 정밀하게: 다중 선형 회귀

1️⃣ 다중 선형 회귀란 무엇인가요?다중 선형 회귀(Multiple Linear Regression)는 단순 선형 회귀의 확장 개념으로, 두 개 이상의 독립 변수를 사용하여 하나의 종속 변수 YY를 예측하는 회귀 모델입니다.현실에서는 하나의 원인보다 여러 요인이 함께 작용하는 경우가 많기 때문에, 단순 선형 회귀보다 더 실용적인 분석이 가능합니다.예를 들어, 주택 가격은 단순히 ‘평수’뿐 아니라 ‘방 개수’, ‘건물 연식’, ‘위치’ 등 다양한 요소의 영향을 받을 수 있습니다. 이처럼 여러 요인이 함께 작용할 때 다중 선형 회귀가 효과적으로 사용됩니다.2️⃣ 수학적 표현다중 선형 회귀는 다음과 같은 형태의 방정식으로 표현됩니다:각 독립 변수의 영향을 선형적으로 조합하여 예측값을 계산하는 방식입니다.3️⃣..

인공지능 (AI)/머신러닝 (ML)

2 - 숫자로 미래를 그리다: 선형 회귀

1️⃣ 선형 회귀란?선형 회귀(Linear Regression)는 입력 변수(독립 변수, X)와 출력 변수(종속 변수, Y) 사이의 관계를 직선 형태로 모델링하는 대표적인 지도 학습 알고리즘입니다.복잡한 모델로 가기 전, 데이터를 예측하는 가장 기초적인 접근 방식으로 많이 사용됩니다.예를 들어,공부 시간(X)과 시험 점수(Y)광고 비용(X)과 매출(Y)주택 크기(X)와 가격(Y)이러한 관계를 하나의 직선(또는 다차원의 평면)으로 표현하고자 할 때 선형 회귀가 활용됩니다.2️⃣ 선형 회귀의 수학적 구조📌 단순 선형 회귀단 하나의 입력 변수 X가 있는 경우, 선형 회귀는 아래와 같은 1차 함수 형태를 가집니다:Y=WX+bY: 예측값 (종속 변수)X: 입력값 (독립 변수)W: 기울기 (가중치)b: 절편 (b..

인공지능 (AI)/머신러닝 (ML)

1 - 데이터가 스스로 배우는 세상: 머신러닝 개요

1️⃣ 머신러닝이란?머신러닝(Machine Learning)은 데이터를 이용해 패턴을 학습하고, 이를 바탕으로 예측이나 의사결정을 자동으로 수행하는 기술입니다.기존의 전통적인 프로그래밍 방식에서는 사람이 명확한 규칙을 코드로 작성하지만, 머신러닝에서는 알고리즘이 데이터로부터 규칙을 학습한다는 점이 다릅니다.2️⃣ 머신러닝의 주요 분류📌 지도 학습 (Supervised Learning)입력 데이터(Features)와 정답(Label)이 함께 주어지는 방식주어진 정답을 기준으로 모델이 예측하도록 학습예시이메일 스팸 필터링이미지 분류 (고양이 vs 강아지)주식 가격 예측대표 알고리즘선형 회귀로지스틱 회귀의사결정나무, 랜덤 포레스트서포트 벡터 머신 (SVM)인공신경망 (Neural Networks)📌 비지도..

데이터 과학 (Data Science)/데이터브릭스

11 - 데이터브릭스에서 배운다

우리만의 데이터 분석 플랫폼 설계 아이디어“벤치마킹의 끝은 따라잡기가 아니라, 자신만의 방향을 세우는 것이다.”목표: 유연하고 강력하며 모두를 위한 데이터 분석 플랫폼우리가 만들고자 하는 플랫폼은 단지 데이터를 수집하고 저장하는 시스템이 아니라:👨‍💻 데이터 엔지니어가 안정적으로 파이프라인을 운영하고,📊 분석가가 빠르게 인사이트를 추출하며,🧠 데이터 과학자가 AI/ML 모델을 실험하고 배포할 수 있고,👩‍💼 PM과 비즈니스 사용자도 쉽게 대시보드를 보고 질문을 던질 수 있는“멀티 롤(Multi-role)” 중심의 실용적인 분석 플랫폼입니다.이 글에서는 지금까지의 데이터브릭스 벤치마킹을 바탕으로, 다음과 같은 설계 영역별로 아이디어를 구체화해 봅니다:1. 아키텍처 전략: 레이크하우스 기반의 유연..

데이터 과학 (Data Science)/데이터브릭스

10 - 데이터브릭스 도입, 망설여진다면?

장점과 단점 총정리“좋은 플랫폼은 기능이 많은 게 아니라, 필요한 것을 잘하는 것이다.”데이터브릭스, 왜 이렇게 주목받는가?지금까지 9편에 걸쳐 살펴본 바와 같이, 데이터브릭스는 단순한 분석 툴이 아니라 데이터 엔지니어링, 분석, BI, AI/ML을 통합한 플랫폼입니다. 레이크하우스 아키텍처를 중심으로, 실시간 데이터 흐름, 협업, MLOps까지 지원하는 이 플랫폼은 다양한 조직에서 ‘데이터 중심 업무 방식’을 가능하게 만들었습니다.하지만, 모든 조직에 완벽한 해답은 아닙니다.이번 편에서는 장점과 단점을 객관적으로 비교하고, 도입 의사결정을 위한 체크리스트도 함께 정리해드리겠습니다.👍 데이터브릭스의 장점1. 올인원 통합 플랫폼엔지니어링, 분석, BI, ML 모두를 한 플랫폼에서 실행데이터 사일로 해소 ..

데이터 과학 (Data Science)/데이터브릭스

9 - 데이터브릭스, 산업을 바꾸다

성공 사례 분석“기술의 가치는 코드가 아니라, 결과로 증명된다.”왜 성공 사례가 중요한가?이론적 설명이나 기능 정리는 기술 비교에는 유용하지만, 실제 선택과 설계에 있어서는 다음 질문이 더 중요합니다:🧩 "누가 이 플랫폼을 실제로 잘 쓰고 있는가?"🧠 "우리가 가진 문제와 비슷한 문제를 어떻게 해결했는가?"🚀 "우리가 적용했을 때 어떤 효과를 기대할 수 있을까?"이번 편에서는 다양한 산업에서 Databricks를 통해 ‘데이터 기반 혁신’을 실현한 기업들의 사례를 중심으로, 각 사례의 도전 과제 → 해결 방식 → 결과를 정리해봅니다.1. 게임 산업 – 라이엇 게임즈 (Riot Games)🎮 도전 과제전 세계 수백만 명의 플레이어 행동 로그, 채팅, 네트워크 데이터를 실시간 분석유저 이탈 방지, 네..

데이터 과학 (Data Science)/데이터브릭스

8 - 데이터 플랫폼 전쟁

데이터브릭스 vs Snowflake, BigQuery, Redshift, Fabric“모든 도구는 훌륭하다. 중요한 건 당신에게 맞는 도구인가다.”왜 비교가 필요한가?데이터 플랫폼 선택은 단순한 기술 선택이 아니라, 데이터 전략 그 자체입니다. 한 번 구축하면 쉽게 바꾸기 어렵기 때문에, 처음 선택할 때 다음을 잘 고려해야 합니다:팀 구성과 기술 스택주로 사용하는 데이터 유형과 분석 방식AI/ML 적용 여부예산과 예측 가능성기존 클라우드 인프라 연계성이번 글에서는 Databricks, Snowflake, Google BigQuery, Amazon Redshift, Microsoft Fabric 등 대표 플랫폼들을 다음 4가지 기준으로 비교해보겠습니다:기능 및 아키텍처가격 모델성능 및 확장성사용성 (UX/..

데이터 과학 (Data Science)/데이터브릭스

7 - 함께 일하는 방식의 혁신

데이터브릭스 협업 기능 분석“좋은 데이터도, 나쁜 협업 안에선 사라진다.”데이터 협업, 아직도 이렇게 하고 있나요?분석가는 SQL 쿼리를 Google Docs에 복사해 공유하고,엔지니어는 파이프라인 코드를 Slack으로 캡처해서 보여주며,기획자는 "데이터 최신 맞나요?"라고 계속 물어봐야 합니다.이처럼 많은 조직이 데이터 협업을 ‘툴 간 복붙’과 ‘감’에 의존하고 있습니다. 결과적으로:📉 데이터 일관성이 깨지고,⏱️ 의사결정이 느려지며,😵 역할 간 책임도 불명확해집니다.**데이터브릭스(Databricks)**는 이러한 현실을 근본적으로 바꾸기 위해, 데이터 생산부터 분석, 리포트까지의 모든 과정을 하나의 공간에서, 실시간으로, 역할에 맞게 협업할 수 있도록 설계되었습니다.1. 실시간 공동 작업 – 노..

728x90
반응형
LIST
gsroot
gsroot