728x90
반응형
SMALL
=

전체 글

인공지능 (AI)/머신러닝 (ML)

11 - 컴퓨터가 언어를 이해한다면?: 자연어 처리와 텍스트 데이터 분석

우리가 매일 사용하는 말과 글, 즉 자연어(Natural Language)를 컴퓨터가 이해할 수 있다면 어떤 일들이 가능해질까요?이번 글에서는 자연어 처리(Natural Language Processing, NLP)의 기초 개념과 함께 텍스트 데이터를 다루는 기본적인 분석 기법들을 소개합니다.챗봇, 감성 분석, 검색 엔진 등 우리가 자주 사용하는 서비스들의 핵심 기술이 바로 여기에서 시작됩니다.1️⃣ 자연어 처리(NLP)란 무엇인가요?자연어 처리(NLP)는 컴퓨터가 사람의 언어(텍스트, 음성)를 이해하고, 해석하고, 생성하는 기술입니다.사람에게는 자연스러운 언어가 컴퓨터에게는 굉장히 복잡하기 때문에, 이를 분석하기 위한 다양한 처리 기법들이 필요합니다.✅ 대표적인 활용 사례분야설명텍스트 분석문서 요약, ..

인공지능 (AI)/머신러닝 (ML)

10 - 나에게 딱 맞는 콘텐츠는 어떻게 찾아질까?: 추천 시스템과 협업 필터링

넷플릭스에서 취향 저격 드라마를 추천받거나, 아마존에서 평소 관심 있던 제품을 추천받은 경험 있으신가요?이러한 맞춤형 추천의 중심에는 바로 추천 시스템(Recommendation System)이 있습니다.이번 글에서는 추천 시스템의 기본 개념과 함께, 그중 가장 널리 쓰이는 협업 필터링(Collaborative Filtering) 기법을 알아보겠습니다.1️⃣ 추천 시스템이란?추천 시스템은 사용자의 행동 데이터를 바탕으로 개인의 취향에 맞는 아이템(상품, 콘텐츠 등)을 예측하고 추천하는 시스템입니다.단순히 인기 순위를 보여주는 것이 아니라, 개개인의 선호에 따라 달라지는 결과를 제공하는 것이 핵심입니다.✅ 추천 시스템의 대표 사례넷플릭스(Netflix): 시청 이력을 기반으로 유사한 영화/드라마 추천아마존..

인공지능 (AI)/머신러닝 (ML)

9 - 복잡한 데이터를 간단하게 보기: 차원 축소와 PCA, t-SNE

고차원 데이터는 정보가 풍부하지만, 그만큼 해석과 시각화가 어려워지고 계산 비용도 증가합니다.이번 글에서는 이런 고차원 데이터를 보다 이해하기 쉬운 저차원으로 변환하는 기법인 차원 축소(Dimensionality Reduction)에 대해 알아보고, 대표적인 알고리즘인 PCA와 t-SNE를 실습을 통해 체험해보겠습니다.1️⃣ 차원 축소란 무엇인가요?차원 축소는 고차원 데이터를 손실을 최소화하면서 보다 적은 수의 특성(Feature)으로 변환하는 기법입니다.모델 성능 향상, 계산 효율성 확보, 시각화 목적 등 다양한 이유로 사용됩니다.✅ 차원 축소의 장점노이즈 감소 → 과적합(Overfitting) 방지시각화 용이 → 2D, 3D 공간에서 데이터 구조를 파악할 수 있음속도 개선 → 고차원일수록 느려지는 계..

인공지능 (AI)/머신러닝 (ML)

8 -한층 더 정교한 군집화: 계층적 군집과 DBSCAN

이전 글에서는 K-Means 클러스터링을 통해 비지도 학습에서 데이터를 그룹으로 나누는 기본적인 방법을 알아보았습니다.이번에는 그보다 더 유연하고 복잡한 데이터를 다룰 수 있는 고급 군집 기법 두 가지인 계층적 군집(Hierarchical Clustering)과 DBSCAN을 소개하겠습니다.1️⃣ 계층적 군집 (Hierarchical Clustering)계층적 군집은 데이터를 군집화할 때 계층적인 구조를 만들어나가는 방식입니다.K-Means와는 달리, 클러스터 개수를 사전에 지정할 필요가 없다는 점이 큰 특징입니다.이 구조는 덴드로그램(Dendrogram)이라는 트리 형태의 그래프로 시각화할 수 있어 해석이 직관적입니다.✅ 주요 방식 방식 설명병합형(Agglomerative)각 데이터를 하나의 클러스터로..

인공지능 (AI)/머신러닝 (ML)

7 - 정답 없이 배우는 머신러닝: 비지도 학습과 K-Means 클러스터링

지금까지는 정답(Label)이 있는 지도 학습(Supervised Learning) 모델을 중심으로 공부해 보았습니다.이번 글에서는 완전히 새로운 방식인 비지도 학습(Unsupervised Learning)에 대해 알아보고, 대표 알고리즘 중 하나인 K-Means 클러스터링을 직접 실습해보겠습니다.1️⃣ 비지도 학습이란 무엇인가요?비지도 학습(Unsupervised Learning)은 정답이 없는 데이터를 기반으로 숨겨진 구조나 패턴을 찾아내는 학습 방식입니다.즉, 데이터에 어떤 레이블도 주어지지 않은 상태에서 모델이 스스로 규칙을 발견하는 것이 핵심입니다.📌 주요 활용 사례고객 세분화 (Cluster Analysis): 고객을 성향이나 행동에 따라 그룹화이상 탐지 (Anomaly Detection):..

인공지능 (AI)/머신러닝 (ML)

6 - 숫자부터 문자까지, 분류의 확장: 다중 클래스 분류와 소프트맥스 회귀

앞서 우리는 로지스틱 회귀(Logistic Regression)를 이용해 두 개의 클래스를 구분하는 이진 분류(Binary Classification) 문제를 해결해 보았습니다.이번 글에서는 그보다 한 단계 확장된 문제인 다중 클래스 분류(Multiclass Classification)와 이를 해결하기 위한 대표적인 방법인 소프트맥스 회귀(Softmax Regression)에 대해 알아보겠습니다.1️⃣ 다중 클래스 분류란 무엇인가요?다중 클래스 분류는 세 개 이상의 클래스 중 하나를 예측하는 문제를 말합니다.이진 분류가 "A냐, B냐"를 판단하는 문제라면, 다중 클래스 분류는 "A, B, C 중 무엇인가?"를 묻는 문제라고 할 수 있습니다.📌 예시손글씨 숫자 분류 (0~9)영어 알파벳 인식 (A~Z)제..

인공지능 (AI)/머신러닝 (ML)

5 - 분류의 시작: 로지스틱 회귀와 시그모이드 함수

앞서 선형 회귀와 다중 선형 회귀를 통해 숫자(연속값)를 예측하는 회귀 문제를 다루었습니다.이제부터는 조금 다른 유형의 문제, 즉 분류(Classification) 문제를 해결하는 방법을 알아보겠습니다.그 출발점이 되는 알고리즘이 바로 로지스틱 회귀(Logistic Regression)입니다.1️⃣ 로지스틱 회귀란 무엇인가요?로지스틱 회귀는 이름에 ‘회귀’가 들어가 있지만, 사실은 분류(Classification) 문제를 해결하는 알고리즘입니다.선형 회귀처럼 연속적인 숫자를 예측하는 것이 아니라, 입력 데이터를 기반으로 특정 범주(클래스)에 속할 확률을 예측합니다.예를 들어 다음과 같은 이진 분류 문제를 처리할 수 있습니다:이메일이 스팸인지 정상인지 분류어떤 환자가 질병이 있는지 여부 예측사용자가 광고를..

인공지능 (AI)/머신러닝 (ML)

4 - 회귀 모델 성능, 어떻게 더 좋게 만들 수 있을까?

앞선 글에서는 다중 선형 회귀 모델을 구현하고 평가하는 방법에 대해 알아보았습니다.이번 글에서는 실제 프로젝트에서 더 좋은 예측 결과를 얻기 위해 자주 사용되는 회귀 모델 성능 개선 기법들을 소개해 드리겠습니다.1️⃣ 특성 선택 (Feature Selection)모델에 사용되는 특성(Feature)이 많다고 해서 무조건 성능이 좋아지는 것은 아닙니다.오히려 불필요한 특성이 포함되면 예측 정확도가 떨어지거나 과적합(overfitting)이 발생할 수 있습니다.따라서 중요한 변수만 남기고 불필요한 특성은 제거하는 것이 중요합니다.📌 대표적인 특성 선택 방법상관 계수 분석: 타겟과 상관관계가 약한 특성을 제거합니다.VIF (Variance Inflation Factor): 다중공선성이 높은 특성을 제거합니다..

728x90
반응형
LIST
gsroot
gsroot