Background/ML Pipeline 6

머신러닝의 기초와 분류 문제 해결의 첫걸음 (4) 분류 모델 결과와 앞으로의 방향

들어가며머신러닝 프로젝트에서 모델의 성능을 평가하는 첫 번째 단계는 베이스라인 모델을 설정하고 그 성능을 확인하는 것입니다. 베이스라인 모델은 기본 설정으로 실행되며, 데이터의 특성과 모델 간의 상호작용을 이해하는 데 중요한 역할을 합니다.이번 장에서는 이전장에서 다룬 다양한 머신 러닝 분류 모델을 유방암 진단, 스팸 메일 분류, 와인 품질 평가 데이터에 적용한 결과를 분석합니다. 이러한 과정을 통해 머신러닝 모델의 초기 결과를 비교하며, 각 모델이 어떤 상황에서 강점을 발휘할 수 있는지 탐구해봅시다. 이번 ML pipline 시리즈의 학습코드는 아래링크에서 무료로 사용 가능합니다https://github.com/Elec-Dong/Breast-Cancer-Wisconsin_binary_classifica..

머신러닝의 기초와 분류 문제 해결의 첫걸음 (3) 기초 사용법과 실무적 통찰

들어가며머신러닝을 시작하면 가장 먼저 접하게 되는 것은 다양한 알고리즘입니다. 하지만 실무에서는 모델의 수학적 원리나 구현 방법보다, 어떤 모델을 선택해야 하는지, 그리고 선택한 모델이 어떤 상황에서 강점을 발휘하는지가 더 중요합니다.이번 장에서는 머신러닝에서 자주 사용되는 대표적인 분류 모델인 Logistic Regression(로지스틱 회귀), Decision Tree(결정 트리), SVM(서포트 벡터 머신), KNN(최근접 이웃), 그리고 앙상블 기법을 활용한 강력한 모델인 Random Forest와 XGBoost를 살펴보겠습니다. 각 모델의 현실적인 장단점과 실무에서 고려할 만한 상황에 대해 논의하며, 어떤 문제에서 어떤 모델을 선택해야 할지에 대한 직관을 제공합니다. 또한 모델의 간단한 코드 구..

머신러닝의 기초와 분류 문제 해결의 첫걸음 (2) 실습데이터 소개와 머신러닝 엔지니어의 자세

들어가며머신러닝을 배우면서 흔히 접하게 되는 예제 데이터는 고양이 vs 개, 붓꽃(Iris) 분류와 같은 문제입니다. 이런 데이터는 머신러닝의 기초를 배우는 데 적합하지만, 실무 현장에서 접하게 되는 문제와는 다소 거리가 있습니다.현업에서는 의료, 사회 서비스, 제조, 품질 관리 등 다양한 분야에서 2진 분류(Binary Classification)가 사용됩니다. 이 글에서는 유방암 진단, 스팸 메일 분류, 그리고 와인 품질 분류라는 세 가지 데이터를 실습에 활용하여, 2진 분류의 실무적 활용 가능성을 탐구하고자 합니다. 또한, 앞으로의 여정에서 배울 모델에 학습시키키고 평가하기위해 데이터를 불러오고 학습 데이터와 평가데이터로 나누는 코드에 대해 다루겠습니다. 이번 ML pipline 시리즈의 학습코드는..

머신러닝의 기초와 분류 문제 해결의 첫걸음 (1) 머신러닝의 시작: 문제 정의, 학습 방법, 문제 해결의 흐름

들어가며머신러닝 프로젝트를 시작할 때, 가장 먼저 해야 할 일은 문제를 정의하는 것입니다. "이 고객이 서비스를 떠날 가능성은?", "내일의 주식 시장은 상승할까?", "이 집의 가격은 얼마일까?" 이처럼 머신러닝 문제는 크게 분류(Classification)와 회귀(Regression)로 나눌 수 있습니다. 또한, 데이터를 학습하는 방식에 따라 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 구분됩니다. 이번 글에서는 머신러닝의 기본 개념인 지도학습과 비지도학습, 분류와 회귀의 차이, 그리고 머신러닝 모델이 학습하고 평가되는 기본 흐름을 간단히 살펴보겠습니다. 이러한 기초적인 원리를 이해하면, 머신러닝 프로젝트의 전체적인 구조를 파악하고, 실무에서..

머신러닝의 기본과 프로젝트 성공의 열쇠 (2) 머신러닝 엔지니어가 꼭 알아야 할 프로젝트의 진짜 모습

들어가며머신러닝을 배우다 보면 대부분의 강의나 서적은 모델 설계에 집중합니다. 다양한 알고리즘의 원리, 수식, 구현 방법을 상세히 다루지만, 실제로 현업에서 머신러닝 프로젝트를 수행할 때 요구되는 역량은 이보다 훨씬 더 폭넓습니다. 머신러닝 모델 설계는 하나의 퍼즐 조각일 뿐, 프로젝트의 전체 그림을 완성하기 위해서는 데이터 탐색, 전처리, 특성 선택과 엔지니어링, 모델 해석 및 설명, 도메인 지식 활용 등 다양한 기술과 통찰력이 요구됩니다.이 블로그에서는 머신러닝 프로젝트를 성공적으로 이끌기 위해 필요한 모든 과정을 다룹니다. 입력 데이터 준비부터 모델 학습, 그리고 결과 해석과 실무 활용까지의 전체 흐름을 설명하며, 단순한 모델 설계를 넘어 현업에서의 활용 방법까지 탐구할 것입니다. 머신러닝 엔지니어..

머신러닝의 기본과 프로젝트 성공의 열쇠 (1) 머신러닝 모델이 데이터를 처리하는 방식

들어가며머신러닝 모델은 데이터를 입력받아 학습하고, 이를 통해 새로운 데이터를 예측하는 강력한 도구입니다. 하지만 모델이 단순히 데이터를 넣고 결과를 내놓는 "마법 상자"는 아닙니다. 입력 데이터가 어떻게 준비되었는지에 따라 모델의 학습과 성능이 결정되고, 모델이 출력한 결과는 올바르게 해석되어야 비로소 실질적인 가치를 만듭니다. 이번 글에서는 머신러닝 모델이 데이터를 처리하는 기본 프로세스(입력 → 모델 → 출력)를 소개하고, 입력 데이터의 품질이 모델에 미치는 영향과 출력 결과를 해석하는 과정의 중요성을 탐구해 보겠습니다. 머신러닝의 본질과 데이터가 성공의 열쇠가 되는 과정을 함께 살펴보시죠! 1. 머신러닝 모델이 데이터를 처리하는 방식Feature(특성)와 Label(타겟)의 개념머신러닝 모델은 데..