본문 바로가기

Server Infra/AWS

MLS-C01 공부중 - SageMaker 알고리즘 정리

728x90

내장 알고리즘을 지도/비지도로 간단하게 정리해 보았다. MLS모의고사를 풀어보니 알고리즘의 상세한 구성이나 수학식 보다는 해당 알고리즘이 쓰이는 상황과 하이퍼파라미터 튜닝과 관련된 내용이 많이 보였다.

지도학습

  • DeepAR Forecasting
    • 자동 회귀적 통합 이동 평균(ARIMA) 또는 지수 평활(ETS)과 같은 고전적 예측 방법은 단일 모델을 개별 시계열에 맞춥니다.
    • context_length 하이퍼파라미터를 사용해 과거의 시점을 정할 수 있습니다.
    • prediction_length 하이퍼파라미터를 사용해 미래 시점을 정할 수 있습니다.
  • Factorization Machine
    • 분류 및 회귀 작업 모두에 대해 사용할 수 있는 범용 지도 학습 알고리즘입니다.
    • 클릭 예측 및 품목 추천과 같은 고차원 희소 데이터 세트를 처리하는 작업에 있어 좋은 선택합니다.
  • Image Classification
    • 다중 레이블 분류를 지원합니다.
    • 이미지를 입력으로 해당 이미지에 할당된 하나 이상의 레이블을 출력합니다.
    • 초기부터 교육하거나 훈련된 이미지를 이용할 수 없는 경우 전송 합습을 사용해 교육할 수 있습니다.
  • K-Nearest Neighbors(k-NN)
    • 데이터간 거리가 가까운 K 개의 레이블을 참조하여 분류합니다.(이때, 유클리디안 계산법 사용)
  • Linear Learner
    • 회귀문제를 해결하는데 사용되는 학습법 입니다.
      • 지속적 목표(예: 평균 제곱근 오차, 교차 엔트로피 손실, 절대 오차).
      • 분류에 맞는 별도 목표(예: F1 측정, 정밀도, 재현율 또는 정확도)
  • Object2Vec
    • Object2Vec 은 SageMaker에서 최적화된 단어에 대해 잘 알려진 Word2Vec 임베딩 기법을 일반화합니다.
    • 다운스트림 지도 작업(예: 분류 또는 회귀)에서 해당 객체의 특징으로 임베딩을 사용할 수도 있습니다.
  • Object Detection
    • 입력으로 이미지를 가져와 이미지 장면 내에서 객체의 모든 인스턴스를 식별합니다.
  • 의미 체계 분할
    • 이 알고리즘은 미리 정의된 클래스 세트에서 가져온 클래스 레이블을 사용해 이미지의 모든 픽셀에 태그를 지정합니다.
    • 태그 지정은 장면을 이해하는 데 기본적인 기능으로, 자율 주행 차량, 의료 영상 진단 및 로봇 감지 등과 같이 점점 늘어나고 있는 컴퓨터 비전 응용 분야에 중요합니다.
  • Sequence-to-Sequence
    • 애플리케이션의 예로는 기계 번역(한 언어의 문장을 입력하고 다른 언어에서 어떤 문장이 나올지 예측), 텍스트 요약(길이가 긴 단어 문자열을 입력하고 길이가 짧은 요약 단어 문자열을 예측), 음성-텍스트 변환(오디오 클립이 토큰으로 된 출력 문장으로 변환됨)이 있습니다.
  • XGBoost
    • 그라디언트 부스팅 트리 알고리즘
    • 다양한 데이터 형식, 관계, 분포 및 미세 조정할 수 있는 다양한 하이퍼파라미터를 강력하게 처리하기 때문에 기계 학습 경쟁에서 잘 작동합니다.
    • 회귀, 분류(이진, 멀티클래스)및 순위 결정 관련 문제에서 사용할 수 있습니다.

비지도학습

  • BlazingText
    • Word2vec 및 텍스트 분류 알고리즘을 최적화해 구현한 알고리즘 입니다.
    • Word2vec 알고리즘은 감정 분석, 명명된 엔터티 인식, 기계 번역 등 여러 가지 다운스트림 자연 언어 처리(NLP) 작업에 유용합니다.
  • IP Insights
    • 변칙적인 IP 주소에서 웹 서비스에 로그인하려고 하는 사용자를 식별할 수 있습니다.
    • 비정상적인 IP 주소에서 컴퓨팅 리소스를 생성하려고 하는 계정을 식별할 수도 있습니다.
  • k-means
    • 데이터 내 별도의 그룹화를 찾으려 합니다.
  • Latent Dirichlet Allocation(LDA)
    • 텍스트 코퍼스 내에 있는 문서에서 공유하는 사용자별 주제를 찾는 데 가장 일반적으로 사용됩니다.
  • Neural Topic Model(NTM)
    • 통계적 분포를 기반으로 하는 단어 그룹화가 포함됩니다.
    • 감지된 주제를 기반으로 문서를 분류 또는 요약하거나, 주제의 유사성을 기반으로 정보를 검색하거나 콘텐츠를 추천하는 데 사용할 수 있습니다.
      • 주제의 의미는 주로 포함된 상위 단어를 검사하여 추론됩니다. 비지도 메서드이기 때문에 주제 자체가 아닌 주제의 수만이 사전 지정됩니다.
  • Principal Component Analysis(PCA)
    • 가급적 많은 정보를 보유하면서 데이터 세트 내의 차원(특징의 수)을 축소시킵니다.
    • 축소된 근사치에서 특징을 찾아냅니다.
      • 일반: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.
      • 무작위로: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.
  • Random Cut Forest(RCF)
    • 변칙은 시계열 데이터에서 예기치 않은 급증, 주기성 내의 끊어짐 또는 분류할 수 있는 데이터 지점으로 나타날 수 있습니다.
728x90