728x90
내장 알고리즘을 지도/비지도로 간단하게 정리해 보았다. MLS모의고사를 풀어보니 알고리즘의 상세한 구성이나 수학식 보다는 해당 알고리즘이 쓰이는 상황과 하이퍼파라미터 튜닝과 관련된 내용이 많이 보였다.
지도학습
- DeepAR Forecasting
- 자동 회귀적 통합 이동 평균(ARIMA) 또는 지수 평활(ETS)과 같은 고전적 예측 방법은 단일 모델을 개별 시계열에 맞춥니다.
- context_length 하이퍼파라미터를 사용해 과거의 시점을 정할 수 있습니다.
- prediction_length 하이퍼파라미터를 사용해 미래 시점을 정할 수 있습니다.
- Factorization Machine
- 분류 및 회귀 작업 모두에 대해 사용할 수 있는 범용 지도 학습 알고리즘입니다.
- 클릭 예측 및 품목 추천과 같은 고차원 희소 데이터 세트를 처리하는 작업에 있어 좋은 선택합니다.
- Image Classification
- 다중 레이블 분류를 지원합니다.
- 이미지를 입력으로 해당 이미지에 할당된 하나 이상의 레이블을 출력합니다.
- 초기부터 교육하거나 훈련된 이미지를 이용할 수 없는 경우 전송 합습을 사용해 교육할 수 있습니다.
- K-Nearest Neighbors(k-NN)
- 데이터간 거리가 가까운 K 개의 레이블을 참조하여 분류합니다.(이때, 유클리디안 계산법 사용)
- Linear Learner
- 회귀문제를 해결하는데 사용되는 학습법 입니다.
- 지속적 목표(예: 평균 제곱근 오차, 교차 엔트로피 손실, 절대 오차).
- 분류에 맞는 별도 목표(예: F1 측정, 정밀도, 재현율 또는 정확도)
- 회귀문제를 해결하는데 사용되는 학습법 입니다.
- Object2Vec
- Object2Vec 은 SageMaker에서 최적화된 단어에 대해 잘 알려진 Word2Vec 임베딩 기법을 일반화합니다.
- 다운스트림 지도 작업(예: 분류 또는 회귀)에서 해당 객체의 특징으로 임베딩을 사용할 수도 있습니다.
- Object Detection
- 입력으로 이미지를 가져와 이미지 장면 내에서 객체의 모든 인스턴스를 식별합니다.
- 의미 체계 분할
- 이 알고리즘은 미리 정의된 클래스 세트에서 가져온 클래스 레이블을 사용해 이미지의 모든 픽셀에 태그를 지정합니다.
- 태그 지정은 장면을 이해하는 데 기본적인 기능으로, 자율 주행 차량, 의료 영상 진단 및 로봇 감지 등과 같이 점점 늘어나고 있는 컴퓨터 비전 응용 분야에 중요합니다.
- Sequence-to-Sequence
- 애플리케이션의 예로는 기계 번역(한 언어의 문장을 입력하고 다른 언어에서 어떤 문장이 나올지 예측), 텍스트 요약(길이가 긴 단어 문자열을 입력하고 길이가 짧은 요약 단어 문자열을 예측), 음성-텍스트 변환(오디오 클립이 토큰으로 된 출력 문장으로 변환됨)이 있습니다.
- XGBoost
- 그라디언트 부스팅 트리 알고리즘
- 다양한 데이터 형식, 관계, 분포 및 미세 조정할 수 있는 다양한 하이퍼파라미터를 강력하게 처리하기 때문에 기계 학습 경쟁에서 잘 작동합니다.
- 회귀, 분류(이진, 멀티클래스)및 순위 결정 관련 문제에서 사용할 수 있습니다.
비지도학습
- BlazingText
- Word2vec 및 텍스트 분류 알고리즘을 최적화해 구현한 알고리즘 입니다.
- Word2vec 알고리즘은 감정 분석, 명명된 엔터티 인식, 기계 번역 등 여러 가지 다운스트림 자연 언어 처리(NLP) 작업에 유용합니다.
- IP Insights
- 변칙적인 IP 주소에서 웹 서비스에 로그인하려고 하는 사용자를 식별할 수 있습니다.
- 비정상적인 IP 주소에서 컴퓨팅 리소스를 생성하려고 하는 계정을 식별할 수도 있습니다.
- k-means
- 데이터 내 별도의 그룹화를 찾으려 합니다.
- Latent Dirichlet Allocation(LDA)
- 텍스트 코퍼스 내에 있는 문서에서 공유하는 사용자별 주제를 찾는 데 가장 일반적으로 사용됩니다.
- Neural Topic Model(NTM)
- 통계적 분포를 기반으로 하는 단어 그룹화가 포함됩니다.
- 감지된 주제를 기반으로 문서를 분류 또는 요약하거나, 주제의 유사성을 기반으로 정보를 검색하거나 콘텐츠를 추천하는 데 사용할 수 있습니다.
- 주제의 의미는 주로 포함된 상위 단어를 검사하여 추론됩니다. 비지도 메서드이기 때문에 주제 자체가 아닌 주제의 수만이 사전 지정됩니다.
- Principal Component Analysis(PCA)
- 가급적 많은 정보를 보유하면서 데이터 세트 내의 차원(특징의 수)을 축소시킵니다.
- 축소된 근사치에서 특징을 찾아냅니다.
- 일반: 희소 데이터와 적당한 수의 관측치 및 특징이 포함된 데이터 세트.
- 무작위로: 많은 수의 관측치 및 특징이 포함된 데이터 세트. 이 모드는 근사치 알고리즘을 사용합니다.
- Random Cut Forest(RCF)
- 변칙은 시계열 데이터에서 예기치 않은 급증, 주기성 내의 끊어짐 또는 분류할 수 있는 데이터 지점으로 나타날 수 있습니다.
728x90
'Server Infra > AWS' 카테고리의 다른 글
AWS SAP on AWS - Specialty 취득 후기 (1) | 2022.09.30 |
---|---|
AWS Machine Learning - Specialty 취득 후기 (6) | 2022.05.28 |
Amazon Redshift VACUUM 관련 (0) | 2022.05.09 |
늦게나마 쓰는 AWS DNA1기 후기 및 근황 (0) | 2022.05.06 |
EBS 내부구조 분석 (0) | 2022.04.18 |