강화학습이란?
주어진 상황에서 어떠한 행동을 취할지 학습하는 것. 행동의 결과는 최대한의 이득을 가져와야 하며, 그 이득의 함수는 수치적 표현이 가능해야 한다. 학습자는 어떤 행동을 취할지에 대한 어떠한 지침 없이 시행착오를 통해서 찾아내야 한다. 강화학습은 정답이 미리 존재하는 지도 학습이나 정답 없이 데이터에서 패턴을 읽어내야 하는 비지도학습과는 구별되는 제 3의 학습 방법이다.
강화학습의 구성 요소
- 정책: 특정 시점에서 학습자가 취하는 행동.
- 보상 신호: 강화학습이 성취해야 할 목표를 정의함. 무엇이 좋은가를 즉각적으로 안내함.
- 가치 함수: 장기적인 관점에서 평가한 지표.
- 환경 모델: 현재 상태와 취해지는 행동으로부터 다음 상태와 보상을 예측.
- 모델과 계획을 사용해서 강화학습 문제를 해결 $\rightarrow$ model-based learning
- 전적으로 시행착오를 해서 해결 $\rightarrow$ model-free learning
한계
- 상태라는 개념에 크게 의존함.
- 강화 학습 문제를 해결하기 위해 가치 함수를 추정해야 함.
- 유전 알고리즘, 담금질 기법 등 진화적 방법을 사용 가능해서 향상시킬 수 있음.
'AI' 카테고리의 다른 글
개발자를 위한 머신러닝 & 딥러닝 - NLP (0) | 2024.05.20 |
---|---|
개발자를 위한 머신러닝 & 딥러닝 - 고급 컴퓨터 비전 (0) | 2024.05.20 |
개발자를 위한 머신러닝 & 딥러닝 - 컴퓨터 비전 (0) | 2024.05.20 |
개발자를 위한 머신러닝 & 딥러닝 - 모델 구축 (0) | 2024.05.20 |