본문 바로가기

전체 글

(22)
Lecture 7: Kernel Method Non-linearity 우리는 linear regression을 할 때 선형적인 함수를 사용한다. 하지만, 모든 변수 간 관계가 선형적인 관계를 가지는 게 아니기 때문에, 때때로는 비선형적인 함수를 사용해야 할 때가 있다. 우리는 데이터를 비선형 함수를 이용해 feature-mapping해서 비선형성을 다룬다. - $h_{\theta}\left ( x \right ) = \theta \times \phi \left ( x \right )$ 여기서 함수 $h$는 $\theta$와 $\phi$에 대해서는 선형이고, $x$에 대해서는 선형이 아님을 알 수 있다. 그러므로 우리는 $\theta$와 $\phi$에 대해서 Linear regression을 할 수 있다. Linear Regression 원소 $x$..
Lecture 6: Naive Bayes, Laplace smoothing 다 들었는데 블로그에 글을 안써서... 특히 수식 변환 쓰는 난이도가 더럽게 어렵다.Source of Knowledge assumptions$($가설$)$data$($현실에서의 경험, 데이터$)$ Example: Spam Classification 이메일에서의 text를 feature vector $x \in \mathbb{R}^d$로 변환한다고 하자. one-hot encoding을 사용하고, $d$가 사전에 있는 단어들의 개수라 정의할 때, $x_i$는 사전에 $i$번째 단어가 등장하는 경우 $1$으로 정의된다.  예를 들어, I ate apple이라는 문장은 사전이 $[I, am, main, function, ate, apple]$일때 $[1, 0, 0, 0, 1, 1]$로 변형된다는 것이다. 이걸..
Lecture 5: GDA GLA vs DLA 매우 간단히 요약하자면 다음과 같다.Generative Learning AlgorithmDiscriminative Learning Algorithm$p(x, y)$를 구하는 게 목표$p(y | x)$를 구하는 게 목표 $p(y | x)$만 구하는 DLA와는 다르게 GLA는 $p(x, y)$를 구하기 위해 $p(x | y)$와 $p(y)$도 같이 계산한다. 그러므로 베이즈 정리를 잘 이용하면 GLA로도 $p(y | x)$를 구할 수 있지만 사용할 수 있는 영역 자체는 GLA가 더 넓다.GDA 소개 GDA$($Gaussian Discriminant Analysis$)$는 이름만 보면 DLA일거 같지만 GLA에 속하는 알고리즘이다. 일단 GDA를 위한 가정은 다음과 같다. $x \in \m..
Lecture 4 - Exponential Family & GLM https://youtu.be/goDDnBbJQ4g?feature=sharedExponential Family 아이디어는 확률 변수가 어떤 확률 분포를 따른다고 할 때, 여러 확률 분포를 우리는 일반화할 수 있을 것이다. 그래서 여러 가지 이점을 얻을 수 있는데, 우리가 사용할 일반화는 바로 Exponential Family이다. 지수족은 다음과 같은 PMF 또는 PDF 식을 가진 확률 분포들의 일반화이다.  $P\left(y; \theta\right) = h\left(x\right)\exp\left[\eta\left(\theta\right)\times T\left(x\right) - A\left(\theta\right)\right]$ 이런 형태를 가진 식은 많은데, 하나만 들자면 n개 중에 y번 성공할..
CS229: Lecture 3 https://www.youtube.com/watch?v=k_pDh_68K6c&list=PLoROMvodv4rNyWOpJg_Yh4NSqI4Z4vOYy&index=3Properties of Noise of Linear model linear model에서 $y^{(i)} - \theta^T x^{(i)} = \epsilon^{(i)}$이라 하자. $\epsilon^{(i)}$는 noise라 해서 실제 값과 예측 값의 차이인데, 다음과 같은 특징을 가진다. $\mathbb{E}[\epsilon^{(i)}] = 0$$\mathbb{E}[\epsilon^{(i)}\epsilon^{(j)}] = \mathbb{E}[\epsilon^{(i)}]\mathbb{E}[\epsilon^{(j)}]$$\mathbb{E}[(..
CS229: Supervised Learning - Lecture 2 https://www.youtube.com/watch?v=Bl4Feh_Mjvo&list=PLoROMvodv4rNyWOpJg_Yh4NSqI4Z4vOYy 이 글은 위의 Lecture 2를 괴랄하게 요약한 글이다. 나의 언어로 요약한 글이라 읽는 걸 추천하지 않는다..What is supervised learning? Supervised learning, 한국어로 지도 학습이란 입력 데이터에서 하나의 함수 $f: x \rightarrow y$를 끌어내기 위한 학습이다. 이때 입력에 의한 출력 $y$의 타입에 따라 지도 학습의 종류가 나눠지는데, $y$가 이산적인 데이터라면 classification이고 연속적인 데이터라면 regression이라 한다. How do we represent $f$? 제일 간단한 ..
4장: Context가 없는 게임 아래의 내용은 "게임 AI를 위한 탐색 알고리즘 입문"의 내용을 나름대로 정리한 것이다. 내가 짠 코드는 다음과 같으며, 책의 코드와 다를 수 있다.https://github.com/radicalparty/ai_search/tree/main/4이번에 알고리즘을 소개하기 위해 가져온 게임은 저번과는 다르다.게임 규칙:요소설명플레이어 목적게임이 종료할 때까지 가장 높은 점수 얻기플레이어 수1인플레이어의 행동 타이밍게임 전체에서 1번플레이어가 가능한 행동모든 캐릭터의 초기 배치 설정게임 종료 조건정해진 턴 수를 넘김기타캐릭터는 다수 존재하며 1턴에 한 번, 이웃 칸 중 가장 점수가 높은 칸으로 이동. 여러 캐릭터가 동시에 같은 칸에 도달하면 점수는 한 번만 더함. 초기 배치에 포함된 칸의 점수는 더하지 않고 ..
3장: Context가 있는 게임 코드: https://github.com/radicalparty/ai_search/tree/main/3Context가 있는 게임이란: 일반적인 용어가 아닌 책의 저자가 만든 용어로, 게임 진행 순서에 따라 결과가 변하는 게임이다. 예를 들자면, A에서 B로 갈 때 C를 거칠 수도 있고, D를 거칠 수도 있고, 아니면 바로 A에서 B로 갈 수 있다고 생각해보자. 이때 C를 거치는 경우와 D를 거치는 경우, 바로 가는 경우의 결과가 다르다면 Context가 있는 게임이라고 할 수 있다.예시로 들 미로 게임 규칙: 설명플레이어의 목적가장 높은 점수플레이어 수1인플레이어의 행동 타이밍1턴에 1회플레이어가 가능한 행동각 턴마다 캐릭터를 상하좌우 중 한 방향으로 이동게임 종료 조건정해진 턴 수를 넘김기타 조건캐릭터..