math
스칼라
- 방향의 길이 (모든 요인의 덧셈 후 루트)
vector(dimension)
- [2,2,3] x,y,z 표기(요인)하며 수직으로 표기 일 수 위에서 아래로 하향식으로 표현
- 상관계수가 높은 요인은 묶어서 표현 가능(차원축소로 파생변수로 변경)
선형대수
- 선형대수(벡터x행렬) = 딥러닝 (확률 + 선형대수(확률표현) + 미분)
- 주대각선(diagonal entry)
- 주대각선 위의 수치 제외한 수치가 0인 경우 : diagonal matrix
- 전치행렬(transpose matirix) : 주대각선 기준(대칭)으로 뒤집어서 만든 행렬
- symetric matrix (대칭행렬) : 전치행렬로 변경해도 동일한 matrix
- Square matirx : 정사각형 matrix
- Identiry matrix : 모든 대각성문이 1, 나머지는 0
- 행렬의 항등원 역할 : 연산하면 자기 자신 :: 곱하기의 1, 더하기의 0과 같은 역할
- 행렬과 행렬 곱
- A의 행1과 B열1의 덧셈
- 선형변환 = 행렬 곱하기
- 역행렬
- AX=B 에서 A의 역행렬 A-1가 존재한다면 X = A-1B
- 역행렬 존재하면 유일한 해가 존재/ 없으면 해가 없거나 무수히 많다
- 행렬식 determinant을 이용해 역행렬 존재 유무 확인
- square matrix를 하나의 숫자로 맵핑하는 함수 : a11a22-a12a21
미분 (머신러닝의 목적함수를 최적화하는 알고리즘: 모형의 파라미터(모수) 찾기
-
회귀분석의 회귀계수 추정 (likelihood 최대화)
-
오토인코더의 차원축소 (Reconstruction error 최소화)
-
GMM/HMM (likelihood 최대화)
-
최적화 문제는 vector gradient의 문제
-
미분 - 기울기
- 직선 기울기 = y변동량/ x변동량
- 곡선 기울기 : 점a가 점b와 무한히 가까워질 때 직선 ab의 기울기 = y=x제곱atXa= -1
-
미분 최적화
- analytical approach : 모든 미분 가능한 점에서 미분값이 0되는 지점을 찾기
- gradient descent algorithm : 1차 미분값을 통해 경사의 반대 방향으로 이동시켜 극값에 이를 때까지 반복
-
고차(이차) 미분
- 1차 미분 : 순간 변화율
- 2차 미분 : 순간 변화율의 순간 변화율 (acceleration)
-
편미분 : 다변수함수의 특정 변수를 제외한 나머지 변수를 상수로 간주하여 미분하는 것
- 다변수함수의 미분 시 gradient는 모든 변수의 편미분 값을 원소로 하는 벡터이자 가장 가파른 경사 방향을 가르키는 벡터 (함수의 출력값이 가장 크게 증가하는 방향)
-
전미분 : f(x,y)=cos(xy) : 다변수함수의 모든 변수의 변화에 따라 변화하는 행태를 근사하는 양
확률/통계
최적화
단어
- likelihood : 가능성 : 관측된 사건이 고정된 상태에서 확률 분포가 변화 될 때의 확률
- 예) 선택 가능한 정수의 범위 1~5에서 다른 정수 범위 1~10, 5~20으로 바꾸면서(확률 분포를 변동), 특정 정수가 관측될 확률을 계산(관측 사건이 고정)할 경우의 확률
- probabilty : 확률 : 확률 분포가 고정된 상태에서 관측되는 사건이 변화 될 때의 확률
- 예) 선택 가능한 정수의 범위 1~5로 제한하고 확률 계산
- reconstruction error : 차원복원 오차
- 원본 데이터 축소 후 다시 복원된 데이터 사이의 평균 제곱거리
- 딥러닝 학습
- 데이터로부터 패턴을 배움 > 데이터로부 확률 분포 배움