'분석에 필요한 수학 & 통계' 카테고리의 글 목록

분석에 필요한 수학 & 통계

머신러닝에 필요한 수학 | 확률 & 조건부 확률

2018. 6. 4. 18:14

안녕하세요!

오늘은 머신러닝의 지도학습, 분류 및 예측에 사용되는 알고리즘인

나이브 베이즈, 결정트리, 회귀 분석을 위해 필수적으로 알아야하는

확률에 대해 알아보도록 하겠습니다!

우선 확률을 이야기 하려면 어떤 사건이 발생해야 합니다.

잠깐! 여기서 사건이란 무엇일까요?

우선 확률과 관련된 용어를 알아봅시다!

어떤일이 발생하기위해 뭔가 해보는 것, 그것을 시행이라고 합니다.

예를 들어 동전을 던지는 것, 주사위를 던지는 것이 시행입니다.

단, 시행은 동일한 조건하에 행해져야 합니다.

표본공간이란 시행을 했을 때 나타나는 모든 결과를 의미합니다.

예를 들어, 주사위를 여러번 던졌을 때 1에서 6까지의 눈이 나오는 것,

그것을 모아놓은 것이 바로 표본공간입니다.

표본공간 속에서 사건이 일어납니다.

예를 들어, 주사위를 던질 때 1이 나오거나 짝수의 눈이 나오는 것을 사건이라고 합니다.

즉, 사건이란 시행을 하는 것이 아니라

시행을 했을 때 나오는 결과를 의미합니다.

따라서 사건은 표본 공간의 부분집합이 됩니다.

사건이 하나씩만 일어날 수 있는 것을 근원 사건이라고 합니다.

예를 들어, 주사위의 경우 1,2,3,4,5,6이 각각 나오는 것을 근원사건이라고 합니다.

[확률 기본]

확률은 아래와 같이 표현하며,

여기서 P는 Probability의 약자입니다.

P(A)

따라서 P(A)는 A가 일어날 사건이라고 표현합니다.

확률에도 크게 두가지 종류가 있습니다.

수학적 확률과 통계적 확률

우선, 수학적 확률이란, 수학적으로 어떤 이상적인 확률(의 결과)을 의미하는 것입니다.

예를 들어, 동전을 던졌을 때 앞면이 나올 확률을 1/2 이 되는 것입니다.

통계적 확률이란, 실제생활에서 일어나는 확률로

어떤 일을 했을 때, 어떤 일이 일어날 확률을 의미합니다.

예를 들어, 전체 30명의 학생들이 있고 이 중에 안경을 쓴 학생들이 10명이라고 했을 때,

30명 중에 어떤 한 학생이 안경을 쓰고 있을 확률은 10/30 이 되는 것입니다.

수학적 확률을 표현하는 방법

P(A)

= A사건이 일어날 원소의 갯수 / 표본공간의 원소의 갯수

= n(A) / n(S)

확률은 기본적으로 0보다 크거나 같고,

무조건 일어날 확률은 100%, 즉 1보다 작거나 같습니다.

0 <= P(A) <= 1

[조건부 확률]

확률은 결합 확률과 조건부 확률이 있습니다.

결합확률은 서로 배반되는 두 사상 A와 B가 있을 때,

두 사상이 연속적으로 또는 동시에 일어나는 확률을 의미합니다.

<결합확률 표기>

P(A ∩ B)

조건부 확률은 어떠한 상황이 주어졌을 때,

그 상황 속에서 다른 상황이 일어날 확률을 의미합니다.

<조건부확률 표기>

P(A | B)

[사건의 종류]

사건은 독립사건과 종속사건으로 나뉩니다.

독립사건이란, 두개의 사건이 일어났는데

두 사건이 전혀 연관되지 않았다면 독립사건입니다.

<독립사건 표기>

P(A | B) = P(A)

종속사건이란, 사건B가 일어났을 경우와 일어나지 않았을 경우에 따라,

사건 A가 일어날 확률이 다를 때 (즉, B의 영향을 받는 경우를 의미)

A는 B의 종속사건이라고 합니다.

예를 들어, 비가 오면 우산이 팔릴 확률이 높아지는 것은

두 사건의 관계가 종속 관계라는 것을 의미합니다.

<종속사건 표기>

P(A | B) = P(A ∩ B) / P(B)

오늘은 여기까지!

다음 포스팅할

나이브 베이즈 이론과 결정트리, 회귀분석에서

이를 활용하는 방법에 대해 같이 포스팅하도록 하겠습니다!

내용 출처: 그림으로 설명하는 개념 쏙쏙 통계학

EBS 고교강의 친절한 하영쌤의 수학

저작자표시 비영리 변경금지

'분석에 필요한 수학 & 통계' 카테고리의 다른 글

머신러닝, 딥러닝에 필요한 \| 지수함수 & 로그함수 (0)	2018.05.01
머신러닝, 딥러닝에 필요한 \| 로그 & 상용로그 (0)	2018.04.13

머신러닝, 딥러닝에 필요한 | 지수함수 & 로그함수

2018. 5. 1. 09:40

안녕하세요!

오늘은

신경망에서 오차 역전파에서 사용되는

지수함수와 로그함수에 대해 알아보겠습니다.

고등학교 수학시간때 들었지만

저는 기억이 가물가물... 열심히 하지 않았나봐요..

그래서 딥러닝을 위해 다시 공부해보도록 하겠습니다!

우선,

지수란?

2 x

이러한 거듭제곱의 형태를 말합니다.

그렇다면,

지수함수란?

y = 2 x

위와 같이 y= 을 붙여서 짝을 지어주는 것을 말합니다.

이것을 밑이 2인 지수함수라고 합니다.

이러한 지수함수는 밑이 1보다 큰 경우와

밑이 0보다 크고 1보다 작은 경우로 나눌 수 있습니다.

그래프로 비교해 볼까요?

(1 < 밑) y = 2 x 함수의 그래프

(0 < 밑 < 1) y = (1/2) x 함수의 그래프

따라서

y = 2 x 그래프와 y = (1/2) x 그래프는 Y축 대칭입니다.

y = 2 x 는 증가함수 그래프의 형태를

y = (1/2) x 는 감소함수 그래프의 형태를 띄게됩니다.

(위의 그래프는 구글에서 직접 그려보실 수 있습니다.)

로그 함수란?

y = loga x (a > 0, a != 1, x > 0)

이것을 a를 밑으로 하는 로그함수라고 말합니다.

여기서 x는 진수입니다.

로그함수는 지수함수의 역함수입니다.

이러한 로그함수도 밑이 1보다 큰 경우와

밑이 0보다 크고 1보다 작은 경우로 나눌 수 있습니다.

그래프로 확인해 볼까요?

(1 < 밑) 일 때, 아래의 그래프 형태를 띕니다.

(0 < 밑 < 1) 일 때, 아래의 그래프 형태를 띕니다.

따라서

y = loga x 그래프와 y = a x 그래프는 Y = X축 대칭입니다.

y = x 라는 것은 x 대신 y, y 대신 x 의 값을 갖는 다는 것입니다.

오늘은 여기까지!

이 원리를 이용하는 신경망 오차 역전파 방법은 파이썬에서 활용해보도록 해보겠습니다.

저작자표시 비영리 변경금지

'분석에 필요한 수학 & 통계' 카테고리의 다른 글

머신러닝에 필요한 수학 \| 확률 & 조건부 확률 (0)	2018.06.04
머신러닝, 딥러닝에 필요한 \| 로그 & 상용로그 (0)	2018.04.13

머신러닝, 딥러닝에 필요한 | 로그 & 상용로그

2018. 4. 13. 18:20

안녕하세요

빅데이터에 관심이 있으신 분들은 머신러닝과 딥러닝에 수학, 통계가 필요하다는 것을 아실 겁니다.

하지만 어떤 개념이 필요한지 알려주는 사이트가 없었습니다.

그래서 머신러닝 & 딥러닝 & 빅데이터 분석가를 꿈꾸는 학생으로서

이렇게 찾아뵙게 되었습니다!!

그 첫 번째 포스팅!

오늘은

머신러닝의 결정트리와 딥러닝의 신경망 활성화 함수, 오차함수에 사용되는

로그와 상용로그에 대해 알아보도록 하겠습니다.

우선, 로그란 무엇이며 왜 사용할까요?

로그의 기원은

중세시대 천문학이 자연과학으로 발전될 때,

매우 큰 수로 이루어지는 천체의 관측 자료를

정리하거나 계산을 간단히 하기위해 사용되었습니다.

즉, 로그의 발명은

큰 숫자를 작은 숫자로 표현하기 위해,

덧셈과 뺄셈만큼이나 곱셈과 나눗셈을 간단히 하려는 생각에서 비롯된 것이죠.

<지수와 로그 관계>

위의 logarithm form을 해석해보면,

a를 밑으로 하는 N의 로그라고 합니다.

또, N을 log a N의 진수라고 합니다.

오라클에서도 LOG함수를 지원합니다.

SQL> SELECT log(a, N) FROM dual;

위의 dual이란, 결과를 보기위한 가상의(더미) 테이블입니다.

그럼 로그의 성질을 알아볼까요?

위의 성질이 성립함을 알고 싶으시다면 쉽게 찾아보실 수 있습니다.

여기서는 중요한 부분이 아니므로 pass!

문제1. 2log 3 6 - log 3 (4/9) 의 값을 구하여라.

상용로그란 무엇일까요?

우선 상용의 뜻은 항상 사용한다는 의미입니다.

우리가 가장 많이 사용하는 진법은 2진법도, 8진법도, 16진법도 아닌 10진법이죠?

따라서 상용로그는 로그에서 밑을 10으로 하는 로그라고 합니다!

따라서 다음과 같이 표기합니다.

log10 N = log N

즉 밑수가 없는 경우 상용로그라고 합니다!

상용로그도 오라클 로그함수로 사용할 수 있답니다.

문제2. 오라클 SQL문으로 다음의 값을 구하라

(1) log 123

(2) log 0.0345

상용로그 표를 보면 풀 수 있는 문제지만

ORACLE, R, PYTHON 등의 응용 프로그래밍 언어를 이용하면

보다 쉽게 풀 수 있답니다.

R과 PYTHON 등의 문법과 딥러닝에 사용하는 방법은

다음에 각 카테고리별로 추가 포스팅하겠습니다~

오늘은 여기까지!

다음 포스팅은 2주뒤에 봐요~

저작자표시 비영리 변경금지

'분석에 필요한 수학 & 통계' 카테고리의 다른 글

머신러닝에 필요한 수학 \| 확률 & 조건부 확률 (0)	2018.06.04
머신러닝, 딥러닝에 필요한 \| 지수함수 & 로그함수 (0)	2018.05.01

PREV 1 NEXT

매일매일 딥러닝