Computer-Science

Supervised Learning

K-Nearest Neighbors

What is K-Nearest Neighbors?

K-Nearest Neighbors(K-์ตœ๊ทผ์ ‘ ์ด์›ƒ, K-NN)์€ ๋จธ์‹  ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ค‘ ํ•˜๋‚˜๋กœ, ๋ฐ์ดํ„ฐ ๋ถ„๋ฅ˜ ๋ฐ ํšŒ๊ท€ ๋ถ„์„์— ์‚ฌ์šฉ๋˜๋Š” Supervised Learning ๋ฐฉ์‹์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. K-NN์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•  ๋•Œ, ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด K๊ฐœ์˜ ์ด์›ƒ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์ฐพ์•„ ์ด๋“ค์˜ ํด๋ž˜์Šค๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ด๋‹น ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์˜ ํด๋ž˜์Šค๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ์ด ๋•Œ, ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•  ๋•Œ์—๋Š” L2 Distance (Euclidean distance)๊ฐ€ ์‚ฌ์šฉ๋œ๋‹ค.

K-NN์˜ ์žฅ์ 

K-NN์˜ ๋‹จ์ 

ํšŒ๊ท€์™€ ๋ถ„๋ฅ˜

Regression VS. Classification

๊ธฐ๊ณ„ ํ•™์Šต ์ค‘ Supervised Learning์—๋Š” ๋‘ ๊ฐ€์ง€ ์œ ํ˜•์ด ์žˆ๋‹ค. ๋ฐ”๋กœ ํšŒ๊ท€ (Regression) ๋ฐ ๋ถ„๋ฅ˜ (Classification)์ด๋‹ค.

ํšŒ๊ท€๋Š” ์—ฐ์†์ ์ธ ์ˆซ์ž ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์˜ˆ์ธก ๋ชจ๋ธ๋ง ์œ ํ˜•์ด๋‹ค. ํšŒ๊ท€์˜ ๋ชฉํ‘œ๋Š” ์ƒˆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ๋งŒ๋“œ๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ž…๋ ฅ ๋ณ€์ˆ˜์™€ ์ถœ๋ ฅ ๋ณ€์ˆ˜ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ํšŒ๊ท€ ์ž‘์—…์˜ ์˜ˆ๋กœ๋Š” ํ‰๋ฐฉ ํ”ผํŠธ ๋ฐ ์นจ์‹ค ์ˆ˜์™€ ๊ฐ™์€ ๊ธฐ๋Šฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฃผํƒ ๊ฐ€๊ฒฉ์„ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ์˜จ๋„ ๋ฐ ์Šต๋„์™€ ๊ฐ™์€ ๊ธฐ๋Šฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ•์šฐ๋Ÿ‰์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์žˆ๋‹ค.

๋ฐ˜๋ฉด ๋ถ„๋ฅ˜๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ์†ํ•œ ํด๋ž˜์Šค ๋˜๋Š” ๋ฒ”์ฃผ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. ๋ถ„๋ฅ˜์˜ ๋ชฉํ‘œ๋Š” ์ž…๋ ฅ ๊ณต๊ฐ„์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒฐ์ • ๊ฒฝ๊ณ„๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋ถ„๋ฅ˜ ์ž‘์—…์˜ ์˜ˆ๋กœ๋Š” ์ด๋ฉ”์ผ์ด ์ŠคํŒธ์ธ์ง€ ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ํ™˜์ž์˜ ์ฆ์ƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํŠน์ • ์งˆ๋ณ‘์ด ์žˆ๋Š”์ง€ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์žˆ๋‹ค.

ํšŒ๊ท€์™€ ๋ถ„๋ฅ˜์˜ ์ฃผ์š” ์ฐจ์ด์ ์€ ์˜ˆ์ธกํ•˜๋Š” ์ถœ๋ ฅ ๋ณ€์ˆ˜์˜ ์œ ํ˜•์ด๋‹ค. ํšŒ๊ท€๋Š” ์—ฐ์†์ ์ธ ์ˆซ์ž ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ˜๋ฉด (continuous),
๋ถ„๋ฅ˜๋Š” ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ์†ํ•œ ํด๋ž˜์Šค ๋˜๋Š” ๋ฒ”์ฃผ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค (discrete).

์š”์•ฝํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

Logistic Regression for Binary Classification

Logistic Regression์€ ์ด์ง„ ๋ถ„๋ฅ˜(Binary Classification) ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํ†ต๊ณ„ํ•™์  ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ด๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ž…๋ ฅ ํŠน์„ฑ(feature)๊ณผ ์ด์ง„ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ(target) ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ž…๋ ฅ๊ฐ’์— ๋Œ€ํ•œ ๋ถ„๋ฅ˜ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค.

Logistic Regression์€ ์ž…๋ ฅ๊ฐ’๊ณผ ๊ฐ€์ค‘์น˜(weight)์˜ ์„ ํ˜• ์กฐํ•ฉ์„ ๊ณ„์‚ฐํ•œ ํ›„, ์ด๋ฅผ Logistic Function์— ์ ์šฉํ•˜์—ฌ ํ™•๋ฅ ๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด ํ™•๋ฅ ๊ฐ’์„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ๋Š” 0.5๋ฅผ ๊ธฐ์ค€์œผ๋กœ 0 ๋˜๋Š” 1๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค.

Logistic Regression์ด ์ด์ง„ ๋ถ„๋ฅ˜์— ์ ํ•ฉํ•œ ์ด์œ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

ํ•˜์ง€๋งŒ Logistic Regression๋„ ๋ช‡ ๊ฐ€์ง€ ๋‹จ์ ์ด ์žˆ๋‹ค.

Sigmoid for Binary Classification

Sigmoid Function๋Š” Logistic Function ์ค‘ ํ•˜๋‚˜๋กœ, ์ž…๋ ฅ๊ฐ’์„ 0๊ณผ 1 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜์‹œ์ผœ์ฃผ๋Š” ํ•จ์ˆ˜์ด๋‹ค. ์ด ํ•จ์ˆ˜๋Š” ์ด์ง„ ๋ถ„๋ฅ˜(Binary Classification)์—์„œ ๋งค์šฐ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ถœ๋ ฅ๊ฐ’์„ ํ™•๋ฅ ๋กœ ๋‹ค๋ฃจ๋Š” ๊ฒฝ์šฐ์—๋„ ๋งŽ์ด ์‚ฌ์šฉ๋œ๋‹ค.

Sigmoid Function์˜ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

\[sigmoid(z) = \frac{1}{1 + e^{-z}}\]

์—ฌ๊ธฐ์„œ e๋Š” ์ž์—ฐ์ƒ์ˆ˜์ด๊ณ , z๋Š” ์ž…๋ ฅ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.

์ด ํ•จ์ˆ˜๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์•„๋ž˜ ๊ทธ๋ž˜ํ”„์ฒ˜๋Ÿผ S์ž ํ˜•ํƒœ๋ฅผ ๊ฐ–๊ฒŒ ๋œ๋‹ค.

์ž…๋ ฅ๊ฐ’ z๊ฐ€ 0์œผ๋กœ ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก ์ถœ๋ ฅ๊ฐ’์€ 0.5์— ์ˆ˜๋ ดํ•˜๊ณ ,
์ž…๋ ฅ๊ฐ’ z๊ฐ€ ํฐ ์–‘์ˆ˜์ผ ๊ฒฝ์šฐ ์ถœ๋ ฅ๊ฐ’์€ 1์— ๊ฐ€๊นŒ์›Œ์ง€๋ฉฐ,
์ž…๋ ฅ๊ฐ’ z๊ฐ€ ํฐ ์Œ์ˆ˜์ผ ๊ฒฝ์šฐ ์ถœ๋ ฅ๊ฐ’์€ 0์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค.

Sigmoid Function์˜ ์žฅ์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

ํ•˜์ง€๋งŒ Sigmoid Function๋Š” ๋ช‡ ๊ฐ€์ง€ ๋‹จ์ ๋„ ๊ฐ–๊ณ  ์žˆ๋‹ค.

์ฐธ๊ณ ๋กœ, ๋‹ค์ค‘ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์—์„œ๋Š” Softmax ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ReLU์™€ ๊ฐ™์€ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

Logistic Function์™€ Sigmoid Function์˜ ์ฐจ์ด์ 

Logistic Function์™€ Sigmoid Function์˜ ์ฐจ์ด์ ์€ ์ฃผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ชฉ์ ๊ณผ ์ˆ˜์‹์˜ ์˜๋ฏธ์—์„œ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

Logistic Function๋Š” Logistic Regression์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ™•๋ฅ  ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ํ•จ์ˆ˜์ด๋ฉฐ, ์ž…๋ ฅ๊ฐ’๊ณผ ์ถœ๋ ฅ๊ฐ’์˜ ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ์— ์‚ฌ์šฉ๋œ๋‹ค.

๋ฐ˜๋ฉด, Sigmoid Function๋Š” ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋ฐ์ดํ„ฐ์˜ ์Šค์ผ€์ผ๋ง, ์ •๊ทœํ™”, ๋ถ„๋ฅ˜ ๋“ฑ์— ์‚ฌ์šฉ๋œ๋‹ค.

๋”ฐ๋ผ์„œ, Logistic Function๋Š” Logistic Regression์—์„œ ํŠน์ • ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ํ•จ์ˆ˜์ด๋ฉฐ, Sigmoid Function๋Š” ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋˜๋Š” ์ผ๋ฐ˜์ ์ธ ํ•จ์ˆ˜์ด๋‹ค.

SVM Classifier VS. Softmax Classifier

SVM Classifier VS. Softmax Classifier

SVM Classifier์™€ Softmax Classifier๋Š” ๋ชจ๋‘ ๋ถ„๋ฅ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ค‘ ํ•˜๋‚˜๋กœ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฏธ๋ฆฌ ์ •์˜๋œ ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉ์ ์œผ๋กœ ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ๋‘ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋™์ž‘ ๋ฐฉ์‹์ด ๋‹ค๋ฅด๋‹ค.

๋จผ์ € SVM Classifier๋Š” Support Vector Machine์˜ ์•ฝ์ž๋กœ, ๊ฐ ํด๋ž˜์Šค๋ฅผ ๋ถ„๋ฆฌํ•˜๋Š” ์ตœ์ ์˜ ์ดˆํ‰๋ฉด(hyperplane)์„ ์ฐพ์•„์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•œ๋‹ค. ์ด๋•Œ SVM์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•  ๋•Œ, Margin(์—ฌ์œ  ๊ณต๊ฐ„)์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ดˆํ‰๋ฉด์„ ์ฐพ์•„๋‚ด์–ด, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋“ค์–ด์™”์„ ๋•Œ ๋ถ„๋ฅ˜๋ฅผ ๋” ์ž˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. SVM์€ ์ด Margin์„ ์ตœ๋Œ€ํ™”ํ•˜๋ฉด์„œ, ์ด์ƒ์น˜(outlier)์— ๋Œ€ํ•ด์„œ๋Š” ๋œ ๋ฏผ๊ฐํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

๋ฐ˜๋ฉด์— Softmax Classifier๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜ํ•  ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด๋•Œ Softmax ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์„ ๊ตฌํ•ด๋‚ธ๋‹ค. Softmax ํ•จ์ˆ˜๋Š” ํ•จ์ˆ˜์˜ ์ž…๋ ฅ๊ฐ’์„ ์ผ์ข…์˜ ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ, ๋ชจ๋“  ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํ™•๋ฅ ์˜ ํ•ฉ์ด 1์ด ๋˜๋„๋ก ๋งŒ๋“ค์–ด ์ค€๋‹ค. (output ๊ฐ’๋“ค์˜ ํฌ๊ธฐ ์ˆœ์„œ๋Š” ์œ ์ง€ํ•˜๋ฉด์„œ, ๊ฐ๊ฐ์ด 0 ์ด์ƒ์ด๊ณ  ํ•ฉ์ด 1์ด ๋˜๊ฒŒ ๋งŒ๋“ค์–ด์คŒ) ๋”ฐ๋ผ์„œ Softmax ํ•จ์ˆ˜๋Š” Classification์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋œ๋‹ค.

SVM๊ณผ Softmax Classifier์˜ ์ฐจ์ด์ ์„ ๊ฐ„๋‹จํžˆ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  1. SVM์€ Margin์„ ์ตœ๋Œ€ํ™”ํ•˜์—ฌ ์ด์ƒ์น˜(outlier)์— ๋Œ€ํ•ด ๋œ ๋ฏผ๊ฐํ•œ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. Softmax Classifier๋Š” ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ์ ํ•ฉํ•œ ๋ชจ๋ธ์ด๋‹ค.
  2. SVM์€ ์ดˆํ‰๋ฉด(hyperplane)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•œ๋‹ค. Softmax Classifier๋Š” ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜ํ•  ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ๋‹ค.
  3. SVM์€ ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์™€ ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ๋ชจ๋‘ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค. Softmax Classifier๋Š” ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.

SVM Classifier: Example

(1) ์–ด๋–ค ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด, forward ์ง„ํ–‰ ํ›„ ๋ชจ๋ธ์˜ output vector๊ฐ€ (10, 8, -2, 5) ์˜€๋‹ค. ํด๋ž˜์Šค ์ˆœ์„œ๋Š” ๊ณ ์–‘์ด, ๊ฐœ, ์‚ฌ์Šด, ๊ณฐ ์ˆœ์„œ์ด๊ณ , ์ด ์ด๋ฏธ์ง€์˜ ์ •๋‹ต์ด โ€˜๊ณฐโ€™์ด์—ˆ๋‹ค๊ณ  ํ•  ๋•Œ, ์ด ์ด๋ฏธ์ง€ ํ•˜๋‚˜์— ๋Œ€ํ•œ SVM Loss ๊ฐ’์„ ๊ตฌํ•˜๋ผ.

\[L = \max(0,\ 10-5+1) + \max(0,\ 8-5+1) + \max(0,\ -2-5+1) = 10\]

(2) ์–ด๋–ค ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด, forward ์ง„ํ–‰ ํ›„ ๋ชจ๋ธ์˜ output vector๊ฐ€ (1, 2, 4) ์˜€๋‹ค. ํด๋ž˜์Šค ์ˆœ์„œ๋Š” ์ž๋™์ฐจ, ์ž์ „๊ฑฐ, ์˜คํ† ๋ฐ”์ด ์ˆœ์„œ์ด๊ณ , ์ด ์ด๋ฏธ์ง€์˜ ์ •๋‹ต์ด โ€˜์ž๋™์ฐจโ€™์˜€๋‹ค๊ณ  ํ•  ๋•Œ, ์ด ์ด๋ฏธ์ง€ ํ•˜๋‚˜์— ๋Œ€ํ•œ SVM Loss ๊ฐ’์„ ๊ตฌํ•˜๋ผ.

\[L = \max(0,\ 2-1+1) + \max(0,\ 4-1+1) = 6\]

Softmax function

Softmax fuction์˜ ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

\[\sigma (z_i) ={\exp(z_i)} \div {\sum_{j=1}^{K} \exp(z_j)}\]

Information Theory

(Shannon) Entropy, Cross Entropy, KL Divergence

์ฐธ๊ณ ํ•˜๋ฉด ์ข‹์€ ์ž๋ฃŒ : KL divergence - ๊ณต๋Œ์ด์˜ ์ˆ˜ํ•™์ •๋ฆฌ๋…ธํŠธ

Entropy

Entropy๋Š” ์ •๋ณด ์ด๋ก ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐœ๋… ์ค‘ ํ•˜๋‚˜๋กœ, ์–ด๋–ค ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๊ฐ€์ง€๋Š” ์ •๋ณด์˜ ํ‰๊ท ์ ์ธ ์–‘์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์ด๋‹ค.

์ •๋ณด๋Ÿ‰์ด ๋งŽ์„์ˆ˜๋ก Entropy ๊ฐ’์€ ๋†’์•„์ง€๋ฉฐ, ์ •๋ณด๋Ÿ‰์ด ์ ์„์ˆ˜๋ก Entropy ๊ฐ’์€ ๋‚ฎ์•„์ง„๋‹ค.

(์—”ํŠธ๋กœํ”ผ๊ฐ€ ํฌ๋‹ค = ๋ฌด์งˆ์„œ๋„๊ฐ€ ํฌ๋‹ค = ์˜ˆ์ธก ๋ถˆ๊ฐ€๋Šฅ)

\[H(X) = - \sum_{i=1}^{n} P(x_i) \log_{2} P(x_i)\]

์—ฌ๊ธฐ์„œ $P(x)$๋Š” ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

Examples

์—”ํŠธ๋กœํ”ผ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋™์ „ ๋˜์ง€๊ธฐ์˜ ์˜ˆ๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ณต์ •ํ•œ ๋™์ „์ด ์žˆ๋‹ค๋ฉด ์ด ์‹œ์Šคํ…œ์˜ ์—”ํŠธ๋กœํ”ผ๋Š” 1์ด ๋  ๊ฒƒ์ด๋‹ค. ์ฆ‰, ํ‰๊ท ์ ์œผ๋กœ ๊ฐ ๋™์ „ ๋˜์ง€๊ธฐ์—์„œ 1bit์˜ ์ •๋ณด๋ฅผ ๋ฐ›์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ํŽธํ–ฅ๋œ ์ฝ”์ธ์ด ์žˆ์œผ๋ฉด ์‹œ์Šคํ…œ์˜ ๋ถˆํ™•์‹ค์„ฑ๊ณผ ๋ฌด์ž‘์œ„์„ฑ์ด ์ ๊ธฐ ๋•Œ๋ฌธ์— ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋‚ฎ์•„์ง„๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํ•ญ์ƒ ์•ž๋ฉด์ด ๋‚˜์˜ค๋Š” ๋™์ „์ด ์žˆ๋Š” ๊ฒฝ์šฐ ๊ฒฐ๊ณผ์— ๋ถˆํ™•์‹ค์„ฑ์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— ์ด ์‹œ์Šคํ…œ์˜ ์—”ํŠธ๋กœํ”ผ๋Š” 0์ด ๋œ๋‹ค.


์—”ํŠธ๋กœํ”ผ์˜ ๋˜ ๋‹ค๋ฅธ ์˜ˆ๋Š” ์–ธ์–ด ๋ชจ๋ธ์ด ์žˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์˜ ์—”ํŠธ๋กœํ”ผ๋Š” ์ด์ „ ๋‹จ์–ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฌธ์žฅ์˜ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ‰๊ท  ์ •๋ณด๋Ÿ‰์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

์–ธ์–ด ๋ชจ๋ธ์ด ํฐ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์— ๋Œ€ํ•ด ํ•™์Šต๋˜๋ฉด ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ ๋ถˆํ™•์‹ค์„ฑ์ด ์ ๊ธฐ ๋•Œ๋ฌธ์— ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋‚ฎ์•„์ง„๋‹ค.

Cross Entropy

Cross Entropy๋Š” ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์œผ๋กœ, ์˜ˆ์ธก ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๊ฐ’๊ณผ ์‹ค์ œ ๊ฐ’์˜ ์ฐจ์ด๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค.

\[H(P, Q) = -\sum_{i=1}^{n} P(x_i) \log(Q(x_i))\]

์—ฌ๊ธฐ์„œ $P(x)$๋Š” ์‹ค์ œ ์ •๋‹ต๊ฐ’์˜ ํ™•๋ฅ  ๋ถ„ํฌ, $Q(x)$๋Š” ์˜ˆ์ธก ๊ฐ’์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

KL Divergence

KL Divergence๋Š” ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ ์ค‘ ํ•˜๋‚˜๋กœ, ๊ธฐ๊ณ„ ํ•™์Šต ๋ฐ ์ •๋ณด ์ด๋ก ์—์„œ ์˜ˆ์ธก ๋ถ„ํฌ๋ฅผ ๋ชฉํ‘œ ๋ถ„ํฌ์™€ ๋น„๊ตํ•˜๋Š” ๋ฐ ์ž์ฃผ ์‚ฌ์šฉ๋œ๋‹ค.

KL Divergence๊ฐ€ ์ž‘์œผ๋ฉด ์˜ˆ์ธกํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ์‹ค์ œ ํ™•๋ฅ  ๋ถ„ํฌ์™€ ๋น„์Šทํ•˜๋‹ค๋Š” ๋œป์ด๊ณ , ํด์ˆ˜๋ก ์ฐจ์ด๊ฐ€ ํฌ๋‹ค๋Š” ๋œป์ด๋‹ค.

\[D_{KL}(P | Q) = \sum_{i=1}^{n} P(x_i) \log \frac{P(x_i)}{Q(x_i)}\]

์—ฌ๊ธฐ์„œ $P(x)$๋Š” ์‹ค์ œ ๊ฐ’์˜ ํ™•๋ฅ  ๋ถ„ํฌ, $Q(x)$๋Š” ์˜ˆ์ธก ๊ฐ’์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

KL Divergence VS. Cross Entropy

KL Divergence์™€ Cross Entropy๋Š” ์œ ์‚ฌํ•˜์ง€๋งŒ, KL Divergence๋Š” ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•  ๋•Œ ๋น„๋Œ€์นญ์„ฑ์„ ๊ฐ€์ง„๋‹ค๋Š” ์ฐจ์ด์ ์ด ์žˆ๋‹ค.

KL Divergence์—์„œ๋Š” $D_{KL}(P Q)$์™€ $D_{KL}(Q P)$๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋Š” ๋ฐ˜๋ฉด, Cross Entropy๋Š” ํ•ญ์ƒ ๋Œ€์นญ์ ์œผ๋กœ ๊ณ„์‚ฐ๋œ๋‹ค.

๋”ฐ๋ผ์„œ KL Divergence๋Š” Cross Entropy๋ณด๋‹ค ๋” ์—„๊ฒฉํ•œ ์ง€ํ‘œ๋กœ์จ ์˜ˆ์ธก ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

Cross Entropy Loss

Cross Entropy Loss๋Š” Classification ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์‚ฌ์šฉ๋œ๋‹ค.

Network์˜ output์— softmax ํ•จ์ˆ˜๋ฅผ ์ทจํ•œ ํ›„, target vector์™€ ๋น„๊ตํ•œ๋‹ค.

Cross Entropy Loss ๊ณ„์‚ฐ ์‹œ, Target $P(x)$์™€ Output $Q(x)$์— ๋Œ€ํ•ด $-\sum P(x) \log Q(x)$๋กœ ๊ณ„์‚ฐํ•œ๋‹ค.

\[H(P, Q) = -\sum P(x) \log Q(x)\]

References

  1. ์ธ๊ณต์ง€๋Šฅ ์‘์šฉ (ICE4104), ์ธํ•˜๋Œ€ํ•™๊ต ์ •๋ณดํ†ต์‹ ๊ณตํ•™๊ณผ ํ™์„ฑ์€ ๊ต์ˆ˜๋‹˜
  2. KL divergence - ๊ณต๋Œ์ด์˜ ์ˆ˜ํ•™์ •๋ฆฌ๋…ธํŠธ