ÙÑÙÐ Ø Ú ÈÖÓ Ø ± Ê Ú Û Ó Ä ØÙÖ ½ Ç Ñ³ Ê ÞÓÖ Ì ÑÔÐ Ø ÑÓ Ð Ø Ø Ø Ø Ø Ð Ó Ø ÑÓ Ø ÔÐ Ù Ð º Ë ÑÔÐ Ò P(x) testing training Ø ÒÓÓÔ Ò x ÓÑÔÐ Ü ØÝ Ó h ÓÑÔÐ Ü ØÝ Ó H ¼ ¾¼ ½¼ ¼ ¹½¼ ÒÓÓÔ Ò ÒÓ ÒÓÓÔ Ò ÙÒÐ ÐÝ Ú ÒØ Ò ÒØ Ø ÔÔ Ò ¼ ½¼¼ ¾¼¼ ¼¼ ¼¼ ¼¼ Ý
Ä ÖÒ Ò ÖÓÑ Ø Ö Ëº Ù¹ÅÓ Ø Ð ÓÖÒ ÁÒ Ø ØÙØ Ó Ì ÒÓÐÓ Ý Ä ØÙÖ ½ Ô ÐÓ Ù ËÔÓÒ ÓÖ Ý ÐØ ³ ÈÖÓÚÓ Ø Ç ² Ë Ú ÓÒ Ò ÁËÌ Ì ÙÖ Ý Å Ý ½ ¾¼½¾
ÇÙØÐ Ò Ì Ñ Ô Ó Ñ Ò Ð ÖÒ Ò Ý Ò Ð ÖÒ Ò Ö Ø ÓÒ Ñ Ø Ó ÒÓÛÐ Ñ ÒØ ¾»¾
Áس ÙÒ Ð ÓÙØ Ø Ö semi supervised learning Gaussian processes istribution free collaborative filtering decision trees RBF active learning ordinal regression ensemble learning ploration versus exploitation clustering overfitting deterministic noise linear regression nonlinear transformation linear models cross validation error measures is learning feasible? regularization stochastic gradient descent VC dimension training versus testing logistic regression types of learning kernel methods data snooping bias variance tradeoff weight decay sampling bias noisy targets data contamination perceptrons SVM neural networks soft order constraint Occam s razor mixture of expe Bayesian prior weak learners hidden Markov mod graphical models Q learning learning curves no free Boltzmann mach»¾
Ì Ñ Ô THEORY TECHNIQUES PARADIGMS models methods VC bias variance complexity bayesian linear neural networks SVM nearest neighbors RBF gaussian processes regularization validation aggregation input processing supervised unsupervised reinforcement active online SVD graphical models»¾
ÇÙØÐ Ò Ì Ñ Ô Ó Ñ Ò Ð ÖÒ Ò Ý Ò Ð ÖÒ Ò Ö Ø ÓÒ Ñ Ø Ó ÒÓÛÐ Ñ ÒØ»¾
ÈÖÓ Ð Ø ÔÔÖÓ ÜØ Ò ÔÖÓ Ð Ø ÖÓÐ ØÓ ÐÐ ÓÑÔÓÒ ÒØ P(D h = f) Û h ÀÓÛ ÓÙØ P(h = f D) Ð Ð ÓÓ µ UNKNOWN TARGET DISTRIBUTION target function D = ( x) f: X Y P y DATA SET plus noise ( x 1, y 1 ),..., ( x N, y N ) LEARNING ALGORITHM A x 1,..., x N UNKNOWN INPUT DISTRIBUTION P( x ) x g ( x) ~ f ( x ) FINAL HYPOTHESIS g: X Y HYPOTHESIS SET H»¾
Ì ÔÖ ÓÖ P(h = f D) Ö ÕÙ Ö Ò Ø ÓÒ Ð ÔÖÓ Ð ØÝ ØÖ ÙØ ÓÒ P(h = f D) = P(D h = f) P(h = f) P(D) P(D h = f) P(h = f) P(h = f) Ø ÔÖ ÓÖ P(h = f D) Ø ÔÓ Ø Ö ÓÖ Ú Ò Ø ÔÖ ÓÖ Û Ú Ø ÙÐÐ ØÖ ÙØ ÓÒ»¾
Ü ÑÔÐ Ó ÔÖ ÓÖ ÓÒ Ö Ô Ö ÔØÖÓÒ h Ø ÖÑ Ò Ý w = w 0,w 1,,w d ÔÓ Ð ÔÖ ÓÖ ÓÒ w w i Ò Ô Ò ÒØ ÙÒ ÓÖÑ ÓÚ Ö [ 1,1] Ì Ø ÖÑ Ò Ø ÔÖ ÓÖ ÓÚ Ö h ¹ P(h = f) Ú Ò D Û Ò ÓÑÔÙØ P(D h = f) ÈÙØØ Ò Ø Ñ ØÓ Ø Ö Û Ø P(h = f D) P(h = f)p(d h = f)»¾
ÔÖ ÓÖ Ò ÙÑÔØ ÓÒ Ú Ò Ø ÑÓ Ø Ò ÙØÖ Ð ÔÖ ÓÖ x is unknown x is random P(x) 1 1 1 1 x Ì ØÖÙ ÕÙ Ú Ð ÒØ ÛÓÙÐ x is unknown x is random δ(x a) 1 1 1 a 1 x»¾
Á Û Ò Û Ø ÔÖ ÓÖ... Û ÓÙÐ ÓÑÔÙØ P(h = f D) ÓÖ Ú ÖÝ h H = Û Ò Ò Ø ÑÓ Ø ÔÖÓ Ð h Ú Ò Ø Ø Û Ò Ö Ú E(h(x)) ÓÖ Ú ÖÝ x Û Ò Ö Ú Ø ÖÖÓÖ Ö ÓÖ Ú ÖÝ x Û Ò Ö Ú Ú ÖÝØ Ò Ò ÔÖ Ò ÔÐ Û Ý ½¼»¾
Ï Ò Ý Ò Ð ÖÒ Ò Ù Ø ½º Ì ÔÖ ÓÖ Ú Ð ØÖÙÑÔ ÐÐ ÓØ Ö Ñ Ø Ó ¾º Ì ÔÖ ÓÖ ÖÖ Ð Ú ÒØ Ù Ø ÓÑÔÙØ Ø ÓÒ Ð Ø ÐÝ Ø ½½»¾
ÇÙØÐ Ò Ì Ñ Ô Ó Ñ Ò Ð ÖÒ Ò Ý Ò Ð ÖÒ Ò Ö Ø ÓÒ Ñ Ø Ó ÒÓÛÐ Ñ ÒØ ½¾»¾
Ï Ø Ö Ø ÓÒ ÓÑ Ò Ò Ö ÒØ ÓÐÙØ ÓÒ h 1,h 2,,h T Ø Ø Û Ö ØÖ Ò ÓÒ D Ê Ö ÓÒ Ø Ò Ú Ö Ð Ø ÓÒ Ø ÚÓØ º º º Ò Ñ Ð Ð ÖÒ Ò Ò ÓÓ Ø Ò ½»¾
Ö ÒØ ÖÓÑ ¾¹Ð Ý Ö Ð ÖÒ Ò ÁÒ ¾¹Ð Ý Ö ÑÓ Ð ÐÐ ÙÒ Ø Ð ÖÒ Ó ÒØÐÝ training data Learning Algorithm ÁÒ Ö Ø ÓÒ Ø Ý Ð ÖÒ Ò Ô Ò ÒØÐÝ Ø Ò Ø ÓÑ Ò training data Learning Algorithm ½»¾
ÌÛÓ ØÝÔ Ó Ö Ø ÓÒ ½º Ø Ö Ø Ø ÓÑ Ò Ü Ø Ò ÓÐÙØ ÓÒ Ü ÑÔÐ º Æ Ø Ü Ø Ñ Ñ Ö Ò Ð Ò Ò ¾º ÓÖ Ø Ø Ö Ø ÓÐÙØ ÓÒ ØÓ ÓÑ Ò Ü ÑÔÐ º Ò ¹ Ö ÑÔÐ Ò D training data Learning Algorithm ½»¾
ÓÖÖ Ð Ø ÓÒ ¹ ÓÓ Ø Ò Ö Ø h 1,,h t, ÕÙ ÒØ ÐÐÝ Å h t ÓÖÖ Ð Ø Û Ø ÔÖ Ú ÓÙ h³ training data Learning Algorithm ÑÔ Þ ÔÓ ÒØ Ò D Ø Ø Û Ö Ñ Ð ÓÓ Û Ø Ó h t ÓÒ E Ò (h t ) ½»¾
Ð Ò Ò ¹ Ø Ö Ø Ø ÓÖ Ö Ö ÓÒ h 1, h 2,,h T g(x) = T t=1 α t h t (x) ÈÖ Ò ÔÐ Ó Ó α t ³ Ñ Ò Ñ Þ Ø ÖÖÓÖ ÓÒ Ò Ö Ø ÓÒ Ø Ø Ô Ù Ó¹ ÒÚ Ö ËÓÑ α t ³ Ò ÓÑ ÓÙØ Ò Ø Ú ÅÓ Ø Ú ÐÙ Ð h t Ò Ø Ð Ò ÍÒÓÖÖ Ð Ø h t ³ ÐÔ Ø Ð Ò ½»¾
ÇÙØÐ Ò Ì Ñ Ô Ó Ñ Ò Ð ÖÒ Ò Ý Ò Ð ÖÒ Ò Ö Ø ÓÒ Ñ Ø Ó ÒÓÛÐ Ñ ÒØ ½»¾
ÓÙÖ ÓÒØ ÒØ ÈÖÓ ÓÖ Å Ð Å ÓÒ¹Á Ñ Ð ÊÈÁ ÈÖÓ ÓÖ À Ù Ò¹Ì Ò Ä Ò ÆÌÍ ½»¾
ÓÙÖ Ø ÖÐÓ ÓÒÞ Ð Þ À Ì µ ÊÓÒ ÔÔ Ð Ó Ø Ë Ö ÓÖ Ò ¾¼»¾
ÐÑ Ò ÔÖÓ ÙØ ÓÒ Ò Ò Ö ØÖÙØÙÖ Ä Ð Å Ü Ð Ò Ø ÅÌ Ø Ê Ò Ò Ø ÁÅËË Ø ¾½»¾
ÐØ ÙÔÔÓÖØ ÁËÌ ¹ Å Ø Ù ÖÙÒ ² Ë Ú ÓÒ ¹ Ö ÊÓ Ò Å Ò Ò Ý ÈÖÓÚÓ Ø³ Ç ¹ ËØÓÐÔ Ö Ò Å Ð ÒÝ ÀÙÒØ ¾¾»¾
Å ÒÝ ÓØ Ö ÐØ Ì ³ Ò Ø Ñ Ñ Ö ÐØ ÐÙÑÒ Ò ÐÙÑÒ Ó Ø ÓÒ ÓÐÐ Ù ÐÐ ÓÚ Ö Ø ÛÓÖÐ ¾»¾
To the fond memory of Faiza A. Ibrahim