º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÁÒØ ÐÐ ÒØ ÒØ Ì ØÐ ÔØ Ö ¾ ÁÅ ØÓ ÖØ Ð ÁÒØ ÐÐ Ò ÁÒØÖÓ ÙØ ÓÒ ¹ ËÔÖ Ò ¾¼½ Ë ÛÛÛº ºÙÒк Ù» ÓÙ Öݻ˽ ¹ ¹ ÍÊÄ º ÓÙ ÖÝ Ë Ù¹Û ¹Ö µ ÖØ ¼¾µ ¾¹
º º ÓÙ ÖÝ ¾ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÁÒØ ÐÐ ÒØ ÒØ ÒØ Ò ÒÚ ÖÓÒÑ ÒØ ½º Ê Ø ÓÒ Ð ØÝ ¾º È Ë º Ø Ø ÒÚ ÖÓÒÑ ÒØ ËÔ Ý Ò Ñ ÙÖ ÒÚ ÖÓÒÑ ÒØ ØÙ ØÓÖ Ë Ò ÓÖ È Ö ÓÖÑ Ò ÌÝÔ Ó ÒÚ ÖÓÒÑ ÒØ º ÌÝÔ Ó ÁÒØ ÐÐ ÒØ ÒØ º
º º ÓÙ ÖÝ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÒØ ÒÝØ Ò Ø Ø Ô Ö Ú Ø ÒÚ ÖÓÒÑ ÒØ Ø ÖÓÙ Ò ÓÖ Ø ÙÔÓÒ Ø ÒÚ ÖÓÒÑ ÒØ Ø ÖÓÙ ØÙ ØÓÖ ÒØ ÒÐÙ ÀÙÑ Ò ÖÓ ÓØ Ó ØÛ Ö Øº Ë Ò ÓÖ ØÙ ØÓÖ ÒØ ÙÒØ ÓÒ Ñ Ô ÖÓÑ Ô Ö ÔØ ÕÙ Ò ØÓ Ø ÓÒ Ì f : P A ÒØ ÔÖÓ Ö Ñ ÖÙÒ ÓÒ Ø Ô Ý Ð Ö Ø ØÙÖ ØÓ Ì f ÔÖÓ Ù
Î ÙÙÑ¹Ð Ò Ö ÛÓÖÐ A B º º ÓÙ ÖÝ ÁÒ ØÖÙØÓÖ³ ÒÓØ È Ö ÔØ ÐÓ Ø ÓÒ Ò ÓÒØ ÒØ º º [A, dirty] Ø ÓÒ Left Right Suck NoOp
º º ÓÙ ÖÝ ÁÒ ØÖÙØÓÖ³ ÒÓØ Î ÙÙÑ¹Ð Ò Ö ÒØ ÕÙ Ò È Ö ÔØ [A, Clean] [A, Dirty] [B, Clean] [B, Dirty] [A, Clean] [A, Clean] º [A, Clean] [A, Clean] [A, Clean] º Ø ÓÒ Ê Ø ËÙ Ä Ø ËÙ Ê Ø Ê Ø Ê Ü¹Î ÙÙѹ ÒØ [location,status]]µ Ö ØÙÖÒ Ò Ø ÓÒ ÙÒØ ÓÒ status = Dirty Ø Ò Ö ØÙÖÒ Suck Ð location = A Ø Ò Ö ØÙÖÒ Right Ð location = B Ø Ò Ö ØÙÖÒ Left
º º ÓÙ ÖÝ ÁÒ ØÖÙØÓÖ³ ÒÓØ Ó Ð Ó Á Ö Ø ÓÒ Ð ÒØ º Ù Ð Ê Ø ÓÒ Ð Ï Ø Ö Ø ÓÒ Ð Ô Ò ÓÒ È Ö ÓÖÑ Ò Ñ ÙÖ ÓÛ Û Òµ ½º Ì ÒØ ³ ÔÖ ÓÖ ÒÓÛÐ Ó Ø ÒÚ ÖÓÒÑ ÒØ ¾º Ì Ø ÓÒ Ø ÒØ Ò Ô Ö ÓÖÑ º È Ö ÔØ ÕÙ Ò ØÓ Ø ØÓÖݵ Ú ÖÝØ Ò ÒØ º Ó Ö Ô Ö Ú
Ô Ö ÓÖÑ Ò Ñ ÙÖ Ú ÐÙ Ø Ø ÒÚ ÖÓÒÑ ÒØ Ü ÕÙ Ò º º ÓÙ ÖÝ ÁÒ ØÖÙØÓÖ³ ÒÓØ È Ö ÓÖÑ Ò Ñ ÙÖ ÓÒ ÔÓ ÒØ Ô Ö ÕÙ Ö Ð Ò ÙÔ Ò Ø Ñ t ÔÓ ÒØ Ô Ö Ð Ò ÕÙ Ö Ô Ö Ø Ñ Ø Ô Ñ ÒÙ ÓÒ Ô Ö ÑÓÚ Ô Ò Ð Þ ÓÖ > ÖØÝ ÕÙ Ö k
º º ÓÙ ÖÝ ÁÒ ØÖÙØÓÖ³ ÒÓØ Ê Ø ÓÒ Ð ØÝ Ö Ø ÓÒ Ð ÒØ ÓÓ Û Ú Ö Ø ÓÒ Ñ Ü Ñ Þ Ø Ú ÐÙ Ó Ø Ô Ö ÓÖÑ Ò Ñ ÙÖ Ú Ò Ø Ô Ö ÔØ ÜÔ Ø ØÓ Ø ÕÙ Ò Ê Ø ÓÒ Ð ÓÑÒ ÒØ Ð ÖÚÓÝ ÒØ Ê Ø ÓÒ Ð ØÝ Ñ Ü Ñ Þ ÜÔ Ø Ô Ö ÓÖÑ Ò È Ö Ø ÓÒ Ñ Ü Ñ Þ ØÙ Ð Ô Ö ÓÖÑ Ò Ê Ø ÓÒ Ð = ÜÔÐÓÖ Ø ÓÒ Ð ÖÒ Ò ÙØÓÒÓÑÝ Ø Ö Ù ÒØ ÜÔ Ö Ò Ó Ø ÒÚ ÖÓÒÑ ÒØ Ú ÓÖ Ó Ö Ø ÓÒ Ð ÒØ ÓÑ Ø Ú ÐÝ Ò Ô Ò ÒØ Ó ÔÖ ÓÖ ÒÓÛÐ º
º º ÓÙ ÖÝ ÁÒ ØÖÙØÓÖ³ ÒÓØ È Ë Ò Ö Ø ÓÒ Ð ÒØ Û ÑÙ Ø Ô Ý Ø Ø ÒÚ ÖÓÒÑ ÒØ ÌÓ Ñ ÙÖ È Ö ÓÖÑ Ò ÒÚ ÖÓÒÑ ÒØ ØÙ ØÓÖ Ë Ò ÓÖ ÓÒ Ö º º Ø Ø Ó Ò Ò Ò ÙØÓÑ Ø Ø Ü ºº
º º ÓÙ ÖÝ ½¼ ÁÒ ØÖÙØÓÖ³ ÒÓØ È Ë ÙØÓÑ Ø Ø Ü Ñ ÙÖ ØÝ Ø Ò Ø ÓÒ ÔÖÓ Ø Ð Ð ØÝ È Ö ÓÖÑ Ò... ÓÑ ÓÖØ ÍË ÙÖ Ò ØÖ Ø Ö Û Ý ØÖ Ô ØÖ Ò ÒÚ ÖÓÒÑ ÒØ Ò Ñ Ð Û Ø Ö... ØÖ Ý ØÙ ØÓÖ Ø Ö Ò Ð Ö ØÓÖ Ö ÓÖÒ Ô Ö» ÔÐ Ý... Ú Ó Ð ÖÓÑ Ø Ö Ù Ò Ò Ò ÓÖ Ý Ó Ö Ë Ò ÓÖ... ÈË
º º ÓÙ ÖÝ ½½ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÒÚ ÖÓÒÑ ÒØ ½µ ÙÐÐÝ Ç ÖÚ Ð Ú º È ÖØ ÐÐÝ Ç ÖÚ Ð ½º Ø ÖÑ Ò Ø Ú º ØÓ Ø ¾º Ô Ó Ú º ÕÙ ÒØ Ð º ËØ Ø Ú º ÝÒ Ñ º Ö Ø Ú º ÓÒØ ÒÙÓÙ º Ë Ò Ð ÒØ Ú º ÑÙÐØ ÒØ º
º º ÓÙ ÖÝ ½¾ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÒÚ ÖÓÒÑ ÒØ ¾µ Ç ÖÚ Ð Ò ÓÖ Ò Ø Ø ÐÐ Ô Ø Ó ÙÐÐÝ»È ÖØ ÐÐÝ ÛÓÖÐ Ø Ø Ú ÐÝ ÙÐÐÝ Ó ÖÚ Ð Ö Ð Ú ÒØ Ô Ø Ú º ØÓ Ø ÖÓÑ Ø Òس Ú Û ÔÓ ÒØ Ø ÖÑ Ò Ø Ø Ø Ø ÖÑ Ò Ý ÙÖÖ ÒØ Ø Ø Ò ÒØ ³ Ø ÓÒ Æ ÜØ È ÖØ ÐÐÝ Ó ÖÚ Ð Ø ÖÑ Ò Ø ÔÔ Ö ØÓ Ø Ú º ÕÙ ÒØ Ð Òس ÜÔ Ö Ò Ú ÒØÓ ØÓÑ Ô Ó Ù ÕÙ ÒØ Ô Ó Ó ÒÓØ Ô Ò ÓÒ Ø ÓÒ Ò Ô Ó ÔÖ Ú ÓÙ Ô Ó
º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÒÚ ÖÓÒÑ ÒØ µ Ú º ÝÒ Ñ ËØ Ø ÒÚ ÖÓÒÑ ÒØ Ò Û Ð ÒØ Ð Ö Ø Ò ÝÒ Ñ Ë Ñ ÝÒ Ñ ÒÚ ÖÓÒÑ ÒØ Ø Ø Ô Ö ÓÖÑ Ò ÓÖ ÝÒ Ñ Ö Ø Ú º ÓÒØ ÒÙÓÙ Ò Ø ÒÙÑ Ö Ó ÔÖ ÔØ Ø ÓÒ ÒØ Ú º ÑÙÐØ ÒØ B³ Ú ÓÖ Ñ Ü Ñ Þ Ë Ò Ð Ñ ÙÖ Û Ó Ú ÐÙ Ô Ò ÓÒ A³ Ú ÓÖº Ô Ö ÓÖÑ Ò ÓÓÔ Ö Ø Ú ÓÑÔ Ø Ø Ú ÓÑÑÙÒ Ø ÓÒº Ì Ü Ö Ú Ò Ö Ø
º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÒÚ ÖÓÒÑ ÒØ µ Ô Ø ÐÐÝ Ó ÖÚ Ð ØÓ Ø ÕÙ ÒØ Ð ÝÒ Ñ À Ö Ø Ò ÑÙÐØ ÒØ ÓÒØ ÒÙÓÙ ÑÑÓÒ ÁÒØ ÖÒ Ø ÓÔÔ Ò Ì Ü ËÓÐ Ø Ö Ç ÖÚ Ð Ø ÖÑ Ò Ø Ô Ó ËØ Ø Ö Ø Ë Ò Ð ¹ ÒØ Ô Ò ÓÒ ÓÛ ÝÓÙ Ò» ÒØ ÖÔÖ Ø Ø Ò Û Ö ØÓÙÖÒ Ñ ÒØ Ô Ó
º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÒÚ ÖÓÒÑ ÒØ ØÝÔ ÑÑÓÒ ÁÒØ ÖÒ Ø ÓÔÔ Ò Ì Ü ËÓÐ Ø Ö ÆÓ ÆÓ Ç ÖÚ Ð ÆÓ È ÖØÐÝ ÆÓ Ø ÖÑ Ò Ø ÆÓ ÆÓ ÆÓ ÆÓ Ô Ó Ë Ñ Ë Ñ ÆÓ ËØ Ø ÆÓ Ö Ø ÆÓ ÆÓ Ë Ò Ð ¹ ÒØ ÙØ ÓÒ µ Ü ÔØ ÒÚ ÖÓÒÑ ÒØ ØÝÔ Ð Ö ÐÝ Ø ÖÑ Ò Ø ÒØ Ò Ì Ö Ð ÛÓÖÐ Ó ÓÙÖ µ Ô ÖØ ÐÐÝ Ó ÖÚ Ð ØÓ Ø Ì ÝÒ Ñ ÓÒØ ÒÙÓÙ ÑÙÐØ ¹ ÒØ ÕÙ ÒØ Ð
º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÌÝÔ Ó ÒØ Ò ÓÖ Ö Ó ÒÖ Ò Ò Ö Ð ØÝ ÓÙÖ Ë ÑÔÐ Ö Ü ÒØ ½º Ë ÑÔÐ Ö Ü ÒØ Û Ø Ø Ø ¾º Ó Ð¹ ÒØ º ÍØ Ð Øݹ ÒØ º Ä ÖÒ Ò ÒØ º Ø Ò ØÙÖÒ ÒØÓ Ð ÖÒ Ò ÒØ º ÐÐ
º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ Ë ÑÔÐ Ö Ü ÒØ Ë ÑÔÐ ÐÓÓ ¹ÙÔ Ø Ð Ñ ÔÔ Ò Ô Ö ÔØ ØÓ Ø ÓÒ ÓÙØ Ó ÕÙ Ø ÓÒ ØÓÓ Ð Ö ØÓÓ ÜÔ Ò Ú ØÓ Ù Ð µ Å ÒÝ ØÙ Ø ÓÒ Ò ÙÑÑ Ö Þ Ý ÓÒ Ø ÓÒ¹ Ø ÓÒ ÖÙÐ ÙÑ Ò Ö ÔÓÒ ÒÒ Ø Ö Ü µ Ð ÖÒ Agent Condition-action rules Ê Ø Ò Ð Òس ÒØ ÖÒ Ð Ø Ø Sensors What the world is like now What action I should do now Actuators ÁÑÔÐ Ñ ÒØ Ø ÓÒ Ý ÔÔÐ Ð ØÝ Ò ÖÖÓÛ Environment ÇÚ Ð ÖÓÙÒ Ò ÓÖÑ Ø ÓÒ
º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ Ë ÑÔÐ Ö Ü ÒØ Û Ø Ø Ø Ë Ò ÓÖÝ Ò ÓÖÑ Ø ÓÒ ÐÓÒ ÒÓØ Ù ÒØ Æ ØÓ Ô ØÖ Ó ÓÛ Ø ÛÓÖÐ ÚÓÐÚ ÚÓÐÙØ ÓÒ Ò Ô Ò ÒØÐÝ Ó ÒØ ÓÖ Ù Ý Òس Ø ÓÒ µ Agent State How the world evolves What my actions do Condition-action rules Sensors What the world is like now What action I should do now Actuators ÀÓÛ Ø ÛÓÖÐ ÚÓÐÚ ÑÓ Ð¹ ÒØ Environment
º º ÓÙ ÖÝ ½ ÁÒ ØÖÙØÓÖ³ ÒÓØ Ó Ð¹ ÒØ ËØ Ø ² Ø ÓÒ ÓÒ³Ø Ø ÐÐ Û Ö ØÓ Ó Æ Ó Ð ØÓ Ù Ð ÕÙ Ò Ó Ø ÓÒ ÔÐ ÒÒ Ò µ Agent State How the world evolves What my actions do Goals Sensors What the world is like now What it will be like if I do action A What action I should do now Actuators Ó Ð¹ Ù Ø Ñ ÖÙÐ ÓÖ Ö ÒØ Ó Ð Ê Ü Û ÐÐ Ò ÓÑÔÐ Ø Ø Ó ÖÙÐ ÓÖ Ó Ð Environment
º º ÓÙ ÖÝ ¾¼ ÁÒ ØÖÙØÓÖ³ ÒÓØ ÍØ Ð Øݹ ÒØ Ë Ú Ö Ð Ø ÓÒ ÕÙ Ò ØÓ Ú ÓÑ Ó Ð Ò ÖÝ ÔÖÓ µ Æ ØÓ Ð Ø ÑÓÒ Ø ÓÒ ² ÕÙ Ò º ÈÖ Ö Ò º ÍØ Ð ØÝ ËØ Ø Ö Ð ÒÙÑ Ö ÜÔÖ Ö Ó Ø Ø ÓÒ Ô Ý ØÖ ¹Ó ØÛ Ò ÓÒ Ø Ò Ó Ðµ Agent State How the world evolves What my actions do Utility Sensors What the world is like now What it will be like if I do action A How happy I will be in such a state What action I should do now Actuators Environment
º º ÓÙ ÖÝ ¾½ ÁÒ ØÖÙØÓÖ³ ÒÓØ Ä ÖÒ Ò ÒØ ÒØ ÓÔ Ö Ø Ò Ò Ò Ø ÐÐÝ ÙÒ ÒÓÛÒ ÒÚ ÖÓÒÑ ÒØ Ò ÓÑ ÓÑÔ Ø ÒØ Ø Ò Ø Ò Ø Ð ÒÓÛÐ ÐÓÒ Ñ Ø ÐÐÓÛ ÑÓÖ Performance standard Agent feedback learning goals Critic Learning element Problem generator changes knowledge Sensors Performance element Actuators Ä ÖÒ Ò ÔÖÓ Ó ÑÓ Ø ÓÒ Ó ÓÑÔÓÒ ÒØ Ó Ø ÒØ ØÓ Ö Ò Ø ÓÑÔÓÒ ÒØ ÒØÓ ÐÓ Ö Ö Ñ ÒØ Û Ø Ø Ú Ð Ð Ò ÓÖÑ Ø ÓÒ Ø Ù ÑÔÖÓÚ Ò ÓÚ Ö ÐÐ Ô Ö ÓÖÑ Ò Ó Ø Òغ Environment