Skip to main content

가치

할인(discount)

이번 시간에 할 것은 할인이라는 개념인데요 우리가 지금까지 했던 것은 대부분 중간 과정에는 보상이 없고 맨 마지막에만 보상이 딱 나오고 바로 끝나는 그런 환경들이었어요

이제 리워드가 곧 리턴인 그런 상황이었는데 리워드가 여러 개가 되면 얘기가 좀 달라진다

그래서 우리가 이제 리워드가 여러 개가 되면 이제 언제 받느냐가 중요하게 되거든요

똑같은 보상이라도 나중에 받는 거냐 언제 받는 거냐 조삼모사 얘기를 잘 생각을 해보면 사실 아침에 많이 받는 게 낫죠

왜 조삼모사 얘기하시죠?

아침에 3개, 저녁에 4개랑 아침에 4개랑 저녁에 3개랑 뭐가 다르냐는 있지만 원숭이 입장에서는 훨씬 좋은 옵션입니다

왜냐하면 저녁에 주인이 3개 준다는 보장이 어딨어요

중간에 무슨 일이 있을 줄 알아요

하나라도 일찍 받는 게 좋습니다

항상 먼저 받는 게 좋은데 조삼모사 그 고사 성어를 만드신 분은 이 개념이 없는 거예요

언제 받는 게 중요하다

이 개념으로 옛날 사람들이 이렇게 세상 사는 방식이 좀 단순하다는 시절입니다

그래서 예를 들면 내가 오늘 100만 원을 받는 게 있고 1년 후에 100만 원을 받는 게 있으면 여러분 누가 물어보고 오늘 100만 원 받을래?

내년에 100만 원 받을래?

당연히 오늘 받는다고 하죠

그래서 우리가 이 차이가 있기 때문에 이거를 보정하는 방법이 두 가지가 있는데 하나는 일반적으로 하듯이 이자를 주는 겁니다

우리가 익숙한 게 이 사고 방식인데 그러면 내년에 100만 원을 받는 대신에 내년에 110만 원 줄게

이런 식으로 이자를 붙여주는 거죠

또 하나는 반대는 할인입니다

그러면 오늘 100만 원 받을래?

아니면 1년 후에 100만 원을 현재 가치로 환산하면 대충 90만 원 오늘 90만 원 받을래?

미래는 이게 100만 원이 되겠죠

그래서 미래의 어떤 거는 현재 가치로 환산을 하는 이 방식, 이걸 할 때 이걸 할인을 한다고 해요

그래서 우리는 보통 이자를 붙이는 거에 익숙한데 이자를 붙이는 방식은 문제가 뭐냐면 언제 시점 기준으로 계산하냐에 따라서 달라집니다

내년이냐, 내년 후년이냐에 따라 달라지는데 현재는 항상 하나밖에 없잖아요

그리고 우리가 의사결정하는 시점은 현재이기 때문에 현재 가치 기준으로 할인을 하는 것이 일반적으로 강화학습에 사용하는 방법입니다

그래서 할인율이라는 걸 적용을 하는데 이것도 약간 헷갈리게 되어있어요

왜냐하면 우리가 보통 할인율이라고 하면 그 깎아주는 정도를 얘기를 합니다

예를 들면 20% 할인하면은 원금에서 20% 깎고 나머지 80%만 받을래요

하는 거잖아요

일반적으로 말하는 할인율은 요건데 강화학습에서 말하는 할인율은 이 남은 부분을 할인율이라고 합니다

좀 헷갈려요

그래서 할인율 80%라고 하면은 80%만 받겠습니다

얘기입니다

그래서 우리가 이제 할인율이 0.9%다

얘기는 뭐냐면 다음 번에 100만 원은 현재로 당겨오면은 90만 원이 된다

이런 얘기 옆에 T는 2, T는 1, T는 0 썼는데 똑같은 100만 원이라도 이거는 이제 두 번째, 2년 뒤에 100만 원 이런 얘기 이거는 1년 뒤에 90만 원 그리고 이거는 올해의 지금 현재 81만 원 그래서 요 세 개의 가치가 똑같게 됩니다

왜냐하면 할인율이 0.9%니까 내년에 100만 원은 올해로 당겨오면은 90%만 받는 거죠

그래서 90만 원은 똑같고 내년에 90만 원은 올해의 81만 원이랑 똑같습니다

반대로 생각하면 81만 원에다가 이자를 한 90만 원 붙인 거죠 플러스 90만 원 붙이고 여기서는 이자를 10만 원 붙인 거죠

그래서 이자를 붙이는 거랑 할인을 하는 거는 서로 반대방향인데 조금 헷갈리시지만 이거를 좀 기억을 해 주실 필요가 있고요 그다음에 그리스 문자로 쓸 때는 보통 감마로 씁니다

그래서 앞으로 이제 수식들이 좀 나올 건데 이게 R이 아니라 감마거든요

감마가 나오면 다 할인이다 약간 이게 헷갈리는 게 보상을 쓸 때 보통 알파벳 R로 많이 쓰거든요

감마도 약간 R하고 비슷하게 생겼잖아요

그래서 약간 헷갈리는데 대문자로 제가 가능한 써놨는데 가끔 헷갈리기 쉽거든요

그래서 보상은 R이고 할인은 감마입니다

그래서 이 감마는 어떤 정보를 제공을 하느냐 하면 긴급성에 대한 정보를 제공을 해요

얼마나 빨리 하느냐 만약에 할인이 적다 할인이 적다는 거는 반대로 생각하면 이자가 적다

이렇게 생각하시면 돼요

그러면은 지금 하나 나중에 하나 별 차이가 없습니다

똑같은 보상을 받는다고 하면 똑같은 100만 원을 받는데 지금 100만 원을 받으나 내년에 100만 원을 받으나 별 차이가 없어요

근데 할인을 많이 하는 경우는 감마가 작은 경우입니다

예를 들면 할인이 0.99%다

그러면 내년에 100만 원이 지금의 99만 원이랑 가치가 똑같거든요

그러면 내년에 100만 원을 받으나 지금 100만 원을 받으나 큰 차이가 없는 거죠

왜냐하면 내년에 100만 원을 받는 거는 지금 99만 원을 받는 거랑 똑같기 때문에 지금 100만 원 받는 것과 지금 99만 원 받는 거는 큰 차이 없잖아요

물론 만 원이라도 더 받는 게 좋긴 하지만 큰 차이가 없어요

근데 이제 감마가 작다 그러면 할인을 많이 하는 건데 예를 들면 감마가 0.5%다

그럼 얘기는 뭐냐면 내년에 100만 원 받는 거는 현재 50만 원 받는 거랑 같습니다

지금 100만 원 받을래 내년에 100만 원 받을래는 할인을 해서 얘기하면 지금 100만 원 받을래 지금 50만 원 받을래 랑 똑같은 질문이에요

그럼 무조건 100만 원 받아야겠죠

그래서 할인을 많이 하는 경우 즉 감마가 작은 경우는 미래와 현재의 보상의 차이가 크고 표면상으로는 액면으로는 똑같아도 실제로는 차이가 굉장히 크기 때문에 보상을 조금이라도 빨리 얻는 게 훨씬 유리하게 됩니다

그래서 할인을 크게 하는 경우 즉 감마가 작을수록 긴급성이 커진다

급하다 빨리 받아야 돼요

안 그러면 가치가 확 확 떨어집니다

심리학에는 쌍국선 할인이라는 개념이 있거든요

그래서 강화학습에서 할인은 기본적으로 감마를 계속 곱해요

그러니까 우리가 예를 들면 똑같은 100만 원인데 내후년에 받는 100만 원이면 감마 재고비 여기 붙습니다

그리고 똑같은 100만 원인데 내년에 받는다면 감마 1승이 붙어요

그러면 기본적으로 여기 1승, 2승, 3승 이렇게 나가니까 그래프가 어떻게 되냐면 여기 실선처럼 되거든요

이렇게 이거를 지수적 할인이라고 합니다

근데 심리학이라는 또 경제학이 행동경제학이라고 있어요

왜 이런 행동경제학이라고 하냐면 약간 아까도 얘기 드렸는데 옛날에 심리학자들이 심리학은 마음을 연구하는 게 아니라 행동을 연구하는 거야

이딴 소리를 해가지고 약간 그 흔적이 남아서 심리학적으로 뭘 하는 거 할 때 심리-학 이렇게 안 하고 행동-학 이렇게 하는 경우가 있습니다

행동경제학이라고 하는 거는 실제로 심리경제학이에요

사람들의 심리적인 요인을 경제에 반영을 하는데 옛날에는 심리학이라는 말보다 행동 이런 식으로 하는 게 익숙해서 그래서 이제 행동경제학 하는 사람들이랑 이 사람들 거의 겹치거든요

그 사람들이 연구를 해 보니까 인간은 지수적 할인을 하지 않고 쌍곡형 할인을 하더라

그래서 함수가 이렇게 생겼더라

그래서 이 두 개 함수의 차이가 뭐냐면 지수형 할인은 대체로 일정해요 할인율이 그래서 예를 들면 올해 90%로 할인을 하면 내년에도 90% 할인하고 내후년에도 90% 할인하고 항상 할인을 똑같이 합니다

쌍곡형 할인은 뭐냐면 여기 기울기를 보시면 쌍곡형 할인은 초반에는 엄청 할인을 많이 합니다

여기가 뚝 떨어지죠

나중에 가면 별로 할인을 안 하거든요

지수형 할인은 물론 미분을 하면 미분까지 받긴 하지만 일정하게 변해요

그래서 어떻게 생기냐면 우리가 단기간에 할인하는 거랑 장기간에 할인하는 게 할인 함수가 약간 물론 쌍곡형 함수를 따르긴 한데 할인되는 정도가 굉장히 달라요

예를 들면 여러분 지금 기준으로 유튜브를 보시겠어요

아니면 유산소 운동 똑같이 30분 하는데

유산소 운동 30분 하시겠어요?

유튜브 30분 보시겠어요?

하면 유튜브 30분 하는 게 재밌죠

근데 여러분이 10년 뒤에 여러분 10년 뒤에 아 내가 10년 전에 유튜브 30분 못 봐서 너무 억울하다

이렇게 생각하시겠어요?

아니면 10년 전부터 내가 유산소 운동 매일 30분씩 할 걸 이러고 후회하실 가능성이 크겠어요

보통 이쪽이 더 크죠

왜 이렇게 되느냐 할인율이 다르기 때문에 그렇다 이거 이때는 할인을 되게 급하게 하기 때문에 유산소 운동의 효과는 나중에 나오잖아요

내가 지금 유산소 운동 30분 하는 거는 효과가 굉장히 장기적으로 나타나는 거란 말이에요

근데 이거는 여기가 있는 거야 할인을 많이 해가지고 나는 지금 여기에 있어요

근데 유튜브는 지금 기쁨을 주잖아요

그래서 유튜브는 지금 기쁨을 주기 때문에 여기에 있습니다

그래서 굉장히 차이가 큰 거예요

그래서 운동하기가 그렇게 싫은 겁니다

근데 시간이 지나버리면 어떻게 되냐면 먼 미래나 먼 과거에서 보면 이 두 개가 사실 유튜브가 주는 즐거움이라고 해봐야 굉장히 간단한 건데 내가 아프면은 막 여러분 운동 안 하셔가지고 건강이 안 좋아지면 아 운동 좀 할 거 이 생각이 들지

유튜브 볼 걸 이거 후회하는 사람 아무도 없다보니까 사실 절대적인 가치는 유튜브가 가치가 굉장히 낮습니다

굉장히 낮은데 먼 미래 시점을 보면 이게 차이가 나는데 당장은 이 두 개가 시점 간 차이 때문에 큰 차이가 안 난다는 거죠

그래서 이거를 그림으로 그려서 보면 지수형 할인에서는 항상 비율이 똑같거든요

그래서 먼 큰 이익이 있고 가까운 작은 이익이 있으면 얘네가 같은 비율로 할인이 되기 때문에 만약에 얘가 더 높았다

한 번이라도 더 높으면 이걸 시점을 당겨와도 얘가 계속 높습니다

얘가 지금 할인을 이렇게 하면 만약에 얘가 더 높으면 얘가 계속 높아요

그러니까 만약에 내가 지금 유튜브 보는 게 더 재밌고 지금 운동하는 게 싫으면 10년 후에도 내가 유튜브 못 본 게 후회가 되지

운동 안 하는 게 후회가 안 된다는 거예요

그러면 지수형 할인을 하는 겁니다

근데 우리는 그렇지 않거든요

언제 생각하는가에 따라 그게 달라요

지금 생각하면 유튜브 보는 게 재밌는데 10년 뒤에 생각하면 이게 뒤집히거든요

그래서 이렇게 되는 거는 인간은 지수형 할인을 하지 않는다라는 근거로 사용이 됩니다

근데 이거는 학자들끼리 논쟁은 있어요

어떤 사람은 지수형 할인을 하긴 하는데 그 먼 미래 10년 뒤를 어떻게 상상해 10년 뒤에는 상상력의 구족 때문이다

뭐 이런 사람도 있고 오만가지 설이 있는데 여기서 그건 중요한 건 아니고 어쨌든 이 할인율 개념을 잘 생각을 해보시면 우리가 인간 행동에도 적용을 할 수 있습니다

왜냐하면 이 강화학습 자체가 이 초에 이런 인간 행동 개념을 AI한테 써먹으려고 만든 거니까 서로 반대로 되겠죠

강화학습에서 AI 강화학습에서의 개념을 심리학이나 이런 데 적용할 수 있고 서로 왔다 갔다 합니다

근데 우리가 합리적인 AI를 만들려면 쌍곡형 할인을 하면 안 되겠죠 쌍곡형 할인을 하면 AI가 이랬다 저랬다 할 거 아니에요

언제는 유튜브 보는 게 더 좋다고 했다가 언제는 운동할 걸 이랬다 이러면 곤란하단 말이에요

유튜브를 보려면 유튜브만 보고 운동을 할 거면 운동만 하고 이걸 하려면 이거 하고 저거 하면 저거 하지 시간의 시점에 따라서 이랬다 저랬다

우리처럼 변덕을 부리면 그런 AI는 좀 좋지 않죠

그래서 우리가 AI를 만들 때는 인간처럼 쌍곡형 할인을 하지 않고 지수형 할인을 합니다

그래서 약간 이게 AI에서 중요한 점 중에 하나인데 우리가 보통 AI라고 하면 인간 같은 거를 AI라고 생각하는 경향이 있어요

근데 그런 방향의 AI를 연구하는 사람들도 있긴 있습니다

왜냐하면 그런 게 필요할 때도 있거든요

근데 대부분의 경우에는 인간 같은 AI를 만들면 안 됩니다

왜냐하면 인간 너무 변덕스럽고 너무 종잡수없고 도대체 뭘 하는지 모르겠고 너무 불안정하고 이렇게 때문에 인간 같은 AI를 만들면 오히려 안 되는 경우들이 많습니다

그래서 AI를 만들 때는 약간 덜 인간적으로 만들려는 경향이 있습니다

수익(return)

그래서 이거는 그냥 이제 재밌는 이야기 정도로 생각을 해주시면 될 거 같고요 그래서 이제 우리가 수익을 얻는데 수익은 우리가 보통 알파벳을 G로 쓰거든요

사람마다 다릅니다

저는 G로 써요

그래서 이제 우리가 리워드는 R로 쓰고 수익은 G로 쓰는데 그러면 내가 현재 시점 기준으로 해가지고 내가 앞으로 받을 모든 보상이 있겠죠

그래서 다음 번에 받을 보상 T 플러스 1에 받을 보상, T 플러스 2에 받을 보상, T 플러스 3에 받을 보상 그러니까 지금이 2024년이면 예를 들면 여러분이 회사를 다니시면서 얻는 수익은 G2024는 어떻게 되냐면 내년도 받을 연봉에다가 그 다음에 받을 연봉에다가 이렇게 해서 정년퇴직 하실 때가 있지 않겠죠

그래서 보통 대문자로 T로 쓰는 거는 마지막 시점을 말합니다

그래서 정년퇴직 할 때까지 받을 모든 연봉을 다 더하면 이게 여러분의 회사 생활의 수익이 되는 겁니다

총 리턴이 되는 거예요

근데 예를 들면 똑같은 연봉을 예를 들면은 우리가 여기 계신 분들이 다 아주 훌륭하신 분들이어서 연봉을 퇴직할 때까지 매년 10억을 받기로 하셨어요

10억, 10억, 아 기분 좋다

그죠?

10억, 10억, 어떡해

그래서 퇴직할 때까지 10억을 받는데 사장님이 그런 얘기 하시는 거예요

앞으로 4년 이 회사 20년 다닐 건데 내가 똑같은 돈인데 올해 줄 10억을 5억만 주고 퇴직하기 전에 내가 15억 주겠네

이러면 여러분 어떻게 하시겠어요?

지금 장난하세요?

나오겠죠?

아니 내 5억 왜?

왜 20년 뒤에 준다니?

말이 됩니까?

그래서 언제 주냐가 중요하단 말이에요

똑같은 15억이라도 이때 주면은 좋은 거고 이때 주면 별로 안 좋은 거잖아요

왜 그렇습니까?

할인을 해서 그래요

그래서 할인을 하는데 할인을 할 때 올해 거는 그냥 그대로 받으면 되고 내년 거는 한 번 할인을 하면 되고 내후년 거는 두 번 할인을 하면 되고 쭉 가서 마지막에 받는 거는 이 T만큼 이거는 정년 퇴직하는 연도고 이거는 올해 연도면 두 개 빼면 그만큼 할인을 하면 되겠죠?

만약에 퇴직할 때까지 10년 남았다

그럼 10번 할인하면 되고 20년 남았다

그럼 20번 할인하면 되고 그렇게 하면은 이게 할인 된 수익인데 이게 진짜 여러분의 수익입니다

이게 이제 여러분이 이 회사를 다니시는 동안 받을 수익이 되는 거죠

그래서 예를 들어서 경력과 관련해서 고민이 생기실 때가 있잖아요

예를 들면 내가 이직을 할까 아니면은 장사를 좀 해볼까 갑자기 내가 카페를 하고 싶다 꽂혀가지고 그러면 단순히 예를 들면 지금 연봉이 얼마인데 그런 식으로 계산하신 분이 있거든요

예를 들면 내가 지금 연봉을 회사에서 1억 받는데 내가 카페에 아는 형이 그러는데 요즘에 카페가 잘 돼가지고 카페 잘 되면 3억도 받는데 번 대 1년에 그러면 야 이게 더 크네라고 생각하실 수도 있지만 우리 기간도 생각을 해봐야겠죠

회사 다니면 그래도 정년까지 다닐 수 있을 것 같은데 우리 회사는 내가 카페 차리면 몇 년이나 할까 만약에 카페 차려가지고 뭐 3억 3억 3억 벌다가 한 3년쯤 돼서 완전 망하고 그때부터는 이제 돈거리가 없다 그러면은 이제 계산이 복잡해지는 거잖아요

그러면은 이 할인율을 계산을 해가지고 총 수익을, 리턴을 계산을 해보셔야겠죠

그래서 이제 굉장히 머리가 복잡해지기 시작합니다

긴급성

이때부터는 그래서 보통 이제 우리가 회사 같은 데서 경제적인 의사결정 할 때는 여기다가 이제 은행이자율 같은 거를 할인율로 쓰죠

그래서 이거에 따라서 회사 가치나 이런 것들이 왔다 갔다 하고 이렇게 됩니다

그래서 이제 회계하시는 분들은 뭐 MPV 이런 식으로 얘기를 하는데 그래서 이제 똑같은 어떤 그 가치도 은행이자율이 달라지면 멀쩡하게 똑같은 자산인데 가치가 갑자기 바뀌어요

이 자산은 멀쩡하게 그대로인데 왜냐하면 할인율이 달라지니까 똑같이 우리 회사에 1억 원씩 벌어 주는 어떤 기계가 있으면 그 기계의 가치가 기계는 가만히 있는데 은행이자율이 바뀌면 얘의 가치가 또 같이 바뀝니다 가만히 있는데 얘가 왜 바뀌어요 할인율이 달라지기 때문에 그래서 이제 보통 강화학습에서는 이제 뭐 우리 할인율을 정할 때 은행이자율 같은 걸 정할 수는 없기 때문에 뭘 기준으로 하냐면 우리가 이제 긴급성을 가지고 할인율을 정합니다

그러니까 우리가 이제 뭔가

빨리빨리 하는 게 급하다 라고 하면은 할인율을 작게 설정을 해주시고요

뭐 뭔지 안 하면 그냥 상관없어

그러면은 할인율을 크게 잡아주고 그래서 예를 들면 이제 바둑 같은 경우는 어떻게 하면 될까요?

할인율을 어떻게 잡아야 될까요?

바둑은 이제 이기면 보산이 오는 거잖아요

언제 이기든지 이기면 상관없죠

빨리 이기든 늦게 이기든 상관없다 그러면은 할인율을 크게 잡아주면 되겠죠

실제로 알파고는 할인율이 1로 되어 있습니다

언제든지 이기면 돼요

좀 늦어도 천천히 이기면 되지

뭐 급한가 어차피 한 백수, 이백수 더 해야 되는데 뭐 천천히 놓지

뭐 이렇게 됩니다

근데 이제 할인율을 좀 작게 잡아야 되는 경우도 있으니까 뭔가

빨리빨리 해야 되는 어떤 경우가 있을까요?

예를 들면 로봇팔로 물건을 집어야 되는데 빨리 집어야지

아 뭐 세워라 언젠간 집으면 되겠죠

이러고 있으면 언제 작업합니까?

빨리 빨리 집어야죠

그러니까 뭔가 이익이 되는 행동을 빨리 빨리 좀 했으면 좋겠다 이러면은 할인율을 작게 잡아서 빨리빨리 하게 하시면 되고 만약에 뭐 급한가 천천히 하지

뭐 괜히 급하게 하다가 괜히 뭐 바둑 같은 것도 괜히 급하게 하다가 게임에 지면은 말짱 황이잖아요

그러면은 좀 천천히 시간이 걸려도 이기는 게 더 중요하니까 그런 거는 할인율을 크게 잡으세요

이거는 은행이자율이라든가 이런 외부에 절대적인 기준이 없기 때문에 약간은 좀 주관적으로 결정되요 할인율은 그래서 우리가 이제 앞에서 수식을 보시면 이제 수식이 슬슬 나오기 시작하니까 약간 수학 싫어하시는 분들은 조금 별로 기쁘지 않으시겠지만 여기 이제 이 식을 보시면 여기를 이렇게 묶을 수가 있는데 이 수식을 보시면 감마가 앞으로 하나씩 다 빠져나가죠

재귀적 표현

그러면은 이거는 t플러스 2부터 쭉 더해 나가는 거니까 결국에는 g의 t플러스 1에 감마 를 해준 거랑 똑같습니다

그러니까 현재 수익은 현재 보상에다가 더하기 미래 수익을 할인한 거랑 똑같게 됩니다

그래서 내가 이 회사 다니면서 지금 이 회사에서 얻을 수 있는 리턴이라는 거는 이번에 받을 연봉하고 그 다음에 그 다음 시점에 내가 이 회사에 재직함으로서 얻는 어떤 수익이 있는 거죠

그 수익을 할인한 거랑 똑같게 됩니다

그래서 이런 식으로 표현하는 거를 재기적 표현이라고 해요

여기 재기라는 거는 g 안에 다시 g가 들어가기 때문에 그렇게 말합니다

재기가 되돌아온다는 거잖아요

그래서 강화특은 이런 식으로 재기적 표현이 많이 나오거든요

뭐 안에 자기 자신이 나오는 이런 표현이 많이 나오는데 이런 거는 좀 알아주시면 좋습니다

여기까지 질문 있으시면 질문해 주세요

일에 따라서 작업값이 많이 달라질 것 같은데 그쵸 작업을 학습할 포함하는 부분을 사용할 수 있습니까?

이거는 학습으로 되지 않고요 보통 하이퍼 파라미터라고 해서 하는 사람이 결정을 합니다

근데 애매할 때는 우리가 어떻게 할 수 있냐는 결과적으로 사실 예를 들면 로봇을 만든다 그러면 그 로봇을 실제로 가정함으로써 결국 경제적으로 하는 데는 어떤 효과가 있거든요

예를 들면 내가 전기를 얼마 드리고 작업시간 얼마 드렸는데 내가 할인율 얼마 했을 때는 전기 얼마 해서 작업을 했는데 내가 할인율을 이만큼 했을 때는 더 적은 전기로 빨리 작업을 하더라

그러면 이제 할인율을 그렇게 결정하는 거죠

약간 사후적으로 결정되는 수치라고 생각합니다

그래서 이거를 이 표현을 좀 더 설명드리겠습니다

예를 들면 여러분이 건물을 가지고 계신다

건물 가치라는 거는 건물이 주는 수익이죠

그거는 이번 달에 받을 임대료 세입자들한테 받은 임대료에다가 내년도에 이 건물 수익의 할인율이랑 똑같은 거죠

그러면 사실 은행 이게 이제에 따라 결정되니까 여러분이 받는 임대료가 고정이어도 이게 이자율이 바뀌면 현재 건물 가격이 바뀌는 겁니다

이런 식으로 수식은 사실 강화학습에서만 쓰는 건 아니고 경제학에서 쓰고 오만 분야 이런 식으로 적을 볼 수 있는 모든 분야에서 다 쓰는 수식이니까 알아두시면 유용하겠죠

여러가지 상황에 써먹을 수 있습니다

정책(policy)

우리가 이제 정책이라는 용어가 있어요

정책이라는 건 뭐냐면 상태에 따라서 행위자가 어떤 행동을 하느냐 정책이라고도 하고 분량에 따라서는 전략이라고 하기도 합니다

스트레티지 그래서 여러분들은 아마 전략이라는 용어가 좀 더 익숙하실 거예요

내가 어떤 전략이 있다

예를 들면 나의 투자 전략은 이거야

이러면 뭡니까

나는 이럴 때는 이렇게 투자하고 저럴 때는 저렇게 투자한다

그게 내 투자 전략이잖아요

만약에 예를 들면 나는 경기가 안 좋으면 책번에 투자하고 경기가 좋을 때는 주식에 투자해 나의 투자 전략이야

그래도 그거는 경기가 안 좋은데 주식 투자하고 이러면 안 됩니다

전략이라는 건 딱 정해놓고 그대로 해야 전략이에요

여기 정책도 마찬가지인데 강화학습이면서 정책이라는 거는 내가 딱 정해놓고 이때는 이렇게 하겠다고 하는 거예요

예를 들면 로봇이면 이렇게 각도에서 물건이 저기 있으면 이쪽으로 이렇게 가겠다

이렇게 하는 거죠

그래서 보통 이거는 그리스 문자로 파이로 표시합니다

그래서 정책도 두 가지가 있어요

결정론적 정책하고 확률론적 정책인데 결정론적 정책은 딱 정해놓고 그것만 하는 건데 확률론적 정책은 확률적으로 하는 거 이럴 수도 있고 저럴 수도 있어

그럼 그게 무슨 정책이냐

그 대신에 이럴 수도와 저럴 수도의 확률은 있는 거야 아무렇게나 하는 건 아니고 내가 10번 중에 6번은 이렇게 나가지만 10번 중에 4번은 이렇게 나간다든가 10번 중에 9번은 이렇게 하지만 10번 중에 1번은 다르게 한다든가 이런 식으로 아무렇게나 하는 건 아니고 그때그때 다르긴 하지만 확률은 있다 그러면 확률론적 정책이 됩니다

이 경우도 전형수와 마찬가지로 결정론적 정책도 확률론적 정책의 일부죠

가치(value)

왜냐하면 100% 확률로 하면 결정론적 정책이랑 똑같으니까 그 다음에 이제 우리가 가치라는 용어가 있는데요

가치는 뭐냐면 수익의 기대값이 됩니다

수익은 return 알파벳으로 쓸 때는 보통 g로 쓰죠

이 강의자로서 그래서 g의 기대값이 됩니다

그래서 이제 용어가 많은데 하나씩 정리해보면 보상, 리워드는 R로 쓰고 이거는 매번 받는 거예요

매번 받는 거예요

예를 들면 이제 우리가 정기예금 이자 뭐 이런 거 정기예금 다달이 나오는 이자 있죠

매번 받는 게 이제 보상이고 수익은 R을 다 더한 거 다 더하는데 그냥 더하는 게 아니라 할인해서 더한 거죠

그래서 이거는 이제 정기예금 만기됐을 때 찾는 돈까지 다 더한 겁니다 찾는 돈만이 아니라 중간에 이자도 다 더해야겠죠

이자도 더하고 근데 이제 만약에 똑같은 똑같이 정기예금 가입하면 100만원 준다고 해도 만기가 다르면 만기가 짧은 게 좋죠

똑같은 돈 받을 겁니다

그 다음에 이제 가치는 뭐냐면 그 수익의 기대값이에요

보통 이제 E 이렇게 쓰는데 가치는 보통 V로도 쓰고 Q로도 씁니다

이제 기대값은 왜 나오냐면 지금 우리가 이 수익이 고정된 게 아니에요

정기예금이면 딱 고정이 돼 있겠지만 예를 들면 여러분 주식 투자를 하시면 일단 환경이 확률적이죠

확률적 환경이에요

전향수가 확률적이라서 환경 자체가 이랬다 저랬다 합니다

여러분이 똑같은 전략으로 투자하신다고 해서 똑같은 결과가 나오질 않아요

그때마다 수익이 왔다 갔다 합니다 수익이 확률적이고 거기다가 여러분의 정책까지 확률적이면 여러분이 뭘 하는지도 확률적인데 그 행동에 따른 결과도 확률적입니다

확률이 두 번 붙는 거죠 확률 확률 하니까 이랬다 저랬다 해요

그래서 결국에는 매번 그게 다르니까 기대값도 이제 그거를 평균 내면 매번 수익이 다르기 때문에 그걸 평균 내면 가치가 아닙니다

그래서 보상 수익 가치 이게 용어가 되게 깔리거든요

이 차이를 구분하시는 게 중요합니다

상태가치함수

그래서 가치도 두 가지로 나누는데 상태 가치가 있고 행동 가치가 있어요

이제부터 수식이 복잡해집니다

상태 가치는 뭐냐면 내 현재 상태의 가치예요

내가 현재 이 상황에 있으면 내가 앞으로 얻을 수 있는 수익의 기대값이 얼마냐

이런 얘기예요

여러분들이 지금 회사 대부분 다니고 계시잖아요

현재 상태에서 내가 그냥 가만히 있으면 내가 뭔가를 할 수 있는데 앞으로 여러분의 생애의 기대소득이 있단 말이에요

내가 은퇴할 때까지 이만큼은 벌겠지

여러분 마음속으로 어느 정도는 그게 견적이 있으시잖아요

없으실 수도 있지만 그냥 정확한 숫자나는 또 그래도 내가 은퇴할 때까지 대충 이 정도는 못 벌겠어

이런 게 사람들 다 있단 말이에요

그게 여러분의 상태 가치가 됩니다

그리고 그거를 함수 형태로 나타내면 상태 가치 함수가 됩니다

함수가 된다는 건 뭐냐면 이 상태에다 얼마를 대입을 하면 가치가 뿅 하고 나오는 거죠

그래서 우리 회사 들어오면 예를 들면 여러분 후배를 만나서 우리 회사 오라고 꽃이 나와요

요즘에도 그런 거 하는지 모르겠지만 보면 자기 모교 가서 후배를 리쿠리팅 해 오고 이럴 때 있잖아

인력 부족하면 리쿠리팅 하러 가서 우리 회사 오면 일단 입사만 하면은 최소한 이 정도는 된다

이런 거 얘기해 줄 때 있잖아요

그런 게 상태 가치 함수가 되겠죠

그래서 상태 가치는 보통 V로 많이 씁니다

그다음에 식이 엄청 복잡해지는데 이 식을 하나하나 뜯어 보면은 그렇게 복잡하지는 않고요 그래서 우리가 아까 지금 현재 시점의 지는 받는 보상에다가 다음 시점의 지 할인한 거랑 똑같다

이런 얘기 했죠 수식을 이쁘게 적어야겠다 현재 시점의 지는 우리가 이제 받을 이번에 뭔가 액션을 해 가지고 받을 보상에다가 그다음에 다음 시점에 지을 더한 거랑 똑같다고 했죠

그러면 이제 이거는 그 수익이 고정된 상태에서 그런 건데 실제로는 우리가 이 수익이 어떻게 될지 모르거든요

그래서 이거를 가치 함수로 바꿔 놓습니다

그래서 여기 S' 이렇게 썼는데 S는 현재 상태고 S'은 다음 상태 내가 다음 번에 받을 어떤 가치를 할인한 거랑 그다음에 이거는 이번에 받을 보상 그래서 이걸 두 개를 더하면 되는데 문제는 우리가 지금 전이 함수가 확률적이에요

뭐냐면 이 상태에서 내가 이 행동을 했다

쳤을 때 바 이렇게 하면 뒤에가 조건입니다

내가 이 상태에서 이 액션을 했다고 쳤을 때 그럼 다음 상태가 S'이 어떻게 될지

몰라요

그리고 내가 이번에 보상을 얼마 받을지도 몰라요

다 둘 다 확률적입니다

그래서 그런 확률이 있으면 이거 두 개를 꼽혀 줘야겠죠

내가 예를 들면은 보상을 많이 받을 확률이 있고 조금 받을 확률이 있으면 그 보상을 예를 들면 만 원 받을 확률이 있고 2만 원 받을 확률인데 만 원은 70% 확률로 받고 2만 원은 30% 확률로 간다 70%랑 만 원이랑 곱하고 30%랑 2만 원이랑 곱해야 되잖아요

그래서 이 확률하고 실제로 받는 거하고 두 개를 꼽혀 줘야 됩니다

그 다음에 내가 현재 상태에서 내가 어떤 행동을 할지도 확률적이란 말이에요 확률적 정책을 따르면 그러면은 그것도 확률이기 때문에 현재 주어진 상태에서 내가 A를 이렇게 할까 저렇게 할까

이게 확률이 있으니까 이것도 곱혀 줘야 됩니다

그래서 매우 매우 시기 복잡해 보이지만 사실 이제 안쪽부터 보시면 되는데 안쪽은 그냥 이번에 받을 보상하고 다음번에 같이 곱고 그럼 보상하고 다음번에 어떻게 될지는 알 수 없으니까 그거를 확률을 곱해 주시고 그 다음에 여러분이 이번에 어떻게 할지도 확률이니까 이것도 곱혀 주셔야겠죠

그래서 그게 현재 상태의 가치가 됩니다

그래서 여러분이 이 상태 가치 항수를 만드시려면 이거, 이거, 이거가 다 있어야겠죠

행동가치함수

그 다음에 행동 가치 함수라는 것도 있는데 행동 가치 함수는 조금 더 시기 짧습니다

왜냐하면 행동 가치 함수는 이미 행동을 했다 치는 거에요

상태 가치 함수와의 차이는 상태 가치 함수는 상태에는 있는데 내가 무슨 행동을 할지

몰라요

그러니까는 행동을 할 확률을 다 곱혀 줘야 되거든요

예를 들면 여러분이 회사를 계속 다닐 확률 다닌다가 있고 퇴사하고 내사업을 하겠다

이것도 있겠죠

여러분들은 자기 사업에 열망이 있으신 분도 있고 가끔 뭐 자기 사업을 해 정육퇴직까지 다녀

이런 분도 있지만 나도 한번 내사업 해보겠어

이렇게 보는데 제가 뭘 알아야 하는지 만약에 여러분이 확률이 있으면 다닐 확률이 90%지만 내가 내사업 한다고 회사 때려칠 가능성은 10%는 있어

그러면 현재 상태 가치를 계산할 때 다닌다로 해서 내가 다녀서 앞으로 받을 온갖 가능성이 있을 거죠

그걸 다 더해줘야 되고 내사업 할 가능성도 10%가 있으니까 사업이 잘 되고 못 되고 그냥 그렇고 이런 거 다 더해줘야 됩니다

그래서 상태 가치 함수는 이걸 확률을 곱해 주는데 행동 가치 함수는 내가 어떤 행동을 한다는 것도 전제가 되어 있기 때문에 고 확률은 이제 없어요

그래서 앞에 식이란 보시면 여기 부분이 없는 거죠

왜냐하면 내가 행동을 이미 정했으니까 행동을 할 확률은 이제 노는 거죠

그래서 여기 두 개의 수식 보시면 이 뒷 부분만 해당됩니다

그래서 결국에는 이 뒤가 Q, 행동 가치 함수가 되니까 행동 가치 함수에다가 행동의 정책 확률이 되겠죠

행동 확률 행동 확률하고 곱하기 행동 가치를 하면 내가 상태 가치가 되는 거죠

예를 들면 여러분이 회사를 그냥 계속 다닐 확률이 90%고 회사를 다니면 내가 퇴직할 때까지 얼마 번다고 할까요?

기분 좋게 한 50억이라고 합시다

50억 정도 벌 것 같다

근데 내가 10%의 확률로 회사를 때려칠 것 같아

근데 내가 10%의 확률로 회사를 때려치면 한 100억은 벌 것 같아 아까까지 여기까지 그러면 여러분의 현재 상태 2024년 기준으로 여러분의 현재 상태 가치는 얼마냐면 이거 45억이고 이거 15억이니까 여러분의 상태 가치는 55억이 되는 겁니다

이 되시죠?

그래서 이게 행동 가치 함수다

이득(advantage)

그 다음에 두 개만 더하면 이득이라는 개념이 있어요

어드벤티지라고 하는데 어드벤티지는 뭐냐면 별거는 아니고 행동 가치랑 상태 가치를 뺀 거예요

그래서 상태 가치가 예를 들면 앞에서 여러분의 상태 가치가 얼마였습니까?

55억이죠

왜 55억이죠?

그러니까 이렇게 이렇게 해서 이렇게 해서 이렇게 해서 이렇게 해서 여러분의 상태 가치가 얼마였습니까?

55억이죠

왜 55억이죠?

잠깐 뭐 이상한데 55억이죠

55억인데 여러분은 그냥 지금 있으면 55억 좀 버는 사람이에요 은퇴할 때까지 55억 버는 사람인데 그러면 여러분이 퇴사하고 자기 사업하면 얼마가 이득입니까?

여러분이 퇴사하면 100억은 벌 거니까 100억에서 55억 빼면 여러분의 이득은 45억이 되는 거죠

여러분은 현재 55억 정도 벌 걸로 기대 되는 사람인데 획업 버니까 이득은 45억이 됩니다

그리고 여러분이 그냥 회사를 다니면 55억이니까 50억에서 55억 빼면 마이너스 5억인 거죠

여러분이 회사를 다니시면 55억을 버는 게 아니고 5억을 손해보는 거예요

왜냐하면 여러분은 55억은 버는 사람인데 가만히 있는 선택을 하면 5억 손해보는 거나 가만없다

이런 식으로 되는 거죠

그래서 이렇게 얘기하니까 퇴사하시라고 권하는 거 같은데 그런 얘기는 아닌데 얘가 그렇다는 거예요

그다음에 그러면 이거를 이렇게 오른쪽으로 넘겨줄 수 있겠죠

그래서 상태 가치하고 이득하고 더하면 행동 가치가 됩니다

그래서 현재 상태에서 내가 이걸 했을 때 이득이 얼마냐

이걸 했을 때 손해가 얼마냐

그러면 결국 그게 행동 가치가 된다

이렇게 볼 수 있고요 그다음에 마지막으로 오늘 마지막 내용이 되겠습니다

최적성(optimality)

최적성이라는 개념인데요 최적성은 뭐냐면 최상의 상태에 있다

이런 얘기인데 우리가 강화학습에서 최적 정책이라고 하면 모든 상태에서 어떤 정책을 띄는 것보다 나는 이게 더 기대수익이 크다 가치가 더 크다

그러니까 무슨 상황이 되든지 간에 나는 이 정책을 취하고 있는 이상 가치를 더 크게 할 수 있다

이런 경우를 최적 정책이라고 합니다

정책이라는 말이 좀 어려우시면 전략이라고 생각합니다

최적 전략을 가지고 있으면 여러분이 주식 투자를 하는데 진짜 최적의 전략을 가지고 있으면 경제 상황이 좋든 나쁘든 경기가 나쁘든 좋든 금리가 오르든 내리든 어떻게 하는 것보다 이 전략보다 좋은 전략이 없다는 거예요

그렇죠?

근데 생각해보면 그런 전략이 있겠어요

이게 있기는 있을 건데 이론적으로는 있을 건데 그거를 우리가 구할 수 있는 경우는 별로 없습니다

왜냐하면 너무 많은 전략이 있기 때문에 너무 많은 가능성이 있어서 현실적으로는 사실 최적 전략을 찾는 거는 대부분 불가능하다 그래서 강화학습에서 약간 이상적인 거는 최적 전략을 찾는 건데 사실은 최적 전략하고 그냥 비슷하기만 해도 대부분 된다

왜냐하면 예를 들면 최적 전략이라는 건 이런 거예요

투자의 최적 전략은 지구에 소행성 충돌이 나고 핵전쟁이 나고 가장 좋은 투자 전략이다

이럴 수는 있는데 그런 전략을 우리가 만들 필요가 있을까요?

소행성이 떨어져도 좋은 투자 전략 이런 건 별로 필요 없단 말이야

뭐냐 하면 우리가 현실적으로 어떤 극단적인 케이스들이 이렇게 있는데 여기서까지 최적을 필요는 없거든요

그냥 어떤 일반적인 경우 안에서 일반적인 범위 안에서만 좋으면 됩니다

그래서 우리가 보통 경기가 좀 좋다든지 경기가 좀 나쁘다든지 아니면 금리가 좀 오래되면 이런 범위 내에서 최적 전략이면 충분한 것이지 진짜로 최적 전략인 경우는 그것까지 우리가 찾을 필요는 없다

적대적 공격(adversarial attack)

그래서 이런 거고 근데 이제 문제는 뭐냐면 누가 악의의를 가지고 있으면 악의적인 상대가 있으면 우리는 대부분의 상황에서 잘 먹히는 어떤 전략을 만들어 놨는데 어?

그래?

그럼 이 상황은 너 데뷔 안 해놨겠다 하고 공격을 할 수가 있습니다

이런 걸 적대적 공격이라고 해요

이거를 그래서 이런 강화습으로 된 어떤 행위자가 있을 때 이 알고리즘이 노출되면 굉장히 위험할 수 있습니다

왜냐하면 악의의를 가진 상대광이 그 알고리즘이 노출돼 있으면 그걸 이용해서 공격을 할 수 있어요

그래서 챗GPT도 강화학습이 되어 있다고 했잖아요

그래서 연구 분야 중에 하나가 뭐냐면 챗GPT한테 욕을 하게 만들거나 챗GPT한테 폭탄 제조 방법을 불게 만드는 게 하나의 연구 분야입니다

그래서 챗GPT가 데뷔가 안 된 어떤 말을 하면 챗GPT가 아 예 폭탄 만드는 거 알려주시오

이러면서 막 술술 불거든요

그러면 그게 논문으로 나오면 또 막힙니다

아 그럼

이런 케이스가 또 있구나 또 말아놓고 그래?

그럼 요경은 또 데뷔 안 해놨겠지

또 공격하고 그래서 강화학습을 할 때 요런 것도 우리가 이제 알고리즘이 유출이 안 되게 조심해야 된다

공격을 당할 수 있다

최적 가치 함수

어 이게 정책에 따라서 왜 달라지느냐 하면은 우리가 정책에 따라서 정책이라는 게 뭐예요?

내가 어떤 상황에서 어떻게 행동하겠다 이런 거잖아요.

그럼 나의 미래가 이렇게 펼쳐져 나가는데 결국에는 여기에서 이제 여기로 가느냐 여기로 가느냐는 어떤 나의 액션에 따라서 결정이 되는 거란 말이에요.

그럼 만약에 내가 미래에 이 액션을 하지 않는다면 이쪽으로 가면은 나의 미래는 바뀌는 거죠.

그러면은 이 미래가 바뀌기 때문에 가치라는 건 결국 뭡니까?

내가 앞으로 어떤 결과에 도달할 거냐는 기대기 때문에 내 정책이 바뀌면 가치도 바뀌게 됩니다.

예를 들면은 내가 지금 창업을 하느냐 아니면은 회사를 계속 다니느냐

기로에 서 있어요.

그럼 요거에 그 가치를 결정을 해야 되는데 내가 회사를 다닐 건데 그냥 대충 다닐 거예요.

이게 나의 정책이죠.

대충 다닌다는 전제하에서 내가 회사에서 기대되는 수익이 있겠죠.

가치가 있을 건데 그러면은 예를 들면 내가 창업을 해서는 열심히 할 겁니다.

이렇게 생각을 하면 나의 정책은 창업하면 열심히 하고 회사는 대충 다닐 거라는 전제하에서 창업의 가치랑 회사의 가치가 결정이 되는 거죠.

그러면은 그 이 상태 가치도 거기에 합계니까 영향을 받게 됩니다.

근데 만약에 내가 회사도 열심히 다닐 건데 회사는 열심히 다닐 건데 그냥 창업해서 유유자적 살고 싶다.

손님 없는 카페 같은 거 차려 가지고 살고 싶다.

그러면은 나의 정책이 이거니까 창업의 가치와 회사의 가치가 또 달라집니다.

그러면 현재 상태의 가치도 달라지게 돼요.

그래서 이 가치라는 거는 항상 이 파이에 의해서 여기 파이라고 쓴 거는 정책에 의해서 달라지게 됩니다.

그러면 내가 무수히 많은 정책들이 있는데 내가 어떤 정책을 어떻게 쓰냐에 따라서 이 가치가 달라지지만 그런 수많은 정책들 중에 현재의 그 상태를 맥스로 만드는 어떤 정책이 있을 거예요.

여러분이 현재 상태가 있잖아요.

2024년 9월 3일 현재 기준으로 여러분들의 어떤 가치를 극대화하는 정책이 뭔가

있을 겁니다.

그 정책을 취한다고 했을 때 그때의 그 가치를 최적 상태가치 함수라고 부르고 그때 별표시를 하게 됩니다.

그래서 V스타 S 이렇게 쓰면 최적 가치로 했을 때 어떤 S에서의 가치가 됩니다.

그리고 이거는 최적 함수기 때문에 최적 함수는 모든 경우에 다 적용되는 거죠.

똑같은 논리로 최적 행동 가치 함수도 있는데 이건 Q스타 라고 쓰는데요.

이거는 모든 상태 모든 행동에서 그거를 최적으로 만드는 어떤 정책이 있고 그 정책을 취한다고 했을 때 가치가 되겠죠.

그러면 최적 이득도 존재하겠죠.

왜냐하면 어차피 이득이라는 거는 상태 가치랑 행동 가치를 Q랑 V랑 뺀 거니까 어차피 얘도 최적이고 얘도 최적이면 2개 빼면 최적 이득이 되겠죠.

그래서 최적 정책은 여러 개일 수가 있습니다.

구체적으로 어떻게 해야 되냐는 이렇게 할 수도 있고 저렇게 할 수도 있어요.

예를 들면 여러분이 회사 생활을 되게 열심히 해가지고 앞으로 돈을 많이 벌겠다

이렇게 생각할 수도 있고 아니면 내가 창업을 해가지고 돈을 많이 벌겠다

이렇게 생각할 수도 있는데 둘 다 가능한 정책이죠.

근데 만약에 내가 회사 생활 열심히 해도 한 50억 벌고 창업을 해서 열심히 해도 50억 번다.

그러면 얘네 실질적인 가치는 똑같은 거잖아요.

그래서 최적 정책은 여러 개일 수 있는데 그 가치는 하나밖에 없다.

왜냐하면 최적이라는 거는 그 위가 없는 거기 때문에 이게 최적은 딱 이게 천정이거든요.

그럼 여기에 정책은 여러 개 있어도 얘네 가치는 똑같겠죠.

그리고 가치가 똑같으니까 이득도 똑같게 됩니다.

그 다음에 우리가 이제 이거를 좀 풀어서 보면 벨만 최적성 방정식이라는 게 나오는데요.

우리가 앞에서 다시 가치함수식을 보면 자, 상태 가치함수의 식은 어떻게 되냐면 우리가 현재 받을 보상 그 다음에 다음 번에 가치 그리고 이걸 할인하는 오늘 아침에 퀴즈에서 제가 중요했다고 했다고 하는 거 있잖아요.

이번에 받는 보상 더하기 다음 번에 가치에다가 할인한 거 이게 이제 우리가 제규적 정의의 형태인데 여기서 끝나지 않고 왜냐하면 다음 번에 어떤 상태로 갈지 다음 번에 어떤 보상으로 갈지가 확률적이기 때문에 여기다 그 확률을 곱해 주셔야 되고 그 다음에 내가 무슨 짓을 할지

무슨 행동을 할지도 확률적이기 때문에 이 확률도 곱해 주셔야 된다.

그래서 이 확률 확률 내가 무슨 짓을 할 확률 그럼 내가 무슨 짓을 해서 그 다음에 무슨 일이 벌어질 확률 그 다음에 제규적으로 정의되는 보상과 할인된 가치 이렇게 가치가 정의가 되는데 그러면 우리가 최적의 상태에 있을 때는 어떻게 되느냐

일단 내가 어떤 행동을 할지는 결정이 되어버립니다.

왜냐하면 나는 최적의 행동을 할 거기 때문에 이제 확률이 의미가 없어요.

나는 항상 최선행동을 할 겁니다.

최선행동은 어쨌든 하나밖에 없기 때문에 아니면 행동이 여러 개일 수도 있지만 걔네 어차피 가치는 똑같죠

최적이기 때문에.

그래서 여기서 이제 앞에 붙던 앞에 시계 보면은 파이 A 바 S 가 있었는데 이제 얘네가 없어집니다.

이 확률은 이제 없어요.

왜냐하면 나는 최적 행동을 하니까 나는 그건 이제 전제가 되어 있고 나는 최적 행동을 하고 나머지는 이제 유지가 되는데 여기 뒤에도 스탭이 없어집니다.

내가 지금 최적 가치로 뭔가를 한다는 거는 다음 번에도 나는 최적 가치로 해야만 합니다.

그래야 최적이 유지되겠죠.

내가 지금은 최적인데 내일부터 지금까지는 내가 오늘은 최선을 다해서 살지만 내일은 최선을 다해서 살지 않겠어

그러면은 약간 최선을 다해서 하는 내일은 최선을 다해서 살지 않겠어.

그러면은 최선을 다해서 살지 않겠어.

그러면은 최선을 다해서 살지 않겠어.

내일은 최선을 다해서 살지 않겠어

그러면은 약간 최선을 다해서 내 인생이 최선은 아닌 거죠.

나는 최선의 인생을 살고 있어 라고 한다면 오늘도 최선 내일도 최선 모레도 최선 모든 게 다 최선이어야 됩니다.

그 다음에 최적 행동 같이 함수는 이제 우리가 행동은 이미 정해진 상태에서 하는 건데 그러면은 내가 다음 번에도 다음 번에도 최선의 행동을 하겠죠.

그래서 여기가 최대값이 됩니다.

내가 이거 Q스타 S' A'는 여기 다음번이잖아요.

내가 다음 상태에서도 행동은 최적 행동을 할 거야.

그래서 최적 행동 같이 함수는 이렇게 정의가 됩니다.

이 식을 외우실 필요 없는데 식을 보고 이게 왜 이렇게 되는지 이해는 하셔야 돼요.

읽을 줄은 아셔야 돼요.

여기에 왜 맥스가 들어가는지.

내가 다음 번에도 최적 행동을 할 거라는 전제하에 현재의 최적 행동 같이가 된 거.

예를 들면 여러분이 나 창업을 해야겠어 라고 했을 때 이게 최적이 되려면 창업을 한 다음에 하는 행동도 최적이어야 됩니다.

창업을 했는데 회사를 차리고 나니까 갑자기 인생의 현타가 와가지고 대충 살자 이렇게 하면은 이게 최적이 아니면 이 앞에 것도 최적이 아니게 되는 거예요.

그러니까 우리가 계획을 세울 때 굉장히 많은 경우에 문제가 뭐냐면 내 뒤에다가 나 앞으로 열심히 할 거야

이렇게 해놓고 그런 경험 많이 있잖아요.

내가 이때 창업이 아니라 운동 같은 걸 한다.

내가 좀 달리기를 해야겠다 그러면 일단 신발부터 비싼 거 사고 운동복도 비싼 거 사고.

근데 그걸 나중에 열심히 안 하면 다 소용없는 거잖아요.

그걸 열심히 한다는 전제하에 의미가 있는 건데 그러면 내가 뒤에 달리기 열심히 안 하고 먼지만 뒤집어 쓰면 이때 신발을 산 거 다 쓸데없는 짓이죠.

그래서 앞에가 최적이려면 그 다음에도 최적으로 행동을 해야 된다.

이런 얘기가 됩니다.

퀴즈