기본 용어
우리가 이번 시간에는 어떤 강화학습의 기본 용어들 강화학습이 뭔가 용어가 되게 많거든요.
아리까리한 용어들이 많은데 용어들을 좀 알아보도록 하겠습니다.
그래서 이거는 우리 앞으로 5일동안 계속 반복될 용어들이어서 이 용어들에 좀 익숙해 주셔야 됩니다.
지금 막 외우실 필요는 없지만 계속 제가 반복을 해 드릴 겁니다.
그래도 좀 알아주셔야 된다.
행위자와 환경
일단 강화학습에서 제일 중요한 용어는 행위자랑 환경이라고 할 수 있습니다.
그래서 행위자는 뭔가 결정을 내리고 답을 찾고 이렇게 하는 주체라고 할 수 있고요.
그 다음에 행위자에 반응하는 것이 환경이 됩니다.
우리가 보통 강화학습을 한다고 하면 행위자 쪽에 어떤 알고리즘을 만드는 건데 제가 이제 여러 번 얘기 드리지만 실제로 실부적으로 강화학습을 할 때 막히는 부분은 환경적인 게 더 큽니다.
우리가 환경을 시뮬레이션 한다든지 이런 부분이 사실 더 어려운 부분이 되고 행위자는 대부분 그냥 있는 알고리즘을 쓰면 됩니다.
아까 배체즈 GPT 같은 경우도 보시면은 여기 PPO라는 알고리즘을 쓰거든요.
그래서 PPO 같은 건 그냥 알고리즘이 다 구현이 되어 있어요.
건드릴 필요도 없습니다.
그냥 한 두 줄 쓰면 끝나거든요.
문제는 이제 환경 쪽에 해결이 안 돼요.
대부분.
그래서 그거가 더 어렵다.
그거를 좀 염두해 두시면 될 것 같고요.
행위자와 환경의 예시를 보면 우리가 주식 투자를 한다.
그러면 투자자가 행위자가 되겠죠.
환경은 주식 시장도 환경이 될 거고 다른 투자자도 환경이 될 수 있고 정치 경제적인 조건 이런 것도 환경이 될 수 있고 그러면 행위자가 여러 가지 행동을 하죠.
매수도 하고 매도도 하고 보유도 하고 아니면 작전도 하고 허소문도 시장에 허소문도 팍 드리고 온갖 부정 행위도 전제 되고 여러 가지를 할 수 있겠죠.
그럼 그거에 환경이 반응을 해서 투자자에게 다시 어떤 보상을 준다든지 처벌을 한다든지 이런 식의 결과로 돌아오게 됩니다.
운전을 한다.
그러면 행위자 하면 운전자가 될 거고 환경은 도로라든가 날씨라든가 다른 운전자라든가 교통상황이라든가 이런 것들이 행위자를 둘러싼 환경이 됩니다.
그리고 운전자가 할 수 있는 것은 전진 후진 좌회전 우회전 유턴 가속 감속 이런 것들을 선택해서 하면 이런 것들이 다 보상으로 돌아오겠죠.
또는 처벌으로 돌아오겠죠.
비가 내리는데 가속을 한다.
그러면 미끄러질 수도 있고요.
아니면 너무 천천히 간다.
그러면 다른 운전자가 빵빵거릴 수도 있겠죠.
그런 속에서 어떻게 운전자가 잘 할 거냐
이런 문제가 됩니다.
행위자의 구조
그래서 행위자는 어떤 환경하고 상호작용을 하면서 환경에 대한 데이터를 수집을 하고요.
그래서 이 단계가 있고 그 다음에 이 데이터를 수집을 해서 현재 하고 있는 행동을 평가합니다.
지금 하는 행동이 별로 좋지 않다 그러면 뭔가 개선을 해야겠죠.
만약에 지금 하는 행동이 좋다 그러면 계속 그렇게 해야겠죠.
그래서 이 루프를 계속 돌려냅니다.
상호작용, 평가, 개선.
그래서 개선하는 걸로 또 상호작용하고 평가하고 개선하고 우리가 살면서 늘 하는 일이에요.
살면서 여러분들 이제 세 개와, 여러분 둘러싼 세 개와 계속 상호작용을 하고 계시잖아요.
그 다음에 생각을 하는 거죠.
보통 우리가 바쁘게 살다 보면은 사실 이거를 잘 안 하게 되죠.
평가를 잘 안 하게 되죠.
내가 지금 잘 살고 있는 게 맞나 이렇게 사는 게 맞을까
생각을 안 하는데 이거를 하고 이번주는 내가 좀 더 나은 사람이 되려면 이렇게 살아야겠다.
먹는 거를 요즘에 탄수화물 너무 많이 먹는 거다.
탄수화물 좀 줄여야지.
행위자 학습의 특성
이런 거를 계속 평가하고 개선하고 이렇게 하셔야 되는 거고 근데 이제 행위자가 가지는 학습에 중요한 특성들이 있습니다.
세 가지로 정의를 해보면 이게 이제 강화학습에서 되게 큰 문제가 되는데 일단 기본적으로 시행착오를 통해서 학습을 한다는 거에요.
지도학 습이나 비지도학습과 다른 부분은 데이터가 미리 주어져 있지 않다는 겁니다.
여러분 인생을 뭐 열 번, 스무 번, 재벌집 막내야 될 이런 드라마처럼 다시 살 수 있으면 모르겠지만 우리가 인생을 한 번밖에 안 산단 말이에요.
그러면 데이터가 있는 상태에서 사는 게 아니라 내가 사는 것이 내 데이터가 되는 거죠.
예를 들어서 여러분이 지금 대부분 조선업에 계시니까 예를 들어서 내가 건설허보로 갔으면 어떻게 될까?
이건 안 살아보니까 모르죠.
그죠?
내가 그때 저기 토목과를 갔어야 되는데 왜 조선과를 갔지?
이렇게 생각하실 수도 있지만 또 토목과 간 사람은 아 내가 그때 조선을 했을 텐데 왜 건축을 했지?
토목을 했지?
이럴 수도 있고 그러니까 우리가 안 살아본 쪽은 알 수가 없어요.
그게 강화학습에서 굉장히 큰 문제 중에 하나입니다.
지도학습은 이런저런 상황이 있고 그때마다의 어떤 결과에 대한 답이 데이터로 있기 때문에 그냥 그걸 보면 되는데 강화학습은 내가 해보지 않으면 알 수 없다 라는 게 큰 문제 중에 하나입니다.
그러니까 일일이 다 해봐야 되는 거죠.
그 다음에 데이터가 있다 쳐도 이 세 가지의 어떤 특성을 가지고 있는데 첫 번째는 순차적이라고 하는데 말이 좀 어려운데요.
무슨 얘기냐면 자료가 주어지긴 주어지는데 한방에 주어지지 않는다는 얘기, 순서대로 들어온다는.
내가 무슨 행동을 하면 그 결과가 당장의 결과는 지금 오는데 여러분들이 예를 들면 예를 들면 지금 담배 피우시는 분들 있죠.
쉬는 시간에 흡연하고 오시고 당장은 괜찮습니다.
여러분 담배 피운다고 당장 해볼 게 있나요?
기분도 좋고 스트레스 도 풀리고 다 좋은데 이게 10년, 20년, 30년 후에 돌아온단 말이에요.
순서대로입니다.
문제는 그래서 우리가 담배를 왜 피우냐
지금 좋으니까 피우는 거죠.
근데 이제 나중에 돌아오는 거죠.
아니면 지금 운동을 안 하면 어떻습니까?
아 편하고 좋죠.
밥 먹고 소파에 누워 먹고 텔레비전 보면 세상 그렇게 좋은 게 없습니다.
치킨 밤에 시켜가지고 맥주 한잔 하면서 먹으면 좋죠.
근데 지금은 좋은데 나중에 병원에서 당이 높으시네요.
제가 작년에 건강검진을 했는데 건강검진 결과를 보고 의사 선생님이 가족 중에 혹시 당뇨 있으시냐고 그러는데 없는데요
이랬더니 족보에서 처음으로 당뇨병 환자 되고 싶지 않으시면 살 빼세요.
그래서 아 멘트 재밌는데 이 선생님은 이 멘트 하나 가지고 만약에 가족 중에 당뇨 있다고 아 가족력도 있는데 조심하라고 그러고 당뇨 없으면 족보에서 처음 올라오고 싶지 않으면 조심하라고 그러고 야 이거 완벽한 멘트 아니야.
약간 그 살 빼라는 얘기는 안 듣고 아 멘트도 어때
약간 이 생각만 했는데 어쨌든 문제가 뭐냐면 우리가 당장 좋은 거 가 있고 멀리 가서 나중에 안 좋은 게 있는데 이게 이게 문제란 거예요.
당장은 보상이 플러스로 오는데 나중에 마이너스로 오잖아요.
우리가 강압습의 문제는 이걸 다 더했을 때가 좋아야 된단 말이에요.
근데 우리가 인생도 강압습인데 어려운 점이 나이 들고 나서 후회하면 이미 늦었단 말이에요.
아 그때 이렇게 할 거.
그래서 이런 부분이 어렵다.
이런 거고 그다음에 평가적 이거는 뭐냐면 정답이 없다는 거예요.
정답이 없고 좋은 행동인지는 알 수 있어요.
그러니까 보상이 플러스로 들어오면 하여간 좋기는 좋죠.
근데 오른 행동인지 알 수 없다는 건 뭐냐면 좋은 행동이 있고 더 좋은 행동이 있고 아주 좋은 행동이 있고 최고로 좋은 행동이 있으면 이거인지는 알 수 없다는 거죠.
그럼 지금 내가 사는 게 예를 들면 나라는 사람이 이 세상에 와가지고 사는 수많은 방식들 중에 이게 최선이었나.
여러분들 가끔 이제 잘 나고 누웠다가 마음이 심쑥생쑥하면 이런 생각이 들 때 이게 최선인가.
내가 100번을 다시 살아라도 이렇게 살겠다.
그거 확신할 수 있습니까?
확신하면 힘들죠.
맨날 후회를 하면 이렇게 해야 되나.
저렇게 했어요.
제가 어제 올 때 부산에서 2천 번 타고 왔거든요.
아 후회가 되는 거예요.
이렇게 뱅글뱅글 돌아가고 멀리 미국에 시어버스 타고 올 걸 막 후회를 했는데 근데 시어버스 타보면 그냥 차 끌고 올 걸 그랬나.
또 이럴 수도 있겠죠.
그래서 우리가 어떤 걸 했을 때 어쨌든 제가 여기 무사히 왔으니까 플러스긴 한데 이게 최선이었나.
이런 거는 알 수가 없습니다.
아까 알파고 같은 경우에 바둑도 이기면 잔뜩이긴 한데 최선으로 이기는 게 있고 그냥 이기는 게 있죠.
제일 좋게 이겼나.
이걸 알 수가 없습니다.
이겼다는 건 안 돼요.
이겼으니까 일단 되긴 됐는데 이게 최선이었을까?
사실은 알 수 없죠.
지도학습은 정답을 주니까 정답을 알 수 있지만 강화학습에는 정답을 알려주지 않습니다.
이게 또 문제예요.
그 다음에 표건 추출된 이거는 아까도 했던 얘기긴 한데 우리가 어떤 특정한 결과를 해볼 수 있는데 다 해볼 수는 없다는 거예요.
일부 밖에 못 해봅니다.
우리가 인생을 살면서 이것도 해볼 수 있고 저것도 해볼 수 있지만 다 해볼 수는 없어요.
이 회사도 다녀보고 저 회사도 다녀볼 수 있지만 전 세계에 있는 모든 조선업체를 다 다녀보겠다.
이런 건 안 됩니다.
내가 해볼 수 있는 거는 항상 한정된 어떤 샘플을만 해보는 거죠.
그래서 이런 것들이 강화학습을 굉장히 어렵게 만드는 요인이 됩니다.
사실 강화학습만 어려운 게 아니라 우리 인생 자체가 이래서 어려운 거죠.
우리 인생도 결국엔 강화학습이기 때문에 그래서 항상 어렵다.
Credit Assignment Problem
그래서 강화학습에 크레딧, 어사먼트, 프로블랙 이런 게 있는데 우리말로 번역하면 크레딧은 공적, 업적 이런 거예요.
그래서 어사먼트는 할당 문제 이렇게 되는데 앞에 시간적 줄여서 부를 때는 그냥 CAP이라고 합니다.
뭐냐 하면 내가 어떤 행동, 결과가 나오는 건 내가 어떤 행동을, 결과가 나오는데 이 결과가 나올 때까지 내가 굉장히 여러 가지 행동을 해요.
예를 들면 여러분들이 지금 회사를 다니시면서 굉장히 만족하면서 다니고 있다.
그러면 나의 현재에 어떤 행동이 가장 큰 기여를 했는가라고 하면 이게 굉장히 어려운 문제가 됩니다.
예를 들면 제가 고등학교 때 공부를 열심히 한 게 좋았나 대학교 때 열심히 한 게 좋았나 아니면 취적 준비를 할 때 열심히 한 게 좋았나 회사를 들어와서 내가 열심히 한 게 지금의 나를 만드는 데 기여를 했나 여러 가지가 있었는데 그중에 뭐가 컸나?
예를 들면 고등학교 때 공부 안 했어도 결국에는 회사 들어왔을 것 같은데?
이런 생각도 할 수도 있고 대학교 때 그 과목을 굉장히 열심히 공부했는데 그거 안 하고 다른 데서 학점만 잘 채웠어도 회사 들어오면 문제 없었을 것 같은데?
여러 가지 행동들인데 그중에 뭐가 되게 컸고 뭐가 되게 잘한 나를 평가하는 것이 굉장히 어려운 문제가 됩니다.
우리가 사후적으로는 이게 컸다
저희 컸다 할 수 있는데 정말로 그게 컸다고 할 수 있냐?
우리가 생각으로 그렇게 얘기하는 거랑 실제로 그렇게 실제로 그게 효과가 있는 게 굉장히 달라요.
그래서 심리학에 그런 게 있거든요.
사람들이 습관이 강하면 자기가 어떤 행동을 하면 보통 그 전에 의도가 있었다고 생각을 하거든요.
근데 보통 이게 실제로 의도가 있었다기보다는 약간 이게 추측입니다.
내가 이런 의도를 가지고 있다고 본인도 추측을 하는 거예요.
자기도 잘 몰라요.
여러분이 영화 이런 데 보면 어떤 사람이 의도를 가지면 그래.
점심을 맛있게 먹어야겠어.
맛있게 먹어야지 하면서 이렇게 먹지만 여러분 그렇게 말하면서 생각하시는 분 계신가요?
음식 먹을 때 맛있게 먹어야지
이러면서 속으로 맛있게 먹어야지 그렇게 말하면서 먹지 않다며 그냥 먹단 말이에요.
어떻게 생각하냐면 너 그거 왜 이렇게 맛있게 먹어요?
맛있게 먹으려고 생각했으라고 하지만 그건 약간 사후적인 경우가 많거든요.
심리학 연구해보면 습관이 보통 강할수록 어떤 현상이 생기냐면 사람들 물어보면 아 이거 다 의도적이었다 라고 얘기하는 경우가 많습니다.
근데 보 통 습관이라는 거는 의도적이지가 않거든요.
약간 역설적인 건데 맨날 아침마다 운동하는 습관이 이 사람이 있어요.
그럼 이 사람 매일 아침 운동을 하는데 그냥 아무 생각 없이 합니다.
의도가 없죠.
근데 너 왜 운동해?
그러면 건강해지려고 이렇게 얘기하는데 지어내는 소리라니.
그냥 이 사람 아무 생각이 없어요.
근데 본인 생각하기에는 오히려 자기 의도가 되게 강하게 느껴진다.
왜냐하면 자기는 맨날 운동하니까 누가 물어보면 내가 왜 운동하지?
생각해보면 이유가 없거든요.
내가 건강해지려고 운동하는 것 같아.
그래서 중독자들이 제일 습관이 강한 사람들이잖아요.
중독자들은 술 먹는 알콜 중독이다.
그럼 술 먹는 습관이 엄청 강한 거죠.
그래서 이 사람들한테 왜 술을 드십니까?
라고 하면 이유가 다 있어요.
이유 없는 사람이 없습니다.
아 저 그냥 중독이라서 먹어요?
이런 사람 아무도 없어요.
다 아 제가 뭐 마음의 괴로운 점이 있었으면 다 거짓말이 갈거죠.
의도적 거짓말은 아닌데 그냥 자기 생각에는 그렇다는 건데 사실이 아니라는 겁니다.
문제가 뭐냐면 우리가 어떻게 결과가 있을 때 그만큼 원인을 추정하기가 굉장히 어렵다.
심지어 본인 행동조차도 본인조차도 잘 모르겠다.
내가 왜 이러는지 나도 몰라.
이런거에요.
그래서 이 CLP 공적 할당 문제가 왜 어렵냐 하면 앞에서 얘기 드리는 문제들이랑 관련이 있는데 일단 시간적으로 지연이 있습니다.
내가 어떤 행동을 하고 그 보상을 받는 데 사이에 시간 지연이 있어요.
내가 회사에 굉장히 만족하면 다니고 있어요.
근데 이 보상은 이제 와서 받은 거잖아요.
내가 중학교 고등학교 대학교 추적 준비할 때 그때부터 굉장히 멀리 떨어져 있단 말이에요.
그러면 그 예를 들면 내가 고등학교 때 이과 갈까 저과 갈까 하다가 아 조선 쪽으로 전공을 선택을 하자 라는 선택을 한 건 고등학교 3학년 때인데 이때 이미 기억은 가물가물 하실 겁니다.
내가 왜 조선고 갈까
같지?
기억이 잘 안 되실 거에요.
뭐였더라?
왜 이렇지?
기억이 안 나는데 하여간 너무 시간이 멀리 떨어져 있어요.
그러면은 이런게 우리 인생에서 계속 문제가 되는데 예를 들면 자녀나 조카나 누가 전공 선택을 할 때 조언을 해주고 싶은데 기억이 안 나요.
나는 왜 그걸 선택했더라?
결과적으로 보면 잘 되긴 했는데 뭐가 좋지?
그때 무슨 이유로 이렇게 선택을 했지라고 생각하면 생각이 잘 안 납니다.
그래서 이 시간 간격이 있다는 것이 일단 굉장히 학습을 어렵게 하고 또 다른 문제는 동일한 보상에 도달을 하더라도 여러 행동 경로가 있단 말이에요.
예를 들면 예를 들면 여러분이 대학교 가실 때 전공을 조선고학과를 가서 여기 오신 분들이 많은 거잖아요
아마도?
그러면은 그때 이렇게 해서 왔는데 옆에 있는 동기를 보니까 얘는 조선고학과 아니라고 예를 들면 기계고학과 아닌데 결국엔 나랑 똑같은 회사 왔더라
그런 경우가 있을 수 있잖아요.
그러면 내가 이때 이때는 내가 생각할 때 이 전공을 선택을 했기 때문이라고 생각할 수 있는데 달리 보면은 다른 전공을 선택했어도 결국 이 회사 왔을 수도 있단 말이에요
결과와는 똑같을 수 있다
그래서 이게 이제 그러면 얘가 공헌한 게 얘의 공격이 얼마나 됐냐고 했을 때 그게 판단한 게 되게 애매한단 말이에요.
만약에 다른 전공을 선택했어도 결국 이 회사 왔을 거고.
심지어 다른 학교 갔어도 이 회사 왔을 거고.
나는 어떻게 살았어도 이 회사 왔을 거다 그러면 내 인생의 앞부분에 있었던 일은 사실 별로 의미 없는 거죠.
왜냐하면 어떻게 해도 결국에는 결과가 똑같을 거니까 그래서 그런 부분이 있다
그리고 이제 문제가 뭐냐면 상호작용이 굉장히 복잡하다
이건데.
행동들이 서로 얽혀있어요.
예를 들면은 여러분이 조선을 전공을 하..
조선공학을 전공을 하셨는데 갑자기 대학교 때 아 나는 음악이 좋아 이래가지고 갑자기 락밴드를 했어요
그래가지고 뮤지션이 돼가지고 음악을 했어요
그러면은 여러분이 전공을 선택하셨던 거는 사실 별로 의미가 없는 거죠
그냥 음악 하시는 거 공대 나온 뮤지션이 되는 거죠
공대 나온 뮤지션이 되는 거죠
그러니까 이 행동들이 어떤 뒤에 영향을 미치려면 행동들이 딱딱딱딱 아다리가 맞아야 됩니다.
그러니까 우리가 습관 같은 거를 교정하기 굉장히 어려운 게 뭐냐면 보통은 습관은 하나만 있는 게 아니라 습관들이 다 얽혀있어요
예를 들어서 늦게 일어나는 습관이 있다 늦게 일어나는 습관이 있는 분들은 대충 늦게 잡니다 늦게 자고 늦게 일어나요
그럼 이게 서로 얽혀있기 때문에 늦게 자는데 아침에 일어나는 것만 아 나 미라클모닝 해야지 하고 일찍 일어나요
그러면 어떻게 됩니까?
엄청 피곤하죠
하루 종일 피곤해요.
그러면 아 이건 미라클모닝이 아닌가 그러니까 일찍 자고 일찍 일어나는 사람이야
미라클모닝 이런 게 의미가 있지 늦게 자는 사람한테는 미라클모닝 하면 오히려 손해란 거야.
습관들이 다 얽혀있습니다
그러니까 이거 하나를 바꾼다고 해서 뭐가 더 잘 되는 거는 아니라는 거죠
그래서 2020년에 노벨 경제학상 받으신 분들이 빈곤 연구로 노벨상을 받았는데 왜 이게 노벨상을 거리냐면 가만히 생각해보면 경제학적으로 말이 안 된다 사람들이 가난하다는 거예요.
왜냐하면 보통 경제학자들은 사람들이 다 이기적이고 자기 이익을 추구한다고 생각을 합니다
그러면 돈을 많이 벌어서 다 부자가 돼야 정상인데 왜 이 사람들은 가난하냐
이거예요
말이 안 된다
이거죠
그래서 가난한 사람들을 연구를 해보니까 아 이게 이 사람들은 나름대로 합리적이구나
이게 합리적 행동의 결과다
이런 연구를 해요
그래서 우리나라에도 이 사람들을 쓰는 책이 있는데 제목이 가난한 사람들이 더 합리적이다
이런 제목이거든요
제목을 보면 되게 이상하잖아요
영어 제목은 간단하게 프로 이크노믹스인데 우리나라 제목을 참 잘 지었어요 가난한 사람들이 더 합리적이다
이거거든요
부자들이 합리적인 게 아니고 가난한 사람들이 합리적이에요
근데 왜 이 사람이 가난하냐
이거예요
왜냐하면 이 사람들이 주어진 조건 환경 내에서 가장 합리적인 선택만 하면 그냥 가난하게 되어 있습니다
예를 들면 어떤 경우가 있냐면 가족 중에 도박 중독인 사람 있어요
가족이 도박을 해요
내가 돈을 벌어다 주면 이 사람은 도박으로 탕진합니다
그러면 나의 합리적인 행동은 돈을 벌어다가 열심히 가족한테 주는 게 아니죠
그럼 어떻게 해야 합 니까
나도 요로 이러면서 탕진을 하는 게 합리적이에요
왜냐하면 내가 쓰기라도 하잖아요
내가 열심히 벌었는데 가족이 탕진하니 내가 탕진하는 게 더 합리적이란 말이에요
그러면 가족 입장에서 어떻습니까
가족 입장에서 돈 벌어와봤자 얘가 요로 하고 탕진하는데 나도 열심히 벌어올 필요가 있어요
나도 도박이나 하면서 재밌게 살면 되는 거잖아요
모두가 그러고 있는 거예요
그러면 이 상황에서는 아무도 빠져나올 수가 없습니다
여기서 누가 학교 가서 공부를 열심히 해서 좋은 회사 갈래요 라고 하는 게 되게 비합리적인 선택이 돼요
그래서 제3세계 가난한 나라들이 많은데 제3세계 가난한 나라들이 빈곤에서 헤어나오지 못한 게 그 사람들이 어리석고 게으르고 이래서가 아니라 모두가 합리적인 선택을 합니다
예를 들면은 굉장히 똑똑한 애가 있어요
똑똑한 애가 있는데 얘가 학교를 가서 공학이나 돈 잘되는 학문을 공부해서 좋은 회사에 출연을 해서 돈 잘되는 학문을 공부해서 좋은 회사에 취직해서 돈을 많이 벌으려면 10년 20년이 걸린단 말이에요
지금 공부 안하고 시장 가서 돈을 벌으면 가족들의 생계를 유지할 수 있어요
그럼 얘 합리적 선택이 뭐냐
이거죠
시장 가서 돈 버는 게 합리적인 선택인거죠
그러면 모두가 그러고 있어요
동네의 모든 똑똑한 꼬마애들이 학교를 안 가고 다 시장 가서 장사하고 어디 가서 일하고 있어요
그럼 누가 자본이 있어서 회사를 차리려고 하는데 그 사람이 생각을 하는 거예요
내가 회사를 차려봐서 봤자 좋은 인재가 없죠
공부를 안 하니까 애들이 더 샘플생도 못해요 책도 못 읽어 요
그러면 얘네 뽑아봤자 일을 못 시키죠
그러면 내가 우리나라에 투자하는 것보다 선진국에다가 어디다가 투자하는 게 낫겠다
우리나라도 약간 좀 그렇잖아요
국장에 빠져나오는 게 다 미국에다 투자하는 거잖아요
그럼 그게 뭡니까
한국 자본이 미국으로 가면 한국에 투자가 안되는 거죠
우리나라는 계속 우리나라 안에 투자가 되는데 지난세계 국가들은 돈 있는 사람이 자기 나라에 투자를 안 해요
그러면 다 자본이 빠져나가죠
그러면 학교 나가면 좋은 일자리가 없으니까 학교 나와봤자 취직할 데가 없거든요
그럼 빨리 시장에 나가서 일이나 하자 모두가 합리적인 선택을 하고 있는데 결과적으로 이 나라는 빈곤에서 빠져나오지 못합니다
뭔가 누군가가 비합리적인 선택을 해줘야 돼요
그래서 다 똑똑하기 때문에 다 합리적이어서 빈곤에서 못 빠져나오는 그런 상황이 있습니다
이런 것들이 개인 내에서도 마찬가지인데 개인 내에서도 내가 모든 순간에 합리적인 선택을 하면 계속 어떤 상황에서 빈곤에서 못 빠져나오는데 왜냐하면 이런 상호작용이 있기 때문에 그래서 이런 것을 CIP 문제가 어렵게 만드는 거고 우리가 AI에서도 이런 문제가 다 똑같이 작용을 합니다
실제로 강화학습을 시켜보면 굉장히 얘가 이상한 짓을 하고 있는데 거기서 빠져나오지를 못해요
예를 들면 우리가 로봇 같은 것을 강화학습을 시키면 예를 들면 우리는 내 발로 내 발 달린 말 모양의 로봇을 걸어가게 그래서 시간당 많이 이동하면 보상을 주거든요
그러면 학습을 시키다가 잘못 학습이 되면 얘가 내 발로 뛰어가는 게 아니라 그냥 굴러갑니다
엄청 빨리 굴러가거든요
근데 얘가 한번 굴러가기 시작하면 절대 내 발로 걸지를 못해요
왜냐하면 내 발로 걸으려면 내 발이 다다닥 박자가 맞아야 되는데 일단 구르고 있는 상황에서 왼발 하나 잘 해봐야 소용이 없다며 오히려 거기서 왼발 움직여봤자 굴러가는데 방행관들이 있다
그래서 굴러가는 것을 멈추지를 못해요
계속 굴러만 갑니다
이런 상황이 돼요
그래서 이런 문제들이 공적할당 문제를 어렵게 한다 회사 같은 데서 팀으로 일하면 똑같은 문제가 생기죠
누가 잘했냐 공적을 할당하려면 똑같은 문제가 생기죠
왜냐면 프로젝트 초창기에 제가 그걸 잘해서 그렇잖아요
그런데 시간이 많이 지났죠
네가 초반에 세팅 잘 안했어도 나중에 누군가가 했겠지 경로가 다양하죠
내가 일 잘했어도 같이 일하는 사람이 받아서 하는 걸 잘못하면 예를 들면 내가 설계를 잘했는데 공정에서 누가 잘못하면 설계 잘하는 게 아무 소용이 없잖아요
이런 것들이 서로 다 얽혀있으니까 회사에서도 공적할당 문제들이 네가 잘했는데 내가 잘했네
우리 팀이 벌어온 돈이 얼마인데 왜 너네 팀이 성과는 다 먹냐 싸움이 나는 게 항상 이런 문제때문에 해결이 되죠
환경의 구조
그 다음에 우리를 둘러싼 환경이 있는데요
환경은 보통 행위자를 둘러싼 모든 것이 다 환경입니다
행위자 제외하면 다 환경이고 그래서 우리가 보통 강화학습으로 다룰 때는 어떤 변수들의 집합 구체적인 사물이라기보다는 이 문제의 변수 집합을 다 환경이라고 보통합니다
그리고 이 변수들마다 어떤 값들이 있는데 그걸 다 조합한 것을 상태공간이라고 불러요
변수가 많아지면은 상태공간이 커지겠죠
변수 하나에서 변수가 가질 수 있는 값의 범위가 넓어져도 상태공간이 커지게 됩니다
아까 아주 좋은 질문 해주셨는데 결국에는 상태공간이 커지면 그만큼 상태공간을 더 많이 지저봐야 되니까 강화학습이 어려워지는 것 같습니다
그런데 이 상태공간 중에서 우리가 전부 알 수 있는 것은 아니에요
우리는 그 중에 일부만 관찰을 할 수 있습니다
예를 들면 결혼을 하셨거나 연애를 하셨거나 상대방이 있잖아요
상대방이 모든 것을 다 할 수 없죠
우리는 굉장히 한정된 부분만 관찰할 수 있잖아요
그 사람의 일부만 관찰할 수 있으니까 항상 인터넷이나 예능 같은 곳을 보면 상대방이 이렇게 이렇게 하는데 이거 그림라이트인가요?
이런 걸 올리는 게 뭡니까
우리가 한정된 관찰을 가지고 상태만 관찰할 수 있으니까 그래요
이 사람은 모든 게 안 보입니까
그래서 우리가 관찰할 수 있는 것만을 가지고 가면 관찰공간이라고 합니다
그래서 우리가 상태공간이 이렇게 있으면 이게 상태공간이에요
우리는 이 중에서 일부만 볼 수 있는 거죠
이거를 관찰공간이라고 합니다
우리 눈에 보이는 부분 그 다음에 우리가 여기서 뭔가 할 수 있는 행동들이 있죠
그래서 그거를 다 합친 것은 행동공간이라고 해요
그래서 여기서 이름은 공간이라고 하는데 그냥 집합 정도라고 생각하시면 됩니다 물리적인 공간을 뜻하는 건 아니에요
그래서 우리가 환경은 좀 더 복잡한데 일단 행위자가 뭔가 우리 환경에 대해서 관찰을 하겠죠
행위자가 뭔가 관찰을 하고 그 다음에 행위자가 행동을 선택을 합니다
나는 이런 행동을 하겠어 라고 하면 고개 환경에 영향을 미쳐서 환경이 어떤 상태에 있다가 전의를 합니다 전의를 한다는 것은 상태가 변한다는 것 환경이 뭔가 변화를 주는 것 나의 행동의 결과로 환경이 변화를 하고 환경이 변화를 하면서 어떤 보상이 나에게 전달이 돼요
그리고 상태가 변하는데 그게 다 나에게 전달되는 건 아니고 일부만 관찰되는 거죠
이런 식으로 변하게 됩니다
그래서 우리가 여기서 알아야 될 게 두 가지가 있는 거죠
어떻게 전의하는가 상태가 나의 행동의 결과로 어떻게 변하는가 그 다음에 나에게 어떤 보상이 주어지는가
근데 둘 다 좀 어렵습니다
일단 전의 측면에서 예를 들면 배우자나 아내나 여자친구나 남자친구나 이렇게 기타들 있는데 상대방이 있는데 내가 어떤 행동을 했는데 상대방의 상태가 바뀌겠죠
그게 보통 눈에 안보이잖아요
내가 이렇게 하면 좋아하나 싫어?
알 수가 없어 이런 경우가 많잖아요
나의 행동의 결과가 어떤 영향을 미치고 있는지 잘 안보이고 그 다음에 보상이 바로바로 오는 게 아니라 내가 잘해줬더니 내가 갑자기 나한테 잘해준다
이거 뭐야?
저번에 해주고 고마웠어
이런 소리 한단 말이에요
빨리 보상해줘야지
이런 것들이 우리가 환경이 이런 구조를 가지고 있다 가정을 하고 강화학습을 하게 됩니다
전이함수
그래 서 우리가 환경이 어떤 상태의 변화를 겪는데 그거를 전의라고 하고 수학적으로든 프로그램으로든 수학적으로든 전이함수라고 해요
전이함수는 두 종류가 있는데 결정론적 전이함수가 있고 확률론적 전이함수가 있습니다
결정론적 전이함수는 이 상황에서 내가 이렇게 하면 무조건 어떤 상태로 간다
이런게 결정론적 전이함수에요 대표적인 얘기가 바둑 같은게 있겠죠
바둑은 내가 여기다 두면 여기다 둬지는거지
내가 여기다 둬는데 갑자기 돌이 튀어서 여기다 둬진다든가 이런건 없습니다
확률론적 전이함수가 일정해요 확률론적 전이함수는 내가 똑같은 상황에 똑같은 행동을 한다고 해서 결과가 똑같지 않습니다
내가 이렇게 행동을 했는데 어떨 때에는 이쪽으로 가고 어떨 때에는 저쪽으로 가고 이런거에요
확률론적 전이함수가 결정론적 전이함수보다 더 크죠
왜냐하면 확률론적인데 100% 확률론적이면 결정론적인거랑 똑같기 때문에 결정론적 전이함수는 확률론적 전이함수의 확률이 100%인 확률론적 전이함수로 볼 수도 있다 어떻게 생각하면 되냐면 확률론적 전이함수만 열심히 공부하시면 결정론적 전이함수는 공부를 안하셔도 됩니다 라고 할 수 있겠죠
어느 쪽이 더 쉽겠어요 결정론적 전이함수가 항상 더 쉽습니다
결과가 확실하니까
마코프 특성
마코프 특성이라는 용어가 있는데요
마코프는 사람 이름입니다
마코프 특성은 뭐냐면 우리가 전이함수라는게 복잡할 거잖아요
안그래도 복잡하기 때문에 약간 가정을 해서 불필요한 부분을 쳐냅니다
뭘 쳐냈냐면 이전 상태의 독립이라는 가정을 해요
무슨 말이냐면 내가 지금 S5번 상태에 있는데 내가 어떤 걸 행동을 해서 S6번 상태로 넘어갔어요
그러면 그 전에 S4가 있었을 거 아니에요
이거는 영향을 안 미친다
그래서 끝 그래서 메모리 리스라고 했는데 이거는 없다
예를 들면 우리 회사로 치면 우리 회사가 올해 2024년도에 뭔가 어떤 전략적 결정을 하면 그게 2025년에 영향을 미쳐요
근데 2026년에는 안 미친다
이런 얘기입니다
굉장히 강한 과정이죠
그래서 이번에는 다 2025년에 월 어떻게 되느냐에 따라 달라지는 거지 2024년은 5년에 영향을 미치고 끝 현실에서는 당연히 말도 안되죠
올해의 어떤 전략적 결정은 내년에도 미치고 10년 후에도 영향을 미칩니다
그렇지만은 단순성을 위해서 그렇게 가정을 합니다
현실이랑 안 맞잖아요
그래서 이걸 약간 어떻게 하냐면 올해 전략이 물론 2026, 7, 8, 9년에도 영향을 미치는데 그건 2025년 전략에 어느 정도 반영이 되어있다고 치는 거에요
2024년 전략인데 2025년 전략도 4년 전략이 일부 반영이 되어있다
이렇게 보는 식으로 해서 그래서 그냥 2025년 전략이 다 한거야
이런 식으로 단순화를 위해서 가정을 합니다
그래서 우리가 강화학습 문제를 이런 의미에서 마코프 결정 과정이라고 부르구요
마코프 과정 하에서 우리가 결정하는 문제 그리고 사실 우리가 모든 것을 다 관찰할 수 없잖아요
어떤 상태 중에 일부만 관찰하기 때문에 파셜리 옵션 업을 부분적으로만 관찰 가능한 마코프 결정 문제 이렇게 해서 POMDP라고 하고 보통 흔히 강화학습이라고 하면 POMDP를 어떻게 푸느냐
전부 다 보이지 않고 그런 상황에서 단순화 시킨 과정 하에서 최적 선택을 하는 문제로 보통 강화학습을 보게 됩니다
만약에 어거지를 어떻게든 해가지고 단순성을 위해서 가정을 하면 마코프 특성을 지킬 수 있는데 만약에 죽어도 이게 안된다 죽어도 이렇게 가정을 못하겠다
이러면은 강화학습 문제로 푸는게 적합하지 않겠죠
상당 부분은 어거지를 어떻게 가정하면 이렇게 됩니다
물리적인 문제 같은 경우는 현재 속도, 위치 속도, 가속도 이런거를 알면 이전에 어느 위치에 있었는지는 별로 중요하지는 않거든요
지금 속도가 얼마고 가속도가 얼마고 지금 위치가 어디냐가 다음에 위치를 결정하는거지 그 전에 어디 있었는지는 이미 그런걸 알고 있으면 별로 중요하지 않은거죠
이런 경우는 대부분 POMDP로 어거지를 우겨넣을 수 있습니다
근데 그게 안되는 경우도 가끔 있긴 있어요
대부분은 어느정도는 어거지로 우겨넣으면 우울 수 있다
보상함수
그 다음에 환경이 우리한테 주는 두가지 중에 하나는 전의로 인한 상태의 변화 그리고 관찰로 이루어지는거고 또 하나는 보상이 있고 우리가 결국 이걸 봐하는거는 다 보상을 극대화하려고 하는거에요
그런 얘기 하잖아요
아 이거 다 먹고살자고 하는 짓이지 우리한테 보상이 중요하단 말이에요
그리고 또 하나는 내가 어떻게 행동했을때 어떤 보상이 주어지는가
이것도 중요합니다
그래서 이걸 함 수로 나타나면 보상함수가 되요
보통 강화학습의 또 다른 가정중의 하나는 전의함수랑 보상함수가 있으면 얘네는 불변이다
이거를 가정을 합니다
왜냐면 중간에 갑자기 바뀐다고 하면은 이때까지 학습한게 다 소용없다는 얘기가 되거든요
이때까지는 예를 들면 내가 열심히 일하면 회사에서 보상을 해준다라고 믿고 있었는데
응 그거 아니야
이러면은 내가 이때까지 뭐하러 열심히 살았냐
이런 생각이 들거 아니에요
나는 열심히 일하면 회사가 보상을 해주는 줄 알았어
작년까지는 그랬는데 올해부터는 열심히 한다고 보상을 주지않아
이러면은 이때까지 내가 학습했던 규칙이 다 무효잖아요
그래서 일단은 불변이라고 가정을 합니다
이게 변한다고 가정하면 아무 의미가 없어요
이전에 학습한게 그래서 다시한번 좀 정리하면 전의함수는 상태의 변화를 다루는겁니다
상태라는 말이 좀 어려우시고 상황이라고 생각하시면 되요
상황이 어떻게 변화되냐 보상함수는 그래서 나한테 뭐가 이익이 있냐
손해가 있냐
이 얘기입니다
그래서 이 두가지를 다 우리가 알아야겠죠
예를 들면 주식 투자를 한다 시장 상황이 어떻게 바뀌냐
이런거를 알아야 될거고 그 다음에 시장 상황이 바뀌는게 나한테 이익이냐 손해냐
이런거를 알아야겠죠
두가지가 중요하게 됩니다
그 다음에 이제 우리가 상태를 여러가지로 구별을 하는데 이거는 용어를 기억 안하셔도 되요
그냥 뭐 당연한 얘기인데 보통 이제 시작상태 또는 초기상태라는 말이 있는데 이거는 보통 어떤 시행을 할때 출발점을 얘기합니다
예를 들면 로봇이면은 로봇이 처음에 딱 멈춰있는 초기상태가 있고 거기서부터 시작을 하겠죠
그래서 이건 로봇만은 다른데 딱 무조건 어떤 특정상태에서 시작을 해서 그 다음에 어떤 동작을 이렇게 하는 경우가 있고 아니면은 요 상태에서 할 수도 있고 초기상태가 다양한 로봇이 있어요
그래서 요런게 초기상태가 되고 종료상태는 맨 마지막에 딱 끝나는 마치는 상태가 됩니다
그래서 종료상태 흡수상태 이렇게 부르는데 보통 종료상태에서는 전이항수가 항상 종료상태로 되돌아갑니다
더이상 여기서 변화가 없어야 돼요
그리고 보통은 끝났으면은 더이상 보상은 없는걸로 칩니다
끝났으면 끝이지 거기서 계속 보상이 나오면 좀 이상하죠
에피소드
그 다음에 용어가 많은데 중요한 용어가 에피소드라는 용어예요
하나씩 하면 타임스탭은 한 스탭 한 스탭 매 1초, 하루 이런식의 단위를 말하는거고 그럼 내가 이제 한 스탭씩 이렇게 해가지고 처음부터 끝까지 뭔가
쭉 하면은 요거를 한 에피소드라고 부릅니다
예를 들면 아까 로봇 얘기했는데 로봇이 어떤 부품을 조립하고 다시 원래상태로 돌아오는게 한 에피소드다 로봇이 초기상태에서 부품을 조립하고 다시 제자리로 돌아오는 그게 한 에피소드가 되는거죠
시작에서 끝까지를 한 에피소드라고 하는데 에피소드가 있다면 그렇지 않은 경우도 있어요
그래서 에피소드가 있는 강화학습은 시작에서 끝까지가 있고 에피소드 없이 그냥 계속 이어지는 강화학습도 있습니다.
예를 들면 우리 인생 같은 경우는 뭐 길게보면 태어나서 죽을때까지는 한 에피소드인데 보통은 그냥 우리 인생은 에피소드가 없는걸로 봅니다
그냥 계속 이어지는걸로 봐요
왜냐면은 에피소드 끝났을때 뭐 배우고 말고가 없잖아요
죽었는데 어떻게 하죠
그렇게 살지 말고 이러면 후회해도 늦었죠
우리는 계속 인생은 그냥 이어지는걸로 봅니다
시작하고 끝이 없는것처럼 근데 이제 로봇 같은거는 끝나면 진짜로 끝난거죠
그리고 다시 시작할 수 있잖아요
인생은 다시 시작이 안되니까 쭉 이어지는거로 보통 인생은 에피소드가 없는걸로 봐요 그 다음에 이제 수익 리턴은 보상하고 수익이 있는데 보상이라는거는 내가 한 스텝마다 오는게 보상이다.
한 스텝 보상 한 스텝 또 보상 또 한 스텝 보상 스텝마다 보상이 오고 그러면은 요거를 다 더하면은 그게 수익이 됩니다
영어로는 보상은 리워드라고 하고요 수익은 리턴이라고 해요
말이 좀 어려운데 예를 들면은 은행에 여러분들이 예금을 하시면 매달 이자가 나오잖아요
그거는 보상이고 마지막에 그 예를 들면은 전기예금 부어가지고 1년간 전기예금 부었다 매달 매달 매달 이자 나오는거는 보상이고 마지막에 전기예금 만기가 돼가지고 찾았다
그러면은 그게 수익이 됩니다
리턴이 됩니다.
계획지평
예를 들면은 그래서 보상은 한 에피소드에서 다 더한거 그 다음에 계획 지평이라는 요어가 있는데 이거는 여러분이 계획을 세울 때 어떻게 세우냐
이거에요