강화학습이란 무엇인가?
머신러닝을 여러가지 방식으로 구분할 수 있는데 일단 학습 방식에 따라서 구분을 할 수 있어요.
지도학습, 비지도학습, 강화학습 이렇게 구분하는데 그러면은 이 세가지가 각각 무엇이냐.
그래서 우리가 이제 강화학습이 뭔지를 이해를 하려면 다른 머신러닝이랑 강화학습이 뭐가 다르냐.
이것을 좀 이해를 해봐야겠죠.
지도학습
일단 지도학습부터 알아보도록 하겠습니다.
지도학습은 머신러닝의 가장 대표적인 형태인데 여기서 지도라는 것은 영어로 supervised, 관리, 감독한다
이런 뜻입니다.
사람이 답을 가르쳐주고 그 답을 그대로 약간 외우게 시키는 게 지도학습이에요.
그래서 여기 보시면 라벨이 있는 데이터로 학습을 한다
이렇게 되는데 우리가 이 데이터는 이런 거야, 이거는 이런 거야 라고 이제 라벨을 다 붙여줘요.
그러면 그 붙여준 거를 외우는 겁니다.
그래서 기본적으로 입력하고 출력이 있고 얘네 둘이 어떻게 관계가 있느냐.
그래서 라벨이라는 것은 이 출력을 말해요.
그래서 이런 식으로 학습을 하게 되고 그래서 대부분의 머신러닝이라고 하면 실제로는 지도학습을 말하게 됩니다.
90% 이상이다
이렇게 얘기하는데 90%도 아니고 거의 한 99%라고 해야 되지 않나 이렇게 생각이 되고요.
지도학습도 다시 종류가 나눠지는데 회기분류 이렇게 나누는데 회기라고 하면 뭔가 예측을 하는데 연속적인 거를 예측을 하는 거예요.
예를 들면 우리가 어떤 제품의 물건의 가격을 예측을 한다.
이런 물건이 있는데 이 물건은 얼마 하겠냐?
그러면 가격이라는 거는 연속적인 단위를 쓰는 거죠.
그러면 회기 문제가 되고요.
분류 문제는 어떤 종류를 예측하는 거예요.
이거냐 저거냐.
예를 들면 어떤 부품이 있는데 부품 사진을 찍어서 이거는 분량, 이거는 정상 이렇게 라벨을 붙여서 학습시키면 새로운 부품을 보여줬을 때 이건 뭐야
그러면 그거는 분량입니다.
또는 정상입니다.
몇 개 중에 하나로 판정을 하는 거죠.
그래서 지도학습을 가장 대표적인 머신러닝의 종류고 그래서 예를 들면 이메일 내용을 보여주고 이게 스팸이냐
아니냐.
이거 지도학습이죠.
그다음에 이미지를 보여주고 이게 특정 카테고리가 이것도 지도학습이고 환자 데이터를 보여주면 이 사람의 병에 걸렸냐
안 걸렸냐
이런 것도 지도학습이고 기업 정보를 보여주고 이 회사 잘 나갈 것 같아 안 나갈 것 같아
이것도 지도학습.
주택 정보를 보여주고 이 정도 집이면 어느 정도 가격이 되겠어
이런 것도 지도학습.
그다음에 개인의 금융생활 정보를 보여주고 이 사람 빚 갚을 것 같아
이렇게 하면 이것도 지도학습.
그다음에 우리 회사 같은 데 보면 이제 회사 들어갈 때 자기소개서 쓰죠.
그러면 이 사 람을 뽑으면 자기소개서 쓴 걸로 보아하니 회사에 들어오면 어떤 평가를 받을 것 같아
이런 것도 지도학습입니다.
그래서 지도학습이 되려면 전부 이쪽에 Y에 해당되는 부분에 레이블이 있어야 돼요.
사람이 실제 데이터를 넣어줘야 돼요.
그래야 예측이 됩니다.
그래서 여러분들도 AI로 뭐 한다
이러면은 일단 제가 저 데이터가 있겠나 이 생각을 한번 해보세요.
그래서 그런 생각을 하셔야 되고 그래서 대부분 되게 어려운 것 중에 하나가 우리가 이제 약간 악순환인데 뭔가 AI를 도입을 하려면 데이터가 충분히 쌓여 있어야 됩니다.
근데 보통 우리가 AI를 하고 싶어 하는 부분들은 이때까지 사람들이 하던 일이거든요.
근데 사람이 하던 걸 AI를 시키려면 데이터가 있어야 되는데 사람이 할 때는 보통 데이터가 안 쌓여요.
왜냐하면 내가 눈대중으로 보고 내가 감으로 알고 이런 건데 그게 어떻게 데이터로 쌓여요.
그죠.
그러니까 데이터가 없고 데이터 없으니까 AI 머신너링 도입이 안 되고 머신너링 AI 도입이 안 되니까 또 사람이 하고 약간 약간 악순환에 있죠.
그래서 지도학습을 하시려면 사람이 하더라도 뭔가 데이터로 기록하는 과정을 거쳐가지고 데이터를 계속 축적을 해야 됩니다.
비지도학습
어쨌든 그렇고 지도학습은 정답을 주고 학습을 시키는 거라면 정답이 우리도 없는 경우가 있어요.
이런 거를 이제 비지도학습이라고 하는데 그러면은 정답이 없는데 어떻게 학습을 시키냐 하면은 뭔가 잠재변수를 가정을 합니다.
우리가 보이지는 않지만 이런 변수가 숨어 있을 거야 라고 생각을 하고 그 숨어 있는 변수의 특징을 어떤 식으로든 만듭니다.
그래서 그럼 우리 이제 가정을 하는 거죠.
이러이러한 가정 하에서 우리가 관찰되는 현상들이 나타난다.
이렇게 하면은 그 숨어 있는 변수를 간접적으로 측정을 할 수 있어요.
이게 좀 낯설게 들리지만 생각해보면 우리가 배우고 있는 대부분의 과학이 이런 식이거든요.
예를 들면 여러분 전자를 눈에 본 적은 없지만 우리 다 전자가 있을 거라고 믿잖아요.
왜냐하면 전자가 이러이러 할 거야 라고 가정을 하면 기가 막히게 전기 현상이 다 설명이 된단 말이에요.
그래서 우리는 본 적도 없지만 믿을 수 밖에 없는 거죠.
아니 그게 없으면 어떻게 이게 다 설명이 돼.
뭔가 존재할 거라고 가정을 하고 그 가정 하에 우리가 보이는 것이 다 설명된다
이렇게 생각하는 건 많이 하는 방식입니다.
그래서 이렇게 하는 거는 이제 비지도학습이에요.
우리가 가정한 거 내에서 답을 찾는 겁니다.
근데 우리가 그 가정이 맞는지 아닌지는 몰라요.
전자가 정말 존재할까요?
아무도 모릅니다.
예를 들면 우리가 이제 SF영화처럼 외계인들이 지구에 쳐들어왔는데 나중에 얘기를 해보니까 우리는 전자라는 걸 믿습니다.
외계인들이 역시 미개종족들. 그럴 수도 있잖아요.
그러니까 우리 과학사에서도 보면 그런 거 많이 있단 말이에요.
예를 들면 옛날 사람들은 에테르 이런 게 있어 가지고 빛이 에테르 에테르 라는 물질 공간에 있어 가지고 거기서 파장으로 되는 거야.
한때는 옛날에 그렇게 생각 을 했다가 에테르 같은 건 없어요.
사람들이 다 충격받고 아인스탄 업적 중에 하나 그죠?
에테르는 없어.
그러니까 사람들이 에테르가 없었다니.
나 이때까지 에테르 있는 줄 알았는데.
그래서 뭐 이런 식으로 우리가 있었다고 생각했는데 아니 이건 없다고 생각하는 게 낫겠는 걸 에테르를 본 적은 아무도 없어요.
있다 없다 얘기는 있었는데 그게 보고 그런 게 아니라 그러면 에테르가 있다 치면 빛의 속도가 어떻게 달라져야 되는데 빛의 속도가 안 달라지네.
그럼 에테르는 없는 셈 치자
이런 식으로 한 거죠.
마찬가지로 우리가 이제 잠재변수라는 거는 있다 치고 해보면 이렇게 분석이 될 수 있는데 그게 뭐 있는지 없는지 모릅니다.
다른 사람은 저런 게 있다고 치고 분석을 하는데 그 사람 결론도 나름대로 말이 될 수도 있어요.
약간 누가 더 말이 되냐 싸움이지 있는지 없는지 끝까지 모르는 거죠.
그래서 뭐 예를 들면은 우리가 이제 성격 같은 거 얘기할 때 요즘에 뭐 유행하는 MBTI 이런 거 있잖아요.
MBTI 하면은 뭐 어떻게 합니까?
MBTI 잘 모르시는 분도 외향적, 내양적 이런 거는 아시죠?
우리도 많이 얘기하잖아요.
저 사람 참 외향적이야.
그 사람 성격이라는 거는 어떤 뇌의 특성인데 우리가 그 사람 두개골 열고 뇌를 받냐
이거죠.
뇌를 보면은 거기에 뭐 외향적 이렇게 써 있냐 말이죠.
그런 거 아니란 말이에요.
근데 우리가 이 사람은 아 외향적이야.
이 사람 참 내양적이야.
이렇게 얘기하는 거는 겉보기의 행동을 보고 아 저 사람 마음에는 어떤 외향적이라는 특성이 있을 거야.
이렇게 생각을 하는 거죠.
여러분들 저 보시면은 어 좀 약간 강사가 외향적이지 않을까
생각할 수도 있지만 저 굉장히 내양적이거든요.
그래서 이제 이렇게 강의를 하러 오면 연기를 합니다.
외향적인 연기를.
농담도 하고 막 재밌는 척 하지만 이렇게 강의 끝나면 어허허허 이러고 있거든요.
사회성을 다 써버렸어.
이러는데 그러니까 겉보기만으로는 모르는 거죠.
저 사람이 외향적인지 내양지 모르는데 우리가 가정을 하는 겁니다.
이럴 거야.
그래서 그러면 이제 성격 같은 경우도 뭐 mbti만 있는 게 아니라 여러 가지가 있단 말이에요.
뭐 심리학자들이 많이 쓰는 건 빅5라고 있습니다.
심리학자들은 mbti 별로 안 좋아하거든요.
왜냐하면 mbti에서 가정하는 게 뭐 틀렸냐 하면 그렇게 얘기할 수는 없어요.
왜냐하면 mbti에서 가정하는 게 뭐 s가 있고 n이 있고 이러는데 이게 눈에 보이는 게 아니기 때문에 맞았는지 틀렸는지는 잘 몰라요.
근데 이제 보통 mbti에서 가정하는 게 뭐 t가 있고 f가 있고 뭐 이렇잖아요.
p가 있고 j가 있고 이런 식인데 이런 식으로 4가지가 있다고 가정하면 사람들 행동이랑 좀 잘 안 맞아요.
그래서 이제 이름의 빅5인데 보통 심리학자들이 보기에 그래도 5가지는 있다고 쳐야 어느 정도 맞지.
4개는 좀 아닌 것 같다
이런 게 있고 또 하나는 이게 양극형이잖아요.
2면 아니면 i 이런 식인데 심리학자들이 보기에 아니 약간 정규봉포처럼 가운데가 많고 옆에가 적어야지 이거는 2가 많고 i가 많고 약간 중간이 없다
이런 느낌인데 그게 좀 약간 실제 사람들 데이터랑 안 맞는다.
사람들이 이렇게 양극단이 많을 리가 있겠냐 대체로 비슷하지
이렇게 생각한단 말이야.
이게 뭐 어떤 원천적으로 틀렸다기보다는 좀 사람들 데이터랑 잘 안 맞아요.
그래서 이제 약간 별로 안 좋아하는데 근데 또 그렇다고 해서 뭐 이거 뭐 100% 틀렸냐.
mbti 좋아하시는 분들은 mbti 잘 맞아요.
이런단 말이에요.
그러니까 결국에는 어떤 얘기냐면 50% 맞느냐 70% 맞느냐
이런 차이의 싸움이지 100% 맞거나 100% 틀리거나 이러진 않습니다.
이렇게 가정하면 그것도 일리는 있지만 뭔가 좀 안 맞고 이렇게 가정하면 좀 더 잘 맞지만 그래도 좀 미진한 부분이 있고 약간 이런 식이에요.
요즘에 이제 하나 더 있다 해서 6개 점점 늘어납니다.
왜냐하면 이제 자꾸 데이터를 보다 보면 하나 더 있어도 될 것 같은데 자꾸 이런 생각이 들어서 점점 늘어난다고 그래서 보통 그렇고 그래서 이제 우리가 뭐 비지도학습의 여러가지 예시를 보면 고객을 세분화 할 때 이제 우리가 유튜브 같은 거 여러분 해보시면 유튜브 보면 여러분 첫 화면에 유튜브 들어가면은 첫 화면에 한 6개 아니면 8개 이 정도 영상이 뜨거든요.
PC에서 들어가면 근데 그거를 여러분이 구독하시는 영상만 뜨는 게 아니라 가끔 되게 뜬금없는 영상이 뜬단 말이에요.
저 같은 경우에도 얼마 전에 보니까 무슨 교회에서 찬양하는 영상 뭐 이런게 뜬단 말이에요.
이게 왜 나한테 뜨지?
조회수 500짜리 영상이 막 뜨는데 이런 현상이 왜 일어나냐면 여러분들하고 취향이 비슷한 사람들을 유튜브에서 대충 그루핑을 해놓습니다.
이 사람들은 대충 취향이 비슷해 그러면은 어떻게 되냐면 나랑 비슷한 그룹에 있는 사람 누군가가 그 영상을 본거에요.
좋아요를 눌렀어요.
그러면은 너랑 너랑 같은 그룹이니까 얘가 좋아하면 너도 좋아하겠지 하고 여러분한테도 이제 보여주는 거에요.
그래서 자꾸 유튜버들이 구독 좋아요
알림설정 눌러주세요
이렇게 얘기하는데 그 이유 중에 하나는 여러분이 구독 좋아요
알림설정을 누르면 여러분한테만 영향을 미치는 게 아니라 그게 여러분이랑 같은 그룹에 있는 사람들한테도 영향을 미칩니다.
그러니까는 자꾸 여러분 좋아하시는 유튜버는 좋아요
자꾸 눌러주셔야 그 유튜버가 유명해지고 성공할 수 있어요.
그래서 열심히 해주시고 근데 이제 문제가 뭐냐면 고임들을 그렇게 그루핑을 할 때 이 사람하고 이 사람하고 취향이 비슷하다
이런 건 정답이 없거든요.
그렇죠?
그냥 정답이 없고 유튜브가 마음대로 묶어놓은 거에요.
왜 니 마음대로 묶어놓냐?
뭐 할 말은 없지만 근데 유튜브 입장에서 그걸 정당화 할 수 있는 수단은 뭐냐면 이 사람하고 이 사람하고 묶어놨더니 뭐 취향이 같다는 보장은 없는데 이 사람이 묶어놨더니 얘가 좋아요
누르는 거 얘도 좋아요 누르고 얘가 재밌어 하는 거는 끝까지 보는 영상 얘도 끝까지 보고 뭐 취향 같네
아닌데 취향 다른데 이렇게 해도 어쨌든 유튜브라는 그 사업이 잘 굴러가게 해준단 말이에요.
그런 한에서는 그런 가정이 뭐 사실인지 아닌지 모르죠.
취향이 같다
이런 거는 우리가 검증할 수 없는 영역이잖아요.
검증할 수는 없지만 어쨌든 작동하는 모델이라는 거죠.
그래서 이런 거를 이제 다 비지도학습이라고 부르게 됩니다.
그래서 이제 지도학습하고 비지도학습의 차이는 결국에 관찰된 어떤 Y가 있느냐.
관찰된 Y가 있어서 그거를 딱 하게 하면은 지도학습이고 관찰된 건 없는데 요렇다 치고 하면은 비지도학습 이렇게 됩니다.
강화학습
그래서 이건 넘어가고 그럼 이제 강화학습은 뭐냐 지도학습이 한 90% 차지하면 비지도학습이 한 9% 차지한다고 할 수 있고요.
강화학습은 그 중에서도 1%도 안 됩니다.
굉장히 적은 비중만 차지하는데 강화학습의 모델은 좀 더 복잡해요.
지도학습은 답을 다 가르쳐 주는 거고 비지도학습은 어떤 가정하에서 학습하게 하는 건데 강화학습은 그런 게 없습니다.
뭐만 있냐면 강화학습에는 행위자가 있어요.
행위자는 어떤 행동을 하는데 그 행위자는 주변을 자기를 둘러싸고 있는 환경이 있습니다.
예를 들면 강아지가 행위자다.
그럼 강아지를 둘러싼 환경에는 자기 주인이 있겠죠.
그래서 행위자는 일단 관찰을 해요.
내 주변 상황이 어떤가 관찰을 하고 그 관찰에 기반해서 어떤 행동을 합니다.
환경에 그 행동이 영향을 미치겠죠.
그러면 뭔가 환경이 변해요.
내 행동의 결과로 환경이 변하고 그 다음에 어떤 보상이 따라옵니다.
강아지가 주인이 막대기를 던졌는데 그걸 보고 막대기를 물어다가 주인한테 주면 주인이 잘했어
이러면서 먹이도 주고 칭찬도 해주고 보상을 얻고 주인이 기뻐하는 상황으로 바뀌는 거죠.
주인이 막대기를 던졌는데 이렇게 멀뚱이 보다가 주인 다리를 확 물어요.
그러면 주인이 열받으면서 이 자식 하면서 화를 내고 나는 괜히 얻어먹지도 못하고 이런 상황을 경험을 한단 말이에요.
그럼 강아지가 해야 될 건 뭡니까?
내가 어떤 보상을 받는데 이 보상을 장기간에 지금 한번 한번이 아니라 계속 이 보상을 쌓아 나가는데 이 보상들을 다 합친 거 이걸 수익이라고 하는데요.
이 수익을 최대화 시켜야 된단 말이에요.
어떻게 해야 내가 주인하고 좋은 관계 주인을 기뻐하고 결국 그러면 주인이 기뻐하면 나한테 잘해주고 이런 거잖아요.
그럼 장기간에 주인하고 어떤 좋은 관계를 쌓아 나갈 거냐
이런 문제인데 지도학습하고 다르죠.
지도학습하고 달리 답을 주지 않습니다.
주인은 그냥 칭찬과 보상 처벌 이런 걸 할 뿐이지 여러분들 강아지 키우시는 분들 강아지한테 막대기 던지면 공 던지면 물어오는 거 가르치면서 공 던진 다음에 여러분이 막 쫓아가서 공 물고 오는 거 보여주지 않잖아요.
그죠?
답을 알려주지 않습니다.
물어 와.
말로 하긴 하지만 뭐 걔가 말을 안 듣겠어요?
제일 약간 의미 없는 짓 중에 하나가 강아지한테 말하는 거거든요.
강아지는 사람의 언어를 못 알아들어요.
근데 약간 강아지 키우시는 분들 중에 되게 많은 분들이 강아지 뭐 내가 하지 말랬지 이렇게 하시는 분들이 있거든요.
어떻게 소용없는 짓입니다.
그런데 소용없는 줄 알면서도 하는 거죠.
약간 답답하니까.
근데 강아지는 이제 강아지가 알아들을 수 있는 방식으로 얘기를 해줘야죠.
잘하는 행동을 하면 보상을 주고 못하는 행동을 하면 처벌을 하고 이거를 잘 해야 되는데 보상이나 처벌을 안 줬고 자꾸 말로 내가 이거 하지 말랬지.
짓지 말랬지.
그러니까 걔가 안 짓냐고요.
못 알아들었는데.
어쨌 든 보상이나 처벌을 줘야 되는 거죠.
그래서 그렇고 반대도 사실 마찬가지입니다.
그러면 주인은 강화학습을 안 받느냐?
주인도 강화학습을 받죠.
내가 이런 행동을 하면 강아지가 좋아하고 이러면 주인은 거기서 또 보상을 얻는 거죠.
서로 서로 약간 강화학습을 하는 거예요.
그런데 이제 그것도 마찬가지잖아요.
주인도 강아지가 예를 들면 내가 공을 던져요.
강아지가 물어 왔어요.
그러면 강아지한테 먹이를 줘야 되는데 그 강아지가 나한테 먹이 달라고 이렇게 끌고 가가지고 그 간식 봉지 앞에 가서 이거 나한테 줘.
그래야 내가 강화학습을 하지.
이러지 않는단 말이에요.
강아지가 우리한테 답을 보여주지 않습니다.
그런데 우리가 적절한 행동을 하면 강아지가 우리한테 보상을 주는 거죠.
재롱을 피운다든지 말을 잘 듣는다
이런 식으로 그러니까 보통 우리가 회사 같은 것도 마찬가지죠.
물론 회사가 어느 정도 답을 줄 때도 있지만 사실 우리가 눈치껏 알아서 잘하면 보상을 주고 아니면 눈치껏 눈치 좀 없이 행동하면 처벌을 주고 이렇게 하지만 이렇게 해라
저렇게 해라
딱 답을 알려주진 않거든요.
회사도 어떻게 보면 약간 강화학습입니다.
우리한테 보상이나 처벌을 줄 뿐이지 뭐 대략적인 방향은 주지만 디테일하게 이렇게 잘 알려주진 않는단 말이에요.
지도학습이 아닌 거죠.
그래서 이런 보상과 처벌에 의한 학습 방식이 강화학습입니다.
그래서 이제 강화학습이 좀 적용하기 어렵다
이렇게 아까 얘기를 드렸었는데 왜 그러냐면 일단 지도학습은 쉬워요.
그냥 우리가 원하는 답이 있으면 그거 가 르쳐주면 되거든요.
강화학습은 우리가 보상이나 처벌을 줘야 되는데 이게 쉽지 않습니다.
예를 들면 우리가 인간관계에서도 어려워 결국 인간관계도 어떻게 보면 강화학습이거든요.
보상이나 처벌 예를 들면 나한테 되게 신경 거슬리게 굳은 사람한테는 처벌을 하고 내 마음에 들게 하는 사람한테는 보상을 주고 이렇게 해서 상대방이 내가 원하는 대로 행동을 하게 만들어야 되는데 다 경험상 아시지만 쉽지 않죠.
예를 들면 우리 연애 같은 거 젊은 분들 여기 많은데 연애 같은 거 하면 힘든 이유가 뭡니까?
내가 선물을 상대방한테 준다고 해서 상대방이 내 맘에 들게 행동하는 게 아니잖아요.
사실 그게 잘못된 행동일 수도 있거든요.
선물 주는 건 보통 보상인데 상대방이 자꾸 내가 하자는 대로 안 해요.
근데 내가 자꾸 선물을 줘.
그럼 어떻게 하는 겁니까?
내 말을 안 듣는 거에 보상을 주는 거죠.
그래서 대부분의 많은 사람들이 하는 실수가 그거거든요.
내 마음에 안 들게 할수록 내가 보상을 자꾸 줘요.
자꾸 선물을 준단 말이에요.
나한테 막 성질을 내면 내가 선물을 줘요.
미안해
이러면서 그러면 어떻게 돼요?
성질 낼 때마다 난 보상을 주니까 이 사람은 화내는 거에 강화학습이 되는 거죠.
화를 내면 처벌하고 잘해주면 보상을 해야 되는데 우리가 보통 반대로 많이 합니다.
이게 강화학습이 어렵다는 거예요.
보상과 처벌을 준다는 게 생각보다 굉장히 어려운 문제입니다.
그래서 애들도 마찬가지죠.
자녀 키우시는 분들은 애들이 땡깡 부리고 하면 부모가 보상을 주거든요.
왜 땡깡 부려?
이러면서 자꾸 뭐 하나씩 주고.
자꾸 땡깡 부리라고 하는 거예요.
결과적으로.
그래서 이게 되게 어렵습니다.
단기적으로는 입 맞고 넘어갈 수 있는데 장기적으로 보면 별로 안 좋은 겁니다.
잘할 때 보상을 주고 못할 때 처벌을 해야 되는데 생각보다 어렵다.
이런 얘기하면 애가 잘할 때가 있어야 말이죠.
그게 어려운 거예요.
잘하는 그 순간의 타이밍을 딱 찾아가지고 뭔가 애가 뭐 하나라도 잘하는 순간에 득달같이 보상을 줘야 되는데 우리가 타이밍 잡기가 힘들죠.
그러면 이제 잘하면 어이 잘하네.
아 평화롭고 집이 평화롭고 좋구나.
그 순간에 넘어간단 말이에요.
그러다가 애가 막 울고 때쓰고 이러면 그때가 나
왜 됐어
이러면서 이렇게 또 뭐 주고 약간 반대로 행동하는 거죠.
그래서 이제 강화학습의 예시를 보면은 우리가 이제 그 유명한 알파고 벌써 2016년이네요.
2016년이니까 8년 전인데 이제 바둑을 두는데 바둑도 이기고 지구가 있습니다.
어떻게 둬야 우리가 바둑을 이기는지는 몰라요.
알파고 팀에서 바둑을 제일 잘 두는 사람도 굉장히 하수였습니다.
자기들도 바둑을 어떻게 잘 두는 건지는 모르는데 어쨌든 이기고 지구는 규칙으로 결정이 나니까 이기면 보상, 지면 처벌 그러면 컴퓨터가 수천만 판을 두면서 어떻게 해야 이기는지를 스스로 찾는 거죠.
지도학습이 아닙니다.
지도학습이면 이렇게 돌아 저렇게 돌아 일일이 가르쳐 주는 건데 그렇게 가르쳐 주지 않고 난 모르겠고 하여간 니가 잘 둬 봐.
그럼 잘 두면 보상을 줄게.
약간 이런 거죠.
우리 회사 다니면 회사에서는 난 잘 모르겠고 하여간 실적을 내와.