Wired 기자 Steven Levy가 쓴 심도 있는 구글 이야기. 제목의 Plex는 구글 본사인 Googleplex를 말하니 ‘구글 안에서’란 정도로 번역 될까? 구글에서 지금까지 있었던 이야기를 친-구글(?) 기자의 입장에서 기술한 책이다. 그 어느 책보다 구글의 이야기를 꼼꼼하게 다루고 있다. 책을 다 읽고 올리는 글이 아니기 때문에 일단 (1)이라고 넘버링 한다.

전체 일곱 챕터 중 첫 두 챕터를 읽었다. 첫 번째 챕터(The world according to Google)는 구글이 제일 잘 하는 검색 이야기이고, 두 번째 챕터(Googlenomics)는 검색 광고 이야기이다. 검색과 검색 광고가 내 전공 및 업무 분야라 이 쪽 얘기들을 많이 아는 편이라고 생각했는데 몰랐던 업계 얘기들이 꽤 나온다. 창업이나 영업에 관한 얘기도 있지만 역시 내 관심 분야는 기술이나 알고리즘에 관한 건데, 몇 가지 재미 있었던 부분을 요약해본다 (출처 페이지 번호는 Kindle에서 보여주는 것으로 종이 책과는 조금 다를 수 있음)
- 구글은 페이지랭크, 즉 링크를 이용한 웹검색랭킹 알고리즘을 사용함으로써 그 당시의 기술적인 한계를 뛰어 넘었는데, 정보 검색을 위해 웹 링크 정보를 이용하는 아이디어를 생각한 건 구글의 창업자 래리 페이지 뿐만이 아니었다. MIT에서 박사를 받고 1996년에 IBM Almaden 연구소에서 포닥을 하고 있던 Jon Kleinberg도 같은 생각을 하고 프로토타입을 만들었으나, IBM에서 이 기술을 어떻게 활용해야 할지 몰라 더 이상의 연구는 진행이 안됐다고 한다. 이후 Jon Kleinberg는 코넬대 전산과 교수 자리로 옮겼는데 구글의 오퍼를 거절 하고 교수 생활에 만족했다고. (p. 24) 여전히 꽤 성공적인 교수 생활을 하고 있는 것 같다. IBM 지못미.
- 같은 시기, 중국 출신 Yanhong (Robin) Li도 같은 아이디어가 있었다. 1996년 쯤 다우존스의 한 디비젼인 IDD Information Services에서 일할 때 마치 SCI 점수 계산 하듯 웹링크 정보를 이용하는 검색시스템 RankDex를 고안해서 97년 2월 즈음 회사에서 특허를 냈단다. 스탠포드가 페이지 랭크 특허를 98년 1월에 낸거에 비하면 빠른 것임. 그리고 Robin Li는 그 해 7월 검색 회사 Infoseek으로 이직했다가 디즈니가 Infoseek을 인수 한 후 중국으로 돌아갔다고 한다. (p. 26) 책에는 여기까지 나오는데 위키피디아에서 찾아보니 이 사람이 바로 바이두의 창업자란다(2000년에 창업). 이미 유명인이기 때문에 책에 바이두 얘기가 안나왔던 걸까? 그러고 보니 나는 바이두의 창업자가 누구인지도 몰랐구나. Robin Li가 먼저 낸 특허 때문에 구글 특허가 어떻게 됐는진 모르겠네.
- 검색을 다룬 첫번째 챕터에서는 쿼리 분석이 얼마나 힘든가 설명하는 예가 몇 개 나온다. 쿼리에 사람이 들어가 있는 경우가 분석이 쉽지 않은데, 여러 노력을 통하여 이제는 잘 한다고 한다. 예를 들어 [mike siwek lawyer mi]란 사용자 쿼리에 대해서 Michigan주의 Grand Rapids에 사는 변호사 Michael Siwek을 찾아준다고 한다. 이 경우 어떻게 단어를 묶어야 하는지가 중요한데 ‘mike siwek’, ‘lawyer’, ‘mi’를 각각 묶은 후, 각각을 쿼리 확장 (Mike을 Michael로, lawyer는 attorney로, mi는 Michigan으로)했겠지? 이에 비해 옛날에 일반적으로 쓰이던 방식은 bigram, trigram, quadgram으로 묶어 처리 하는 거라고… (p. 50)
- 구글의 유니버설 서치를 개발한 이야기도 잠깐 나오는데 자세한 내용은 안나온다. (p. 58) 내가 야후!에 있을 때 비슷한 일(우리는 페더레이션 서치라고 불렀다)을 해서 구글은 어떻게 했을지 궁금한데, 아쉽다.
- 현재 알고리즘의 문제를 고치기 위해 핵키(hacky)한 패치를 하는 건 안좋다는 얘기가 나온다. 예전 회사에서 내가 일 할 때 들었던 적이 있는 지적 ㅎ. 이 책은 구글의 상품 검색 서비스인 Froogle을 개발 할 때의 에피소드를 담고 있다. 개발은 다 해놨는데 ‘운동화’를 검색 해보면 엉뚱하게도 정원장식용 요정상(garden gnome sculpture. 잔디 밭에 세워놓는 일곱난장이 장식 같은거 생각하며 될 듯)이 1위로 나왔다는 얘기. 쉽게 이 문제를 처리하려면 이 검색 결과만 후처리로 지우면 되지만 그렇게 안했다고. 대신 랭킹 알고리즘과 쿼리 분석기를 이리 저리 바꿔봤는데, 해결이 안됐다고한다. 그런데 개발자 하나가 그 요정상을 사버렸더니 더 이상 판매 대상이 아닌 물품이라 검색 결과에서 사라졌다는 에피소드. 그래서 그대로 론치했단다. 핵을 쓰지 않고 문제 해결(?)!. (p. 60)
- 구글은 원래 노출 기준(CPM)으로 값을 매기는 AdWords란 키워드 광고 상품이 있었고, 그 후에 클릭(CPC) 기반의 Adwords Select를 만들었다고 한다. 그러니 요즘 말 하는 AdWords란 원래 Adwords Select란 이름을 가지고 있었던 것. (p. 91)
- 오버추어가 특허로 먹고 사는 회사라고 생각했는데 사실 GoTo.com(오버추어의 전신)이 낸 특허는 떨거지들이었단다. 특허는 공개 서비스를 시작한지 1년 내에 신청해야 하는데 그러질 못해 실시간 경매나 PPC같은 핵심 아이디어는 특허로 못 냈고 뒤늦게 자잘한 것들을 특허로 신청했다고 한다. (p. 89) 이런 특허를 제대로 냈다면 오버추어가 한국을 포함한 여러 나라에서 지금보다 더 잘 나갈 수 있었을지도…
- 오버추어가 먼저 클릭/경매 기반의 검색광고 제품을 만들어 냈고, 구글은 거기에 몇가지를 플러스 해서 Adwords (정확히 말하면 Adwords Select)를 만들었다. 이후 구글이 도입한 Vickery second-bid auction(아… 이 용어 들으니 몇 년 전에 업무에 필요해 이 방식에 대한 경제학 논문을 읽었던게 기억난다 ㅜㅜ)형태의 PPC 계산을 오버추어도 적용했는데, 이게 오버추어가 구글 Adwords에게 받은 영향의 전부라고 알고 있었다. (내가 오버추어에 입사한 2006년 이후, 오버추어도 구글처럼 광고 품질을 랭킹에 적용한 건 제외 하고.) 하지만 이 책에 따르면 광고 위치에 상관없이 키워드에 입찰 하는 방법도 원래 구글이 사용했는데 이후 오버추어가 따라한 거라고 한다. 원래 오버추어는 각 광고 위치 별로 따로 입찰을 해야 했다고 (p. 90)- 즉, 꽃배달이란 키워드의 1위 위치와 2위 위치에 대한 입찰을 각각 따로 했다고 한다.
- 구글의 문맥광고 제품인 AdSense는 원래 문맥 광고 솔루션 회사인 Applied Semantics란 벤처의 제품명이었다. 이 회사가 가지고 있던 특허 문제를 피하려고 구글이 이 회사를 인수했고, 구글이 원래 개발하고 있던 문맥 광고 제품에 AdSense란 이름을 갖다 쓴 거라고 한다. 재미있는 건 Applied Semantics는 오버추어에도 회사를 팔려고 했었는데, 오버추어에선 AdSense를 1억 달러짜리 사업에 불과하다고 평가 한데 비해 래리 페이지는 20억 달러짜리 사업이라고 평가했다고 한다 (p 103). 요즘 구글은 AdSense로 매년 100억 달라씩 번다고 (p. 108). 오버추어의 오판. 그런데 오버추어가 큰 기회를 놓쳤다는 생각은 안 드는게, 만약 구글 대신 오버추어가 Applied Semantics를 인수했다면 이렇게 성공 안했을 것 같기 때문. :-p
원서이고 분량도 꽤 되는 책이라 재미있는데도 불구하고 진도가 팍팍 나가지는 않는다. 출퇴근을 지하철을 타고 했으면 좀 더 많이 읽었을텐데 버스를 타고 다니느라 책은 못 읽고 ‘나는꼼수다’만 듣게 된다는 -_-;;; (아, 오디오북으로 샀어야 하나?) 좀 더 읽고 책의 재미있는 내용을 계속 포스팅할 계획. 이런 좋은 책을 몇 초만에 내 손안으로 전해주는 Kindle, 무척 사랑스럽다!