회사에서 보내준 ECIR 2018 참석 후기를 블로그에 적습니다 (회사에 제출하는 후기라서 존댓말로 썼습니다)

20180326_091235
행사 장소인 그르노블 MINATEC입니다
20180327_085622
오프닝 세션


ECIR (European Conference of Information Retrieval)은 유럽인들이 정보 검색 분야 연구 결과를 논의하는 포럼입니다. 올해가 40번째인 이 학회는 3월 26일부터 29일까지 나흘간 네이버랩스유럽이 위치한 프랑스 그르노블(Grenoble)이란 도시에서 개최됐습니다. 그르노블은 1968년 동계 올림픽이 개최된 곳이라서 저희끼리는 ‘프랑스의 평창’이라고 부르기도 합니다. 이 도시는 인구 16만명 중에서 학생이 5~6만명에 달할 정도로 학문과 연구의 도시라네요.

ECIR은 이제 CORE의 A등급 컨퍼런스가 됐다고 합니다. A 등급의 의미는 “excellent conference, and highly respected in a discipline area”라고 합니다. 이 위에 A*등급이 하나 더 있습니다. 아직 S급 컨퍼런스가 되기는 멀었고, 이제 막 B급 학회에서 A급학회가 됐다고 이해하면 될 것 같습니다. 개회사에서 밝힌 올해 Full paper의 합격률은 23% (39/173), Short paper의 합격률은 34% (36/106)이었습니다. Full paper 기준, 제출자와 합격자를 국가별로 구분했더니 뜬금없이 중국과 인도가 1,2위를 차지했습니다. 중국과 인도의 파워를 유럽 학회에서도 느낄 수가 있습니다.

이번 ECIR 2018 총 참석자 수는 243명입니다. 한국인은 네이버에서 간 2명 (정후중, 이승욱) 이외에는 네이버와의 산학 결과물을 News IR 워크샵에 발표하러온 KAIST 윤태원 씨 밖에 없었습니다.

20180327_092039
후원사인 ‘네이버랩스유럽’을 ‘NEVER Labs Europe”으로 표현하는 만행을….

 

제가 이번 학회에서 느낀 3가지 경향을 아래처럼 정리했습니다.

1. Reproducibility

이번 학회에서 가장 눈에 띈 점은 reproducible에 대한 논의가 많았다는 것입니다. Reproducible이란 ‘재현가능한’ 실험과 아이디어를 의미합니다. 2015년 ECIR에  Reproducible IR이란 세션이 있었고, 작년 ICML에도 Reproducibility in Machine Learning Research란 워크샵이 있었습니다. 논문 저자들이 실수로든 의도적으로든 실험 결과를 잘못 낼 수 있는데, 다른 사람의 실험이 재현가능하다면 실험의 더 정확한 의미를 알 수 있다는 거죠. 그래서 요즘은 논문에 사용된 코드, 데이터 등도 함께 공개하는 게 경향입니다.

이번 컨퍼런스의 키노트와 인더스트리 트랙에서 이점을 언급한 경우가 많았고, 재현 가능한 IR연구를 다룬 구두 발표도 꽤 있었습니다. Best paper도 통계적 스테머 3개를 재구현 및 재실험한 논문(G. Silvello, et al. “Statistical Stemmers: A Reproducibility Study”)이 받았습니다. 이 논문에서 저자들은 2011년에 논문으로 발표된 언어에 독립적인 스테머 3개를 재구현하여 일부의 경우 원논문에서 보고한 성능이 나오지 않음을 보였습니다. 이 외에도 다음과 같은 Reproducible 연구 관련한 논문이 있었습니다.

  • Reproducing a Neural Question Answering Architecture Applied to the SQuAD Benchmark Dataset: Challenges and Lessons Learned
  • On the Reproducibility and Generalisation of the Linear Transformation of Word Embeddings

네이버에서도 논문을 쓸 때 재현 가능성을 유념해두면 좋겠지만 실서비스 데이터를 많이 사용하는 우리의 연구 업무 특성상 저작권 때문에 데이터 공개가 어렵다는 점은 문제입니다.

2. Deep Learning for IR

최근의 여느 학회처럼 검색에 딥러닝을 써보려는 시도가 많았습니다. 저자들이 논문을 제출하면서 가장 많이 붙인 키워드가 ‘딥러닝’이었습니다 (상당 수는 reject 당했지만 ㅋ). 딥러닝 세션이 두 개나 있었고, 딥러닝 관련 튜토리얼도 있었습니다.

작년 WSDM 2017에 참석하였을 때 마이크로소프트의 B. Mitra와 N. Craswell이 Neural Text embedding for IR 튜토리얼을 했었습니다. 이후 암스테르담 대학 사람들과 Mitra가 함께 이 내용을 포함한 NN4IR (뉴럴네트워크 포 IR)이란 이름의 튜토리얼로 SIGIR 2017, WSDM 2018에서 진행하더니, ECIR 2018에서도 같은 튜토리얼을 진행하였습니다. 매번 발표 내용은 거의 똑같아 보입니다. 딥러닝 인기가 떨어질 때까지 두고두고 하려나봅니다. 시맨틱 매칭, Learning to rank, 개체명 처리, 클릭 예측, 응답생성, 추천 시스템 등등, 각 분야의 관련 연구들을 훑습니다. 예를 들어 시맨틱매칭의 경우, 모델들을 크게 representation 기반 모델, interaction 기반 모델, 하이브리드 모델로 나눠놓고 관련 논문들을 소개하는 식입니다. 검색 뿐 아니라 Naver Search에서 연구 개발하는 여러 분야에서 DNN이 어떻게 사용되는지 알고 싶은 경우 슬라이드를 훑어보면 도움이 될 것 같습니다.

마이크로스프트 Bing 조직에서는 신경망과 gbdt가 모두 인기 있다고 합니다. Q&A 시간에 나온 커멘트 중, 딥러닝은 적용 후 시스템 유지보수가 훨씬 힘들어서 Technical debt로 남는 경우가 많다는 논문이 있는 것처럼, 실제 업계에서 쓰기 어려울 것 같다란 커멘트가 있었습니다. 이런 부분을 감안하여 실시스템에 적용해야하겠습니다.

메인 컨퍼런스의 딥러닝 세션 두개는 퀄리티가 별로라는 의견이 많았습니다. 원래 딥러닝 전문으로 하던 사람들이 쓴 논문들이 아니며, 참신한 아이디어는 없었다는 것이 네이버랩스유럽의 마티아스, KAIST의 윤태원 님, 같이 간 이승욱 박사 등의 의견이었습니다.

그나저나 오프닝에서 보니 저자가 ‘deep learning’을 키워드로 쓴 경우 합격율이 매우 낮았는데, 합격된 논문들이 이 수준이라면 원래 제출된 논문들은 도대체 어땠을까요…. @.@

20180327_091142
제출된 논문의 키워드 분포. 1등이 deep learning입니다. (노란색은 합격된, 붉은색은 불합격된 논문 수)

 

3. 검색의 투명성과 공정성에 대한 고민

우리 회사가 좋아하는 ‘투명성’을 얘기하는 발표자도 몇몇 있었습니다. 컨퍼런스에서  말하는 투명성은 기계 학습된 모델의 ‘설명가능함’을 표현하는 단어로 주로 쓰였습니다. 업계에서 ‘설명가능함’이란 ‘디버깅 가능함’이란 마이크로소프트 연구원의 코멘트도 인상 깊었습니다. 😉

검색을 포함한 알고리즘의 투명성, 공정성, 책임감을 다룬 컨퍼런스가 올해 2월에 있었다고 합니다. 바로 FAT 2018 (Conference on Fairness, Accountability, and Transparency) 이란 컨퍼런스인데요, 한국 사회에서 네이버의 위치를 고려했을 때 네이버에서도 관심을 가져야할 만한 주제라고 생각합니다.

Fernando Diaz의 첫번째 키노트에서는 모든 사용자의 데이터를 뭉뚱거려 검색 결과를 내주는 결과가 과연 소수 사용자 (인종/성별/연령/성적취향 등)에게 공정하느냐에 대한 화두를 던졌는데 명확한 답은 없는 것 같습니다. 다만 우리가 검색에서 개인화를 채용한다면 이런 내용으로 밑밥을 깔 수 있지 않을까 싶습니다.

 

 

세가지 경향 이 외의 이야기를 적어보자면…

검색에서 평가는 매우 중요합니다. ECIR 2018의 키노트 중 하나는 “검색 평가 파이프라인 구축”관련된 내용이었고, 세션 중에는 Evaluation & User Behavior 세션이 있었습니다.

Gabriella Kazai의 검색 평가 파이프라인 구축 키노트에 따르면 평가의 주체는 ‘전문가 커뮤니티’ (예, TREC 평가집합) ⇒ ‘크라우드 소싱’ ⇒ ‘실서비스 사용자’로 변해가고 있다고 합니다.

20180328_094315
크라우드소싱을 이용한 Bing의 오프라인 검색 평가

​사람을 써서 검색 품질을 평가하는 경우 검색 품질 평가자에게 절대적 평가를 요구하는 것보단 결과 두 개를 보여주고 상대적으로 평가하는 것이 더 좋다는 얘기를 했습니다.

크라우드 소싱으로 검색 품질 평가를 하다보면 평가 인력 변경이 잦고 평가 환경 제어가 어렵다는 여러 이슈가 있다고 합니다. 이런 이슈들을 서베이한 논문(무려 올해 1월에 나온 논문)인 “Quality Control in Crowdsourcing: A Survey of Quality Attributes, Assessment Techniques and Assurance Actions”을 소개했는데, 이 쪽 고민하시는 분은 한 번 살펴보는 것도 좋을 것 같습니다.

이 키노트는 온라인 평가와 오프라인 평가의 갭을 잘 메꿔야된다는 얘기로 끝맺었지만 그 방법에 대해서는 정확히 기술하지 않았습니다.

Evaluation & User Behavior 세션에는 4개의 논문이 발표됐는데 첫 논문인 “Modelling Randomness in Relevance Judgements and Evaluation Measures”는 사람들이 문서 품질을 측정하 때 하나의 점수로 agree하는 게 쉽지 않음을 감안하여, 정답 relevance label을 random variable로 놓자는 연구입니다. 나머지 3개 논문은 그다지 인상적이지 않았습니다. 검색 품질 평가는 검색 분야의 영원한 숙제인 느낌입니다.

[catlist tags=”ECIR2018″ conditional_title=”이번 출장 글” template=custom]