정말 이 기계 학습 분야는 하루가 멀다 하고 업데이트 되는구나. 이제 캡차까지 깨졌으니 튜링이 생각한 인공지능에 더 가까워지는 건가. 제일 아래에 이 모형이 깬 캡차의 한 가지 예를 그림으로 삽입했다. (그림 윗부분이 잘린 건 내 잘못이 아니고 원래 논문에서부터 그런 거임 -_-;)


높은 데이터 효율성으로 학습되어 문자열 기반 캡차를 깬 생성 시각 모형

https://doi.org/10.1126/science.aag2612


편집자 요약: 컴퓨터인가 인간인가?

우리가 인간임을 증명하는 것은 우리가 인터넷을 하면서 수행하는 여러 활동, 예를 들어 이메일 계정을 만들거나, 온라인 설문조사에 투표하거나, 심지어 과학 논문을 다운로드 받는 활동의 일부가 되었다. 자주 사용되는 테스트 방법은 문자열 기반 캡차(CAPTCHA)로, 뒤틀리거나, 부분적으로 희미하거나, 혹은 복잡한 배경 속에 놓인 문자열의 글자들을 사용자가 해독하도록 하는 기법이다. 이 테스트가 사용되는 이유는, 이 과제가 컴퓨터는 하기 어렵지만 (대부분의) 사람들은 쉽게 할 수 있는 과제이기 때문이다. George et al.은 상대적으로 작은 학습 데이터를 이용해 높은 정확도로 캡차를 풀어낼 수 있는 컴퓨터 시각 계층 모형을 개발했다. 이 결과로부터, 일부 온라인 서비스들이 그래온 것처럼, 문자열 기반 캡차를 피하는 것이 좋은 생각일 수도 있다는 것이 드러난다.


서론

통합, 일반화, 적은 수의 예제로부터 학습하기 등은 인간 지능의 주요 특징들이다. 캡차(CAPTCHA; 컴퓨터와 인간을 구분하는 완전 자동화된 공공 튜링 테스트 Completely Automated Public Turing test to tell Computers and Humans Apart)는 기계가 자동으로 작업하는 것을 막기 위해 웹사이트들이 사용하는 이미지들로, 인간에게는 쉽지만 컴퓨터에게는 어려운 문제들의 일례가 된다. 캡차는 노이즈를 추가하고 글자들을 겹침으로써 기계 분류의 달걀과 닭 문제를 만들어낸다. 즉, 분류 알고리즘은 이미 분할되어 있는 문자들은 잘 인식하지만, 분할을 위해서는 문자를 이해해야 하고, 이 과정에는 경우의 수가 너무 많다. 캡차는 또한 인간의 데이터 효율성을 보여준다. 하나의 특정 캡차 스타일을 풀어내기 위해 최근 사용되는 딥러닝 접근법은 수백만 가지의 예제를 필요로 하나, 인간들은 명시적 학습 없이도 새로운 형식의 캡차를 풀어낼 수 있다.


우리는 시스템 신경생물학에서 영감을 얻어 재귀적 피질 네트워크(RCN; recursive cortical network)를 도입하였다. 이 네트워크는 확률적 생성 시각 모형으로, 메시지 전달 기반 추론이 인식, 분할, 추론을 통합된 방법으로 해내는 기법이다. RCN은 매우 적은 학습 데이터만으로 학습할 수 있고, 원칙상 최신 문자열 기반 캡차의 방어벽을 문자의 생성적 분할을 통해 뚫을 수 있다. 게다가, RCN은 다양한 벤치마크에 대해 딥 신경망를 뛰어 넘는 성능을 보이며, 데이터 효율성에 있어서도 여러 자리수가 더 높다.


원리

최근의 딥 신경망들은 신피질 내의 단순세포와 복합세포의 전방 전달 계층 구조(feed-forward hierarchy)를 모사한다. 신경과학에서는 윤곽 및 표면 표상(contour and surface representations)으로 분리되어 있는 측면 및 되먹임 연결(lateral and feedback connections)이 계산에서 하는 역할을 가정하고, 또한 시각 피질에서 관찰되는 경계 소유권 코딩(border-ownership coding)도 가정하지만, 아직 이러한 요소들은 딥 신경망에서 널리 사용되고 있지 않다. 우리는 이러한 관찰 사실들을 체계적으로 새로운 모형에 포함시킨다면 더 높은 데이터 효율성과 일반성을 얻을 수 있을 것이라 가정했다. 구조화된 확률 모형은 선험 지식을 포함할 수 있는 자연스러운 틀을 제공하며, 신념 전파(BP; belief propagation)는 대뇌피질의 계산 속도에 비견할만한 속도로 작동하는 추론 알고리즘이다. RCN 내의 표상을 선택하기 위해, BP를 이용해 정확한 추론이 가능해야 한다는 제약 조건이 걸려 있는 신경과학 데이터의 계산상 토대를 분석하였다.


결과

RCN은 다양한 종류의 캡차를 매우 적은 학습 데이터만 가지고, 그리고 캡차에 대한 선험적 짐작(heuristics) 없이 효율적으로 깼다. 이와 비교하여, 컨볼루션 신경망은 5만 배 더 큰 학습 데이터를 필요로 하고, 입력에 포함된 노이즈에 더 취약했다. MNIST (변형된 미국 국립표준기술연구소 손글씨 디지털 데이터 집합 modified National Institute of Standards and Technology handwritten digit data set) 분류에서도 비슷한 결과가 나왔다. RCN이 테스트 중에 포함된 노이즈에 훨씬 더 강했던 것이다. 손글씨 글자들을 원샷 학습법(one-shot training)으로 학습한 뒤, 노이즈가 많이 포함된 예제들 및 실제와 유사하게 만들어진 예제들로 테스트해 보니, 생성 모형인 RCN은 신경망 모형들을 뛰어넘었다. RCN은 또한 다양한 지점에서 겹쳐져 있는 글자들 간의 정확한 관계를 찾아야 해낼 수 있는 겹침 추론 과제(occlusion reasoning task)에서도 효율적인 것으로 드러났다. 자연 풍경 속의 텍스트를 해석하는 표준 벤치마크에 대해서도, RCN은 최신 딥러닝 기법들을 300배 이상 적은 양의 학습 데이터만으로도 뛰어넘었다.


결론

이 연구는 신경과학으로부터 얻어낸 귀납적 편향을 포함시킨 구조적 확률 모형이, 견고하고 일반화가 가능하며 높은 데이터 효율로 학습하는 기계 학습 모형을 만들 수 있음을 보여준다. 여기에 더하여, 우리 모형이 매우 적은 학습 데이터만 가지고 문자열 기반 캡차를 효율적으로 깨는 것을 볼 때, 웹사이트들은 기계가 자동으로 작업하는 것을 찾아내기 위해 더 견고한 메커니즘을 찾아야 할 것이다.


+ 최신 글