정말 이 기계 학습 분야는 하루가 멀다 하고 업데이트 되는구나. 이제 캡차까지 깨졌으니 튜링이 생각한 인공지능에 더 가까워지는 건가. 제일 아래에 이 모형이 깬 캡차의 한 가지 예를 그림으로 삽입했다. (그림 윗부분이 잘린 건 내 잘못이 아니고 원래 논문에서부터 그런 거임 -_-;)


높은 데이터 효율성으로 학습되어 문자열 기반 캡차를 깬 생성 시각 모형

https://doi.org/10.1126/science.aag2612


편집자 요약: 컴퓨터인가 인간인가?

우리가 인간임을 증명하는 것은 우리가 인터넷을 하면서 수행하는 여러 활동, 예를 들어 이메일 계정을 만들거나, 온라인 설문조사에 투표하거나, 심지어 과학 논문을 다운로드 받는 활동의 일부가 되었다. 자주 사용되는 테스트 방법은 문자열 기반 캡차(CAPTCHA)로, 뒤틀리거나, 부분적으로 희미하거나, 혹은 복잡한 배경 속에 놓인 문자열의 글자들을 사용자가 해독하도록 하는 기법이다. 이 테스트가 사용되는 이유는, 이 과제가 컴퓨터는 하기 어렵지만 (대부분의) 사람들은 쉽게 할 수 있는 과제이기 때문이다. George et al.은 상대적으로 작은 학습 데이터를 이용해 높은 정확도로 캡차를 풀어낼 수 있는 컴퓨터 시각 계층 모형을 개발했다. 이 결과로부터, 일부 온라인 서비스들이 그래온 것처럼, 문자열 기반 캡차를 피하는 것이 좋은 생각일 수도 있다는 것이 드러난다.


서론

통합, 일반화, 적은 수의 예제로부터 학습하기 등은 인간 지능의 주요 특징들이다. 캡차(CAPTCHA; 컴퓨터와 인간을 구분하는 완전 자동화된 공공 튜링 테스트 Completely Automated Public Turing test to tell Computers and Humans Apart)는 기계가 자동으로 작업하는 것을 막기 위해 웹사이트들이 사용하는 이미지들로, 인간에게는 쉽지만 컴퓨터에게는 어려운 문제들의 일례가 된다. 캡차는 노이즈를 추가하고 글자들을 겹침으로써 기계 분류의 달걀과 닭 문제를 만들어낸다. 즉, 분류 알고리즘은 이미 분할되어 있는 문자들은 잘 인식하지만, 분할을 위해서는 문자를 이해해야 하고, 이 과정에는 경우의 수가 너무 많다. 캡차는 또한 인간의 데이터 효율성을 보여준다. 하나의 특정 캡차 스타일을 풀어내기 위해 최근 사용되는 딥러닝 접근법은 수백만 가지의 예제를 필요로 하나, 인간들은 명시적 학습 없이도 새로운 형식의 캡차를 풀어낼 수 있다.


우리는 시스템 신경생물학에서 영감을 얻어 재귀적 피질 네트워크(RCN; recursive cortical network)를 도입하였다. 이 네트워크는 확률적 생성 시각 모형으로, 메시지 전달 기반 추론이 인식, 분할, 추론을 통합된 방법으로 해내는 기법이다. RCN은 매우 적은 학습 데이터만으로 학습할 수 있고, 원칙상 최신 문자열 기반 캡차의 방어벽을 문자의 생성적 분할을 통해 뚫을 수 있다. 게다가, RCN은 다양한 벤치마크에 대해 딥 신경망를 뛰어 넘는 성능을 보이며, 데이터 효율성에 있어서도 여러 자리수가 더 높다.


원리

최근의 딥 신경망들은 신피질 내의 단순세포와 복합세포의 전방 전달 계층 구조(feed-forward hierarchy)를 모사한다. 신경과학에서는 윤곽 및 표면 표상(contour and surface representations)으로 분리되어 있는 측면 및 되먹임 연결(lateral and feedback connections)이 계산에서 하는 역할을 가정하고, 또한 시각 피질에서 관찰되는 경계 소유권 코딩(border-ownership coding)도 가정하지만, 아직 이러한 요소들은 딥 신경망에서 널리 사용되고 있지 않다. 우리는 이러한 관찰 사실들을 체계적으로 새로운 모형에 포함시킨다면 더 높은 데이터 효율성과 일반성을 얻을 수 있을 것이라 가정했다. 구조화된 확률 모형은 선험 지식을 포함할 수 있는 자연스러운 틀을 제공하며, 신념 전파(BP; belief propagation)는 대뇌피질의 계산 속도에 비견할만한 속도로 작동하는 추론 알고리즘이다. RCN 내의 표상을 선택하기 위해, BP를 이용해 정확한 추론이 가능해야 한다는 제약 조건이 걸려 있는 신경과학 데이터의 계산상 토대를 분석하였다.


결과

RCN은 다양한 종류의 캡차를 매우 적은 학습 데이터만 가지고, 그리고 캡차에 대한 선험적 짐작(heuristics) 없이 효율적으로 깼다. 이와 비교하여, 컨볼루션 신경망은 5만 배 더 큰 학습 데이터를 필요로 하고, 입력에 포함된 노이즈에 더 취약했다. MNIST (변형된 미국 국립표준기술연구소 손글씨 디지털 데이터 집합 modified National Institute of Standards and Technology handwritten digit data set) 분류에서도 비슷한 결과가 나왔다. RCN이 테스트 중에 포함된 노이즈에 훨씬 더 강했던 것이다. 손글씨 글자들을 원샷 학습법(one-shot training)으로 학습한 뒤, 노이즈가 많이 포함된 예제들 및 실제와 유사하게 만들어진 예제들로 테스트해 보니, 생성 모형인 RCN은 신경망 모형들을 뛰어넘었다. RCN은 또한 다양한 지점에서 겹쳐져 있는 글자들 간의 정확한 관계를 찾아야 해낼 수 있는 겹침 추론 과제(occlusion reasoning task)에서도 효율적인 것으로 드러났다. 자연 풍경 속의 텍스트를 해석하는 표준 벤치마크에 대해서도, RCN은 최신 딥러닝 기법들을 300배 이상 적은 양의 학습 데이터만으로도 뛰어넘었다.


결론

이 연구는 신경과학으로부터 얻어낸 귀납적 편향을 포함시킨 구조적 확률 모형이, 견고하고 일반화가 가능하며 높은 데이터 효율로 학습하는 기계 학습 모형을 만들 수 있음을 보여준다. 여기에 더하여, 우리 모형이 매우 적은 학습 데이터만 가지고 문자열 기반 캡차를 효율적으로 깨는 것을 볼 때, 웹사이트들은 기계가 자동으로 작업하는 것을 찾아내기 위해 더 견고한 메커니즘을 찾아야 할 것이다.


이번 주 <네이처 구조 및 분자생물학>에 실린 논문 소개글. 잘 모르는 분야라 초록과 본문 첫 문단만 번역했다.


폴리아데닌 꼬리: 더 길다고 더 좋은 것만은 아니다

https://doi.org/10.1038/nsmb.3509


초록

전령 RNA(mRNA)의 탈아데닐화 반응은 일반적으로 번역 억제 작용과 mRNA 분해 작용과 연관된다. 한 연구에 따르면, 놀랍게도, 많이 발현되는 유전자일수록 더 짧은 폴리아데닌 꼬리를 갖는다는 점이 발견되었고, 또한 폴리아데닌 꼬리가 '가지치기' 될 수 있다는 것이 제안되었는데, 이는 (아마도 폴리아데닌 결합 단백질의 보호 작용으로 인해) 뉴클레오타이드 30개만큼 떨어진 두 개의 봉우리를 갖는 분포가 만들어졌기 때문이다.


본문

대부분의 진핵생물 mRNA는 폴리아데닌 꼬리(poly(A) tail)로 끝나는데, 이 꼬리는 핵 내에서 기본 전사체가 (전사를 마치고) 절단된 후에 덧붙여진다. 이 폴리아데닌 꼬리는 mRNA의 안정성과 번역 두 가지 측면에 있어 모두 중요하며, 그 길이는 탈아데닐화 효소(deadenylase)에 의해 줄어들 수도 있고, 세포질 폴리아데닌 중합 효소(poly(A) polymerase)에 의해 늘어날 수도 있다. 폴리아데닌 꼬리 길이의 변화는 주어진 mRNA와 상호작용할 수 있는 폴리아데닌 결합 단백질(PABP; poly(A)-binding protein)의 개수에 직접적으로 영향을 준다. 이 PABP는 mRNA의 5' 비번역부위(5' UTR; untranslated region) 안의 요소들과 상호작용하여 mRNA의 안정성과 번역을 향상시키는 닫힌 고리 구조를 만든다. 하지만, PABP는 또한 탈아세틸화 복합체와도 상호작용하는데, 이 탈아세틸화 복합체는 폴리아데닌 꼬리를 가지치기하여 mRNA의 안정성을 감소시킨다. 따라서 폴리아데닌 꼬리의 길이와 PABP와의 상호작용은 대부분의 진핵생물 세포에서 매우 중요한 전사 후 조절을 담당한다. Lima et al.은 예쁜꼬마선충(Caenorhabditis elegans)의 전체 유전체에 대해 폴리아데닌 꼬리의 길이를 측정하여, 많이 발현되는 mRNA들은 짧지만 잘 정의된, 가지치기 된 꼬리들을 가지고 있음을 발견했다. 이 결과는 또한 가지치기의 정도와 성질이 폴리아데닌 꼬리의 길이 그 자체에 비해 더 높은 차원의 번역을 제공할 수도 있음을 암시한다. 이 가설은 폴리아데닌 꼬리 길이가 세포 내의 유전자 발현을 조절하는 방법에 대한 관점을 바꾸어 놓을 것이다.

이런 재밌는 논문은 넘길 수 없지. 이번 주 <PLOS 계산 생물학>에 실린 논문이다.


휴대전화 통화 패턴으로부터 도시인의 활동을 추적하기

https://doi.org/10.1371/journal.pcbi.1005824


초록

인간 활동의 시점들은 환경에서 오는 다양한 신호에 의해 제약되는 생체 시계를 따른다. 도시 환경 속에서는 인공 조명과 다양한 사회적 신호들 때문에 태양빛에 의해 주어지는 자연적 제약 조건이 변형되는 경향이 있다. 하지만 어느 정도까지 이런 현상이 나타나는지는 아직 우리가 완전히 알지 못한다. 여기서 우리는 대규모 데이터 분석 기술을 사용하여 대도시에 사는 사람들의 휴대전화 통화 패턴을 연구하였고, 이로부터 도시의 1일 리듬이 시간에 따라 어떻게 변하는지를 추출해냈다. 같은 시간대에 속하는 다양한 도시에 흩어져 사는 약 백만 명의 사용자들의 통화 패턴으로부터, 우리는 통화 활동의 시작점과 종결점이 태양의 동-서 진행과 동기화되어 있음을 보인다. 우리는 또한 사용자들의 통화 패턴의 시작점과 종결점이 계절마다 달라지는 1년 주기의 양상을 따른다는 것과, 그 시점들이 태양 자정(역주: 태양이 지구의 정반대 쪽에 있는 시점)에 의해 제약된다는 것을 보인다. 게다가, 우리는 도시 지역에 사는 사람들의 평균적인 수면 시간이 각 집단의 나이와 성별에 따라 달라지며 이는 생물학적 및 사회적 요소들의 결과임을 보인다.


저자 요약

도시 지역에 사는 인간들에게, 현대의 일과는 오늘날의 사회가 진화해 온 시작점인 고대를 살아가던 사람들의 일과와 매우 다르다. 주로 인공 조명을 쓸 수 있게 되었다는 이유에서, 현대인들은 자연적인 일일 주기를 수정할 수 있게 되었다. 게다가, 직업과 교육에 관련된 규범들과 같은 사회적 규범들은 일일 활동에서 특별한 스케줄을 요구하는 경향이 있다. 하지만, 계절에 따라 달라지는 일출과 일몰 시점과 일광 시간이 어느 정도까지 이러한 활동의 시점에 영향을 주는지는 정확히 알려져 있지 않다. 이 연구에서, 우리는 휴대전화 통화 패턴을 이용해 인간의 휴식 주기가 시간에 따라 어떻게 변화하는지 기술할 수 있는 새로운 방법론을 이용해 도시인들의 휴식 주기가 시작하고 끝나는 시점이 같은 시간대 내에서는 태양의 동-서 진행을 따른다는 것을 보였다. 또한 우리는 낮은 통화 활동 시기와 중간 통화 활동 시기의 시작점은 계절의 변화에 종속되어 태양 자정과 같은 시간 변화를 따른다는 것을 발견했다. 게다가, 도시에 사는 사람들의 낮은 통화 활동 시기로부터 측정한 휴식 주기를 이용해, 우리는 서로 다른 나이와 성별을 가진 집단들 사이에서 유의미한 행동상의 차이를 발견했다. 이러한 발견들로부터, 인간의 일일 리듬의 길이와 시점들은 여전히 태양의 계절적 변화에 민감하게 의존한다는 것을 유추할 수 있다.

오늘은 왠지 일하기 싫은 날이니 번역을 하나 더 해야겠다. <사이언스>에 실린 뉴스 글이다. 원글에 빠진/왜곡된 내용이 많아서 역주를 좀 달았다. (제목 번역이 진짜 어렵네 -_-;; 수동형을 두 개 쓰니 영 마음에 안 드는데 딱히 더 나은 번역이 떠오르지 않는다.)


새로운 영장류가 발견되면서 멸종에 대한 우려가 촉발되었다

https://doi.org/10.1126/science.358.6363.572


요약

인도네시아 수마트라 섬의 고립된 숲에서, 연구자들이 오랑우탄의 새로운 종을 발견했다. 현재 800 마리 미만의 개체가 남아 있는데, 댐 및 도로 건설로 인해 이 영장류의 주된 서식지가 위협받고 있다. 연구자들은 이 오랑우탄이 발견된 타파눌리 군(Tapanuli regencies)의 이름을 따 Pongo tapanuliensis라는 학명을 붙였고, 해부학적, 생태학적, 유전학적 데이터를 조합하여 이 오랑우탄이 널리 받아들여지고 있는 오랑우탄의 두 종과 별개의 종이라는 것을 설득력 있게 보였다. 이번 주 <최신 생물학(Current Biology)>에 실린 논문에서, 저자들은 340만 년 전 수마트라 섬의 (역주: 토바 호를 기준으로) 북쪽에 서식하는 오랑우탄들이 그보다 남쪽에 사는 오랑우탄들과 보르네오의 오랑우탄들로부터 갈라져 나왔다고 결론 짓는다. 그 이후, 약 674,000년 전, 수마트라 섬의 남쪽 군집과 보르네오의 군집이 갈라졌다. (역주: P. tapanuliensis는 수마트라 섬의 남쪽 군집에 해당한다.) 환경보호 활동가들은 1929년 보노보 원숭이 이후 최초로 과학계에 알려진 대형 영장류의 발견이 오랑우탄들이 처해 있는 곤경에 대한 관심을 끌어오는 데 도움을 주기를 기대하고 있다. P. tapanuliensis가 살고 있는 숲의 대부분은 벌목이 금지되어 있지만, 최고의 서식지는 보호받지 못하고 있다. 환경보호 단체들은 지역 사회와 연계하여 불법 벌목과 사냥을 줄이고자 한다.


<네이처>는 오랜만이네. 언어와 진화라니, 내가 좋아하는 두 주제가 다 있다! 그런데 이걸 생물학 카테고리에 넣어야 하나;;;


/* 시작하기 전에 번역에 대해 한 마디 하자면, drift는 목적 없이 떠다닌다는 의미로 일상 용어로는 부유(浮遊) 혹은 표류로 번역되는데, 유독 진화생물학에서는 genetic drift를 "유전자 부동(浮動)"이라고 번역한다. 아마도 일본어의 영향[1]으로 보이는데, 우리말로는 움직이지 않는다는 不動과 헷갈릴 소지가 있어서 별로 바람직한 번역어는 아니라고 생각한다. 더 나은 번역은 "유전적 표류" 정도가 될 것이다. 오늘 초록에서는 "drift"라는 단어가 두 가지 용법으로 쓰이는데, "genetic drift"는 기존의 번역어를 존중하여 "유전자 부동"으로 번역했지만, "stochastic drift"는 "확률 표류"로 번역했다. */


언어 변화의 진화적 동력들을 검출하다

https://doi.org/10.1038/nature24455


초록

언어와 유전자는 모두 그 형태를 복제할 때 변이될 가능성을 안고 세대를 거쳐 전파되면서 진화한다. 유전자 빈도수가 자연 선택이 일어나지 않는 상황에서도 유전자 부동에 의해 임의로 변화한다는 이해는 진화생물학의 주요한 진보였다. 확률 표류는 언어적 형태가 화자 사이에서 복제될 때 나타나는 임의성을 고려하면 언어에서도 일어나야 한다. 이 연구에서 우리는 언어 진화에서 선택에 대한 확률 표류의 크기를 정량화하였다. 우리는 12세기에서 21세기에 만들어진 텍스트에 주석을 달아 분류한 큰 말뭉치에서 뽑아낸 시계열 데이터를 이용하여 영어의 유명한 문법적 변화 세 가지, 즉 과거형 동사의 규칙화, 우언법(迂言法) 'do'의 도입, 동사 부정법의 변천을 분석하였다. 어떤 경우에는 선택이 확률 표류를 압도하는 것으로 나왔지만 다른 경우에는 그렇지 않았다. 구체적으로, 일부 과거형 동사에 대해서는 불규칙 형태에 대한 선택을 관찰할 수 있었고, 이는 아마도 시간에 따라 운율 양식의 선호도가 변화했기 때문으로 보인다. 우리는 흔히 쓰이지 않는 단어들에 대해서는 확률 표류가 더 강력함을 보였고, 이로써 왜 흔히 쓰이지 않는 단어들이 자주 쓰이는 단어들에 비해 더 잘 대체되는지를 설명할 수 있을 것이다. 이 연구는 언어 변화의 선택 이론을 영 모형(null model)에 대해 시험하는 방법론을 제시하며, 언어 진화에 있어 그간 잘 인지되지 않던 확률성의 역할을 드러낸다.

+ 최신 글