이번 주에 <이라이프>에 출판된 논문 중 좋은 글을 하나 발견하여 서론(Introduction)을 번역해 본다. (사실 초록이 워낙 인상적이라 읽기 시작했다...)


이론적 결과도 '결과'인가?

https://doi.org/10.7554/eLife.40018


초록

그렇다.


서론

<이라이프>에서 받은 결정 편지는 매우 호의적이었으나(우리 논문이 출판될 것은 확실했다), 리뷰어 중 한 명은 우리가 논문에서 실험 생물학과 물리학적 계산을 결합한 방식을 확실히 좋아하지 않았다. "데이터를 있는 그대로 기술하고 그 함의점을 도출해야 하며, 모델링은 데이터로부터 직접 끌어낸 함의점을 정량적으로 확인하는 정도로 강등시켜야(relegate) 한다."


그리고 이건 유일한 사례가 아니었다. 다른 논문의 리뷰어는 이렇게 말했다. "그 대신, 저자들은 데이터가 스스로 말하게 하고, 복잡한 이론 분석은 나중으로, 아마 "논의(Discussion)" 절로 미뤄둬야 한다." 많은 동료들이 이론과 실험을 섞은 논문들에 대해 동일한 반응을 겪어 왔다. 우리가 뭘 잘못한 것인가? 어째서 (이 리뷰어들의 말에 따르면) 관찰 결과와 이론을 "결과" 절에서 주고 받는 대화로 표현하는 것이 옳지 않은 일인가?


이 표현들("강등"이라니!)에 어리둥절해지면서도, 이들은 내가 일부 생물학자들과 가졌던 오랜 경험과 공명한다. 즉, 그들은 이론의 가치를 물리학자들이 이해하는 방식과 전혀 다른 방식으로 바라본다. 많은 생물학자들에게, 이론적 결과는 단순한 '결과'가 아니다. 내 생각에, 대신 많은 이들에게 이론적 결과는 그저 일종의 의견으로, 그 자체로는 의미가 없다. 본질적으로, 이론적 결과는 새로운 것을 전혀 더하지 않는다. 따라서 고전적인 결과/논의 이분법의 믿음 속에서 이론(혹은 흔히 부르듯 '모델링')은 기껏해야 두 번째, 아니면 세 번째 부품일 뿐이다.


반면, 물리학자들은 수학적 모형 속에서 생각하는 법을 익힌다. 우리가 실험을 하든 이론을 하든, 조화 진동자, 마구잡이 걷기, 이상화된 전기 회로 등이 우리 공구 상자의 공구들로 활약한다. 우리는 이들을 풀 수 있는 예제, 즉 잘 정의된 가정 속에서 정확한 결과를 알 수 있으며, 결과가 모형 속 다양한 매개변수에 어떻게 의존하는지 해석할 수 있는 예제로 사용한다. 이 접근법을 통해 우리는 어떤 상황 속에서도 무엇이 중요하고 무엇이 중요하지 않은지 평가할 수 있다. 모형들은 문제에 대해 생각하는 것을 도와주기도 한다. "만약 이것이 바닥에 깔린 물리학이라면, A는 B에 따라 2차식으로 변할 것이다..." "이 가정 하에서, 데이터는 다음과 같이 감소할 것이다..." 만약 옳지 않은 결과를 찾아냈다면, 다음과 같이 쓸 수도 있을 것이다. "여기서 나는 이 주장들이 물리학의 기본 법칙과 모순된다는 것을 보일 것이다."


이론의 역할은 또한 예측과 깊이 관련되어 있다. 비록 내가 "실험 없이 예측이 무슨 쓸모가 있나?"라고 말할 생물학자들을 알기는 하지만, 물리학자들은 예측의 가치를 인정한다. 디랙의 반입자 예측과 아인슈타인의 태양빛 굴절 예측에서부터 많은 사람들이 예측한 힉스 입자의 존재에 이르기까지, 물리학에서 예측은 전설적인 존재이다. 우리는 예측을 실험에 대한 동기이자 학문을 전진시키는 동인으로 바라본다. 물론, 종종 예측이 틀릴 때도 있지만, 그것은 대개 과학이 작동하는 방식이다. 심지어 이론 연구가 예측의 형태를 그 자체로는 가지고 있지 않을지라도, 여전히 그 이론을 염두에 두고 실험을 설계하는 데에 유용할 수 있다. 일례로, Bialek (2018)에서는 레일리의 청각 연구부터 왓슨과 크릭에 이르기까지 생물학에서 이론이 수행한 역할에 대해 수많은 역사적 예제를 제시하고 있다.


본 논문에서 나는 이론이 '결과'가 아니라는 관점에 반대를 표현하고자 한다. 나는 <이라이프>와 다른 생물학 학술지에 출판되는 논문들 속에서 당당하게 수학적 표현을 포함시켜야 한다고 주장한다. 실험과 이론 결과를 맞춰 나감으로써 하나의 이야기를 들려줄 수 있고, 나는 이것이 훨씬 더 흥미롭고 잘 읽히는 논문들을 만들어낸다고 확신한다. 또한 이론과 실험을 왔다갔다 하는 것이 과학적 방법 측면에서도 더 정직한 것이다.


독자들은 물리학 학술지에 출판되는 논문들 속에서, 생물학적 정보, 배경, 결과가 자주 포함된다는 것을 듣고 흥미롭게 생각할지도 모르겠다. 하지만 항상 그래왔던 것은 아니었다. 나는 수십년 전 고에너지 물리학자인 동료가 내 책상 위에서 점균류 Dictyostelium discoideum의 패턴 형성에 대한 논문 원고를 보고 던진 질문을 또렷이 기억한다. "왜 물리학자가 그렇게 터무니없는 걸 연구하죠?" 하지만 이제 많은 물리학자들이 그런 터무니없는 연구를 하고 있고, 많은 물리학 학술지들은 cAMP 신호 전달, 나선형 파동, 주화성(走化性; chemotaxis) 등에 대한 논의로 가득차 있다. 만약 우리가 학제간 연구를 진지하게 받아들인다면, 나는 생물학 논문들 안에 이론을 위한 중요한 자리가 있어야 한다고 생각한다. 이론 논문의 '결과' 절 뿐 아니라 이론과 실험을 결합한 논문의 '결과' 절에도 말이다.


이건 새로운 일이 아니다. 만약 아직까지 읽어본 적이 없다면, 호지킨과 헉슬리의 유명한 1952년 논문을 읽고 실험과 이론이 어떻게 결합되어 있는지 살펴볼 것을 강력하게 추천한다. 이론은 논의 절, 혹은 심지어 보충 자료로 강등되지 않았고, 대신 마치 가장 자연스러운 일을 하는 것처럼 논문의 본문에 당당히 포함되어 있다. 그리고 이 논문은 <생리학 저널(Journal of Physiology)>에 실렸다. 동일한 구조는 생화학 학술지에 (독일어로) 출판된 미카엘리스와 멘텐의 논문(1913)에서도 발견된다. 만약 이것이 백 년 전에 적절한 일이었다면, 어째서 이제는 수학적 모형들의 세부 사항들이 전부 논문 뒷쪽으로 밀려나야 하는가?


많은 독자들은 내가 생체 시스템의 정량적 묘사에 대해 제기하는 문제가 생물학자와 물리학자의 고정관념 간의 긴장 관계와 강하게 결부되어 있음을 알아차렸을 것이다. 생물학자들은 주어진 시스템의 모든 복잡성을 다 포함하려 하는 반면, 물리학자들은 일반성과 최소성을 추구한다. 최근의 다른 논평들에서도 강조되고 있듯 생물학 내에서 이론의 역할은 점차 증가하고 있으며, 이러한 발전 속에서 물리학-생물학 국경의 양편에 있는 과학자들을 훈련하는 새로운 방식이 필요하다. 데이터를 이해하는 방식에 대해 물리학자들이 어떻게 생각하는지 생물학 커뮤니티에 구체적인 예제를 제시하는 일에는 상대적으로 적은 관심이 주어졌고, 이 논문의 한 가지 목표는 이 빈틈을 메우는 것이다.


전체 커뮤니티를 대표하여 어떤 주장을 하려는 것이 위험하다는 것을 알면서도, 이 아래에서 나는 (최소한 일부) 물리학자들이 생물학의 어디에서나 나타나는 유명한 현상을 어떻게 묘사할 것인지에 대한 예제를 설명하고자 한다. 이 현상은 세포 수용기의 작동에서부터, 박테리아의 주화성, 활동 전위의 전파, 그리고 형광 광표백 기법(fluorescence recovery after photobleaching; FRAP)에 이르기까지 나타난다. 바로 확산 현상이다. 시적 허용을 이용하여, 우리가 확산 방정식이나 픽의 법칙(Fick's law)이 알려져 있지 않던 시점에 있다고 상상하자. 따라서 아래에 주어지는 실험적 관찰과 이론적 분석은 모두 새로운 것이고 '결과' 절에 포함될 가치가 있는 것이다.


나는 데이터와 이론이 (바라건대) 커뮤니티 내에서 널리 이해될 수 있는 간결한 표현 속에서 통합될 수 있는 다양한 방법을 보여주기 위해 '결과' 절의 두 가지 버전을 준비했다. 첫 번째 버전은 '미시적' 모형을 사용하는데, 이 모형은 생체 시스템을 간결하게 묘사하되 거시적인 규모에서 관찰되는 거동을 묘사하는 데 필요한 필수 요소들은 다 포함한다. 미시적 매개변수들이 거시적 답에 포함되는 방식은 일반적인 것(혹은 물리학자들의 표현으로 보편적인(universal) 것)으로 드러날 것이고, 이것이 한 가지 중요한 교훈이다. 두 번째 버전은, 아마 조금 더 어려울 텐데, '차원 분석'을 이용하는 것으로 이는 자연 현상을 분석하는 가장 강력한 방법 중 하나이다. 여기서, 다양한 양들 사이의 관계는 이들이 측정되는 단위(질량, 길이, 시간, 전하 등)를 살펴봄으로써 추론된다. 아주 오래 전부터, 구체적으로는 맥스웰의 1869년 연구에서부터 사용된 기법으로서, 이 기법은 종종 문제에 대한 정확한 답을 주는데, 그 오차는 흔히 쓰는 표현대로, 많아야 두 배 차이(factors of two)이다.


더 궁금하면 논문 ㄱㄱ

신기한 연구라서 번역. 우리가 눈을 움직일 때 귀가 거기에 맞춰 고막을 준비시킨다는 연구다. 생명체는 참 신기해!


눈이 움직일 때 고막도 움직인다: 청각 역학에 미치는 다중 감각 효과

https://doi.org/10.1073/pnas.1717948115


중요성

지엽 청각계(peripheral hearing system)는 여러 개의 운동 메커니즘을 가지고 있어 뇌가 청각 변환 과정을 수정할 수 있도록 한다. 중이(中耳) 근육이나 외유모세포의 움직임 혹은 긴장은 고막의 움직임을 변화시키고, 이에 따라 외이도에 설치된 마이크로 검출할 수 있는 소리를 (예를 들어 귀 음향 방사로) 생산해낸다. 이 논문에서 우리는 뇌가 이런 시스템을 통해 생산하는 고막 운동의 한 가지 형태를 보고한다. 이는 안구의 도약 운동(saccade)의 방향 및 크기와 연동되어 같이 변화하는 진동 운동이다. 이 관찰 결과로부터 우리는 시각과 연관된 과정이 청각의 첫 단계를 조절한다는 것을 유추할 수 있다. 특별히, 이 안구 운동과 연관된 고막 진동은, 눈과 귀 사이의 공간적 관계의 변화에도 불구하고 뇌가 시야와 소리를 연결하는 것을 도와줄 가능성이 있다.


초록

시각과 청각계와 같은 감각 경로들 사이의 상호작용은 뇌 안에서 일어나는 것으로 알려져 있는데, 어디서 처음으로 발생하는지는 불분명하다. 이 논문에서 우리는 고막에서 나타나는 다중 모드 상호작용을 보인다. 시각적 목표에 대한 안구 도약 운동 과제를 수행하는 사람(n = 실험체 16명의 19개 귀)과 원숭이(n = 실험체 3마리의 5개 귀)를 대상으로 외이도 마이크 측정을 수행한 결과, 고막은 눈의 운동과 연결되어 움직이는 것으로 나타났다. 고막의 운동은 진동 운동이었고, 빠르면 인간의 경우 안구 도약이 일어나기 10 ms 전부터, 원숭이의 경우 안구 도약과 동시에 시작되었다. 우리가 안구 운동 연관 고막 진동(EMREO; eye movement-related eardrum oscillation)이라 이름 붙인 이 고막 운동은 청각 자극 없이 일어났다. EMREO의 진폭과 위상은 안구 도약 운동의 방향과 수평 진폭에 따라 달라졌다. EMREO는 안구 도약 운동 내내 유지되었고, 그 후에도 여러 주기를 안정적으로 진행하였다. 우리는 EMREO의 기저 메커니즘이 안구 운동에 따라 양쪽 귀에 신호를 보내, 뇌가 눈을 움직이면서 시각과 청각 자극의 위치 간 관계를 판단할 수 있도록 도와준다는 가설을 논의한다.

네이처 뉴스를 읽다가 무심결에 지나친 논문을 다시 살펴 보았다. 학부 때 상대론적 양자역학 연구실에서 배웠던 이야기들이 새록새록 떠오른다. <네이처> 뉴스와 더불어 해당 논문의 초록을 번역하였고, APS Physics에 실린 좀 더 상세한 뉴스에서 이해를 도울 만한 그림을 따왔다.


<네이처> 알려진 제일 무거운 원소의 전자들은 틀을 깬다

https://www.nature.com/articles/d41586-018-01674-2


전자들은 일반적으로 구별된 껍질 안에서 원자핵 주위를 돌지만, 계산에 따르면 지금까지 발견된 가장 무거운 원소인 오가네손의 외각 전자들은 그 대신 기체 형태로 핵 주위를 돌지도 모른다.


오가네손은 빠르게 붕괴하기에 실험적으로 측정하기가 어렵다. 그 대신, 뉴질랜드의 매시 대학교 오클랜드 캠퍼스의 Peter Schwerdtfeger와 동료들은 오가네손 핵 주위에 있는 전자들의 에너지 준위를 계산했다. 더 높은 정확도를 얻기 위해, 연구진은 '상대론적 효과'로 알려진 요소를 고려하였다. 이 요소로 인해 이 원자의 높은 핵 전하가 더 가벼운 원소들에 비해 더 큰 영향을 미치게 된다.


연구진은 오가네손 안에서는 최외각 전자들의 궤도가 구별되지 않아 바깥 층이 거의 전자 기체처럼 된다는 것을 발견했다. 오가네손은 비활성 기체로 구분되고 있지만, 이 연구에 따르면 오가네손이 해당 족의 다른 구성원들과는 다르게 행동할 수 있으며, 심지어 상온에서 고체일 수도 있다.



<피지컬 리뷰 레터스> 오가네손의 전자와 핵자 국소화 함수들: 토머스-페르미 한계에 이르다

https://doi.org/10.1103/PhysRevLett.120.053001


초록

페르미온 국소화 함수들은 지금까지 발견된 가장 무거운 원소인 초중량 원소 오가네손(Og; oganesson)의 전자 및 핵자 껍질 구조 효과를 논하는데 사용되고 있다. 7p 전자 껍질의 스핀-궤도 갈라짐은 매우 크기에(~ 10 eV), Og는 더 가벼운 비활성 기체 원자들과 비교할 때, 꽤 큰 쌍극자 분극도와 더불어 원자가 영역에서 균일 기체와 유사한 거동을 보일 것으로 예상된다. Og의 핵자 국소성은 또한 원자가 영역에서 토머스-페르미 기체 거동으로의 전이를 겪을 것으로 예측되었다. 특별히 중성자에서 강하게 나타나는 이 효과는 단일 입자 오비탈의 높은 밀도에서 기인한다.



APS Physics 가장 무거운 원소는 특이한 껍질 구조를 가지고 있다

https://physics.aps.org/articles/v11/10


그림 1 오가네손은 주기율표에 가장 최근에 추가된 원소 중 하나이다. 이 무거운 원소(Og, 오른쪽 아래)의 전자 구조를 이론적으로 계산해 보니 전자들의 분포가 매끄럽다는 것이 알려졌다. 이는 상호작용하지 않는 입자들로 이루어진 기체에서 나타나는 거동이다. 이 균일한 거동은 더 가벼운 원소들인 제논(Xe, 오른쪽 위)이나 라돈(Rn, 오른쪽 중간)에서 관찰되는 껍질 구조와 대조를 이룬다.

오랜만의 포스팅. 최근 한동안 나도 독감 때문에 고생했어서 남 이야기가 아니다.


대학교 공동체에 속한 계절성 독감 감염자의 날숨 속에 있는 감염성 바이러스

https://doi.org/10.1073/pnas.1716561115


중요성

인간에 대해서는 독감 바이러스를 에어로졸 형태로 발산하는 사례에 대한 데이터가 없었기에 공기 중 전염의 중요성에 대한 논쟁이 지속되었다. 우리는 인간이 감염성 에어로졸을 생산한다는 결정적인 증거와 더불어 전염과 공중 위생 개입에 대한 수학적 모형들을 향상시킬 수 있는 정량적인 데이터를 제시한다. 우리는 재채기는 독감 바이러스의 에어로졸화에서 흔치 않을 뿐더러 중요하지도 않음을 보인다. (기침 역시 필요하지 않다.) 우리는 상기도 및 하기도 감염은 서로 독립적이며 날숨에 포함된 미세 에어로졸 입자는 허파 감염을 나타낸다는 것을 찾았으며, 이 발견으로 독감 감염 및 전염에 관한 인간 생물학의 더 깊은 이해가 가능해졌다. 우리는 또한 백신을 반복해서 맞는 것과 바이러스 에어로졸의 생성 증가 사이의 상관성을 관찰했는데, 이는 우리 방법론의 위력을 보여주는 한편, 이 상관성은 더 확인할 필요가 있다.


초록

날숨 속에 포함된 독감 바이러스의 양과 전염성에 대해서는 알려진 것이 거의 없다. 이로 인해 공기 중 독감 전염의 중요성에는 불확실성이 존재했다. 우리는 급성 호흡기 질환에 걸린 355명의 자원자를 받아 그 중 독감 감염이 확인된 142개의 증례를 보고한다. 이들로부터 증상이 나타난 뒤 1-3일 동안 코인두(咽頭) 샘플과 30분의 숨 샘플을 채취하였다. (5-µm보다 크면 굵은 입자로, 작으면 미세 입자로 분류하였다.) 우리는 모든 샘플에 대해 바이러스 RNA 복제본의 수를 측정하고, 코인두를 채취한 면봉과 미세 에어로졸 입자를 배양시켰다. 미세 에어로졸 입자로부터 감염성 바이러스를 복원한 것은 52번(39%), 적절한 배양액에 둔 코인두 면봉에서 감염성 바이러스를 복원한 것은 150번(89%)이었다. RNA 복제본의 수의 기하 평균값은 30분 미세 입자의 경우 3.8 × 104, 30분 굵은 입자의 경우 1.2 × 104, 그리고 코인두 면봉의 경우 8.2 × 108였다. 미세 에어로졸 입자와 굵은 에어로졸 입자에서 나온 바이러스 RNA는 체질량지수(BMI; body mass index) 및 기침의 횟수와 양의 상관 관계를 보였고, 조절된 모형 하에서 증상이 나타난 이래 지나간 일수와 음의 상관 관계를 보였다. 미세 에어로졸 입자의 바이러스 RNA는 또한 이번 및 지난 계절에 독감 백신을 맞았는지의 여부와 양의 상관 관계를 보였다. 코인두 면봉에서 나온 바이러스 RNA는 상기도 증상들과 양의 상관 관계를 보였고 나이와는 음의 상관 관계를 보였지만, 미세 에어로졸 입자와 굵은 에어로졸 입자에서 나온 바이러스 RNA 혹은 그들의 예측 변수와는 유의미한 상관 관계를 보이지 않았다. 재채기는 드문 현상이고, 재채기와 기침은 감염성 에어로졸을 만드는 것에 꼭 필요하지 않았다. 우리의 관찰 사실들은 상기도와 하기도의 독감 감염이 구분되어 있으며 서로 독립적임을 암시한다.

베이커 선생은 지구 정복이 꿈인가 보다. 이제 심지어 바이러스의 프로토타입을 만드는 데까지 성공! 짤막하게 초록을 번역하고 조립체가 어떻게 조립되는지 보여주는 그림 1B를 첨부한다.


스스로의 RNA 유전체를 포함할 수 있는 설계된 단백질 조립체의 진화

https://doi.org/10.1038/nature25157


초록

복잡한 생화학 환경 속에서 진화하기 위해 겪는 어려움으로는 유전자형과 표현형을 연결하는 문제와 유전 물질을 보호하는 문제가 있는데, 생체 시스템들은 핵산을 단단히 포장함으로써 이 문제들을 우아하게 풀어낸다. 가장 간단한 예로서, 바이러스는 껍질 단백질(capsid)로 자신들의 유전체를 싼다. 비록 자연에 존재하는 이러한 시스템을 변형하여 친화성(tropism)을 바꾸거나 특정 단백질 및 펩타이드를 만들게 하는 연구들이 진행되기는 했으나, 모듈성을 포기하고 효율성을 추구해 온 수십억 년의 진화로 인해 바이러스 껍질 단백질을 고친다는 것은 쉽지 않다. 바이러스에서 기인하지 않은 단백질로 만들어진 합성 시스템은, 바이러스와 연관된 안전상의 위험 및 조작의 어려움을 피하는 한편, 약물 전달 및 다른 생체의학 응용 분야에 필요한 성질을 진화시키는 '빈 서판'을 제공할 수 있다. 이 연구에서 우리는 20면체 단백질 조립체이자 내부 막이 양전하를 띠어 자신의 전체 mRNA 유전체를 포장할 수 있는 핵 껍질 단백질(nucleocapsid)을 계산으로 설계하고 합성하였다. 우리는 이 핵 껍질 단백질이 바이러스와 유사한 성질을 진화로 얻을 수 있는지 확인하기 위해 대장균을 발현 숙주로 삼아 다양한 개체군을 만들었다. 몇 세대 진화를 시키자, 유전체 포장 효율(133배 이상), 혈액 속의 안정성(주사 후 6시간 뒤에 포장된 RNA가 살아남은 비율이 3.7% 미만에서 71%로), 체내(in vivo) 순환 시간(5분 미만에서 약 4.5 시간으로)이 눈에 띄게 향상되었다. 진화의 결과로 만들어진 합성 핵 껍질 단백질은 11개의 20면체 조립체 당 하나 꼴로 전체 RNA 유전체를 포함하는데, 이 비율은 재조합 아데노 부속 바이러스(adeno-associated virus) 벡터의 최고 기록과 유사하다. 이 결과는 단백질 조립체가 바이러스와 유사한 유전체 포장 및 보호 능력을 획득할 수 있는 단순한 진화 경로가 존재함을 보여준다. 그간 약물 전달 및 백신에의 응용을 위해 더 안전하고 효율적으로 바이러스를 조작하기 위한 '하향성' 접근법에 많은 노력을 들여 왔지만, 계산을 통해 합성 나노물질을 설계하고 진화를 통해 그들을 최적화할 수 있는 기법의 개발로 이제 프로그램성과 조작성에 많은 장점이 있는, 이에 보완적인 '상향성' 접근법이 가능해졌다.


정말 이 기계 학습 분야는 하루가 멀다 하고 업데이트 되는구나. 이제 캡차까지 깨졌으니 튜링이 생각한 인공지능에 더 가까워지는 건가. 제일 아래에 이 모형이 깬 캡차의 한 가지 예를 그림으로 삽입했다. (그림 윗부분이 잘린 건 내 잘못이 아니고 원래 논문에서부터 그런 거임 -_-;)


높은 데이터 효율성으로 학습되어 문자열 기반 캡차를 깬 생성 시각 모형

https://doi.org/10.1126/science.aag2612


편집자 요약: 컴퓨터인가 인간인가?

우리가 인간임을 증명하는 것은 우리가 인터넷을 하면서 수행하는 여러 활동, 예를 들어 이메일 계정을 만들거나, 온라인 설문조사에 투표하거나, 심지어 과학 논문을 다운로드 받는 활동의 일부가 되었다. 자주 사용되는 테스트 방법은 문자열 기반 캡차(CAPTCHA)로, 뒤틀리거나, 부분적으로 희미하거나, 혹은 복잡한 배경 속에 놓인 문자열의 글자들을 사용자가 해독하도록 하는 기법이다. 이 테스트가 사용되는 이유는, 이 과제가 컴퓨터는 하기 어렵지만 (대부분의) 사람들은 쉽게 할 수 있는 과제이기 때문이다. George et al.은 상대적으로 작은 학습 데이터를 이용해 높은 정확도로 캡차를 풀어낼 수 있는 컴퓨터 시각 계층 모형을 개발했다. 이 결과로부터, 일부 온라인 서비스들이 그래온 것처럼, 문자열 기반 캡차를 피하는 것이 좋은 생각일 수도 있다는 것이 드러난다.


서론

통합, 일반화, 적은 수의 예제로부터 학습하기 등은 인간 지능의 주요 특징들이다. 캡차(CAPTCHA; 컴퓨터와 인간을 구분하는 완전 자동화된 공공 튜링 테스트 Completely Automated Public Turing test to tell Computers and Humans Apart)는 기계가 자동으로 작업하는 것을 막기 위해 웹사이트들이 사용하는 이미지들로, 인간에게는 쉽지만 컴퓨터에게는 어려운 문제들의 일례가 된다. 캡차는 노이즈를 추가하고 글자들을 겹침으로써 기계 분류의 달걀과 닭 문제를 만들어낸다. 즉, 분류 알고리즘은 이미 분할되어 있는 문자들은 잘 인식하지만, 분할을 위해서는 문자를 이해해야 하고, 이 과정에는 경우의 수가 너무 많다. 캡차는 또한 인간의 데이터 효율성을 보여준다. 하나의 특정 캡차 스타일을 풀어내기 위해 최근 사용되는 딥러닝 접근법은 수백만 가지의 예제를 필요로 하나, 인간들은 명시적 학습 없이도 새로운 형식의 캡차를 풀어낼 수 있다.


우리는 시스템 신경생물학에서 영감을 얻어 재귀적 피질 네트워크(RCN; recursive cortical network)를 도입하였다. 이 네트워크는 확률적 생성 시각 모형으로, 메시지 전달 기반 추론이 인식, 분할, 추론을 통합된 방법으로 해내는 기법이다. RCN은 매우 적은 학습 데이터만으로 학습할 수 있고, 원칙상 최신 문자열 기반 캡차의 방어벽을 문자의 생성적 분할을 통해 뚫을 수 있다. 게다가, RCN은 다양한 벤치마크에 대해 딥 신경망를 뛰어 넘는 성능을 보이며, 데이터 효율성에 있어서도 여러 자리수가 더 높다.


원리

최근의 딥 신경망들은 신피질 내의 단순세포와 복합세포의 전방 전달 계층 구조(feed-forward hierarchy)를 모사한다. 신경과학에서는 윤곽 및 표면 표상(contour and surface representations)으로 분리되어 있는 측면 및 되먹임 연결(lateral and feedback connections)이 계산에서 하는 역할을 가정하고, 또한 시각 피질에서 관찰되는 경계 소유권 코딩(border-ownership coding)도 가정하지만, 아직 이러한 요소들은 딥 신경망에서 널리 사용되고 있지 않다. 우리는 이러한 관찰 사실들을 체계적으로 새로운 모형에 포함시킨다면 더 높은 데이터 효율성과 일반성을 얻을 수 있을 것이라 가정했다. 구조화된 확률 모형은 선험 지식을 포함할 수 있는 자연스러운 틀을 제공하며, 신념 전파(BP; belief propagation)는 대뇌피질의 계산 속도에 비견할만한 속도로 작동하는 추론 알고리즘이다. RCN 내의 표상을 선택하기 위해, BP를 이용해 정확한 추론이 가능해야 한다는 제약 조건이 걸려 있는 신경과학 데이터의 계산상 토대를 분석하였다.


결과

RCN은 다양한 종류의 캡차를 매우 적은 학습 데이터만 가지고, 그리고 캡차에 대한 선험적 짐작(heuristics) 없이 효율적으로 깼다. 이와 비교하여, 컨볼루션 신경망은 5만 배 더 큰 학습 데이터를 필요로 하고, 입력에 포함된 노이즈에 더 취약했다. MNIST (변형된 미국 국립표준기술연구소 손글씨 디지털 데이터 집합 modified National Institute of Standards and Technology handwritten digit data set) 분류에서도 비슷한 결과가 나왔다. RCN이 테스트 중에 포함된 노이즈에 훨씬 더 강했던 것이다. 손글씨 글자들을 원샷 학습법(one-shot training)으로 학습한 뒤, 노이즈가 많이 포함된 예제들 및 실제와 유사하게 만들어진 예제들로 테스트해 보니, 생성 모형인 RCN은 신경망 모형들을 뛰어넘었다. RCN은 또한 다양한 지점에서 겹쳐져 있는 글자들 간의 정확한 관계를 찾아야 해낼 수 있는 겹침 추론 과제(occlusion reasoning task)에서도 효율적인 것으로 드러났다. 자연 풍경 속의 텍스트를 해석하는 표준 벤치마크에 대해서도, RCN은 최신 딥러닝 기법들을 300배 이상 적은 양의 학습 데이터만으로도 뛰어넘었다.


결론

이 연구는 신경과학으로부터 얻어낸 귀납적 편향을 포함시킨 구조적 확률 모형이, 견고하고 일반화가 가능하며 높은 데이터 효율로 학습하는 기계 학습 모형을 만들 수 있음을 보여준다. 여기에 더하여, 우리 모형이 매우 적은 학습 데이터만 가지고 문자열 기반 캡차를 효율적으로 깨는 것을 볼 때, 웹사이트들은 기계가 자동으로 작업하는 것을 찾아내기 위해 더 견고한 메커니즘을 찾아야 할 것이다.


이번 주 <네이처 구조 및 분자생물학>에 실린 논문 소개글. 잘 모르는 분야라 초록과 본문 첫 문단만 번역했다.


폴리아데닌 꼬리: 더 길다고 더 좋은 것만은 아니다

https://doi.org/10.1038/nsmb.3509


초록

전령 RNA(mRNA)의 탈아데닐화 반응은 일반적으로 번역 억제 작용과 mRNA 분해 작용과 연관된다. 한 연구에 따르면, 놀랍게도, 많이 발현되는 유전자일수록 더 짧은 폴리아데닌 꼬리를 갖는다는 점이 발견되었고, 또한 폴리아데닌 꼬리가 '가지치기' 될 수 있다는 것이 제안되었는데, 이는 (아마도 폴리아데닌 결합 단백질의 보호 작용으로 인해) 뉴클레오타이드 30개만큼 떨어진 두 개의 봉우리를 갖는 분포가 만들어졌기 때문이다.


본문

대부분의 진핵생물 mRNA는 폴리아데닌 꼬리(poly(A) tail)로 끝나는데, 이 꼬리는 핵 내에서 기본 전사체가 (전사를 마치고) 절단된 후에 덧붙여진다. 이 폴리아데닌 꼬리는 mRNA의 안정성과 번역 두 가지 측면에 있어 모두 중요하며, 그 길이는 탈아데닐화 효소(deadenylase)에 의해 줄어들 수도 있고, 세포질 폴리아데닌 중합 효소(poly(A) polymerase)에 의해 늘어날 수도 있다. 폴리아데닌 꼬리 길이의 변화는 주어진 mRNA와 상호작용할 수 있는 폴리아데닌 결합 단백질(PABP; poly(A)-binding protein)의 개수에 직접적으로 영향을 준다. 이 PABP는 mRNA의 5' 비번역부위(5' UTR; untranslated region) 안의 요소들과 상호작용하여 mRNA의 안정성과 번역을 향상시키는 닫힌 고리 구조를 만든다. 하지만, PABP는 또한 탈아세틸화 복합체와도 상호작용하는데, 이 탈아세틸화 복합체는 폴리아데닌 꼬리를 가지치기하여 mRNA의 안정성을 감소시킨다. 따라서 폴리아데닌 꼬리의 길이와 PABP와의 상호작용은 대부분의 진핵생물 세포에서 매우 중요한 전사 후 조절을 담당한다. Lima et al.은 예쁜꼬마선충(Caenorhabditis elegans)의 전체 유전체에 대해 폴리아데닌 꼬리의 길이를 측정하여, 많이 발현되는 mRNA들은 짧지만 잘 정의된, 가지치기 된 꼬리들을 가지고 있음을 발견했다. 이 결과는 또한 가지치기의 정도와 성질이 폴리아데닌 꼬리의 길이 그 자체에 비해 더 높은 차원의 번역을 제공할 수도 있음을 암시한다. 이 가설은 폴리아데닌 꼬리 길이가 세포 내의 유전자 발현을 조절하는 방법에 대한 관점을 바꾸어 놓을 것이다.

이런 재밌는 논문은 넘길 수 없지. 이번 주 <PLOS 계산 생물학>에 실린 논문이다.


휴대전화 통화 패턴으로부터 도시인의 활동을 추적하기

https://doi.org/10.1371/journal.pcbi.1005824


초록

인간 활동의 시점들은 환경에서 오는 다양한 신호에 의해 제약되는 생체 시계를 따른다. 도시 환경 속에서는 인공 조명과 다양한 사회적 신호들 때문에 태양빛에 의해 주어지는 자연적 제약 조건이 변형되는 경향이 있다. 하지만 어느 정도까지 이런 현상이 나타나는지는 아직 우리가 완전히 알지 못한다. 여기서 우리는 대규모 데이터 분석 기술을 사용하여 대도시에 사는 사람들의 휴대전화 통화 패턴을 연구하였고, 이로부터 도시의 1일 리듬이 시간에 따라 어떻게 변하는지를 추출해냈다. 같은 시간대에 속하는 다양한 도시에 흩어져 사는 약 백만 명의 사용자들의 통화 패턴으로부터, 우리는 통화 활동의 시작점과 종결점이 태양의 동-서 진행과 동기화되어 있음을 보인다. 우리는 또한 사용자들의 통화 패턴의 시작점과 종결점이 계절마다 달라지는 1년 주기의 양상을 따른다는 것과, 그 시점들이 태양 자정(역주: 태양이 지구의 정반대 쪽에 있는 시점)에 의해 제약된다는 것을 보인다. 게다가, 우리는 도시 지역에 사는 사람들의 평균적인 수면 시간이 각 집단의 나이와 성별에 따라 달라지며 이는 생물학적 및 사회적 요소들의 결과임을 보인다.


저자 요약

도시 지역에 사는 인간들에게, 현대의 일과는 오늘날의 사회가 진화해 온 시작점인 고대를 살아가던 사람들의 일과와 매우 다르다. 주로 인공 조명을 쓸 수 있게 되었다는 이유에서, 현대인들은 자연적인 일일 주기를 수정할 수 있게 되었다. 게다가, 직업과 교육에 관련된 규범들과 같은 사회적 규범들은 일일 활동에서 특별한 스케줄을 요구하는 경향이 있다. 하지만, 계절에 따라 달라지는 일출과 일몰 시점과 일광 시간이 어느 정도까지 이러한 활동의 시점에 영향을 주는지는 정확히 알려져 있지 않다. 이 연구에서, 우리는 휴대전화 통화 패턴을 이용해 인간의 휴식 주기가 시간에 따라 어떻게 변화하는지 기술할 수 있는 새로운 방법론을 이용해 도시인들의 휴식 주기가 시작하고 끝나는 시점이 같은 시간대 내에서는 태양의 동-서 진행을 따른다는 것을 보였다. 또한 우리는 낮은 통화 활동 시기와 중간 통화 활동 시기의 시작점은 계절의 변화에 종속되어 태양 자정과 같은 시간 변화를 따른다는 것을 발견했다. 게다가, 도시에 사는 사람들의 낮은 통화 활동 시기로부터 측정한 휴식 주기를 이용해, 우리는 서로 다른 나이와 성별을 가진 집단들 사이에서 유의미한 행동상의 차이를 발견했다. 이러한 발견들로부터, 인간의 일일 리듬의 길이와 시점들은 여전히 태양의 계절적 변화에 민감하게 의존한다는 것을 유추할 수 있다.

오늘은 왠지 일하기 싫은 날이니 번역을 하나 더 해야겠다. <사이언스>에 실린 뉴스 글이다. 원글에 빠진/왜곡된 내용이 많아서 역주를 좀 달았다. (제목 번역이 진짜 어렵네 -_-;; 수동형을 두 개 쓰니 영 마음에 안 드는데 딱히 더 나은 번역이 떠오르지 않는다.)


새로운 영장류가 발견되면서 멸종에 대한 우려가 촉발되었다

https://doi.org/10.1126/science.358.6363.572


요약

인도네시아 수마트라 섬의 고립된 숲에서, 연구자들이 오랑우탄의 새로운 종을 발견했다. 현재 800 마리 미만의 개체가 남아 있는데, 댐 및 도로 건설로 인해 이 영장류의 주된 서식지가 위협받고 있다. 연구자들은 이 오랑우탄이 발견된 타파눌리 군(Tapanuli regencies)의 이름을 따 Pongo tapanuliensis라는 학명을 붙였고, 해부학적, 생태학적, 유전학적 데이터를 조합하여 이 오랑우탄이 널리 받아들여지고 있는 오랑우탄의 두 종과 별개의 종이라는 것을 설득력 있게 보였다. 이번 주 <최신 생물학(Current Biology)>에 실린 논문에서, 저자들은 340만 년 전 수마트라 섬의 (역주: 토바 호를 기준으로) 북쪽에 서식하는 오랑우탄들이 그보다 남쪽에 사는 오랑우탄들과 보르네오의 오랑우탄들로부터 갈라져 나왔다고 결론 짓는다. 그 이후, 약 674,000년 전, 수마트라 섬의 남쪽 군집과 보르네오의 군집이 갈라졌다. (역주: P. tapanuliensis는 수마트라 섬의 남쪽 군집에 해당한다.) 환경보호 활동가들은 1929년 보노보 원숭이 이후 최초로 과학계에 알려진 대형 영장류의 발견이 오랑우탄들이 처해 있는 곤경에 대한 관심을 끌어오는 데 도움을 주기를 기대하고 있다. P. tapanuliensis가 살고 있는 숲의 대부분은 벌목이 금지되어 있지만, 최고의 서식지는 보호받지 못하고 있다. 환경보호 단체들은 지역 사회와 연계하여 불법 벌목과 사냥을 줄이고자 한다.


<네이처>는 오랜만이네. 언어와 진화라니, 내가 좋아하는 두 주제가 다 있다! 그런데 이걸 생물학 카테고리에 넣어야 하나;;;


/* 시작하기 전에 번역에 대해 한 마디 하자면, drift는 목적 없이 떠다닌다는 의미로 일상 용어로는 부유(浮遊) 혹은 표류로 번역되는데, 유독 진화생물학에서는 genetic drift를 "유전자 부동(浮動)"이라고 번역한다. 아마도 일본어의 영향[1]으로 보이는데, 우리말로는 움직이지 않는다는 不動과 헷갈릴 소지가 있어서 별로 바람직한 번역어는 아니라고 생각한다. 더 나은 번역은 "유전적 표류" 정도가 될 것이다. 오늘 초록에서는 "drift"라는 단어가 두 가지 용법으로 쓰이는데, "genetic drift"는 기존의 번역어를 존중하여 "유전자 부동"으로 번역했지만, "stochastic drift"는 "확률 표류"로 번역했다. */


언어 변화의 진화적 동력들을 검출하다

https://doi.org/10.1038/nature24455


초록

언어와 유전자는 모두 그 형태를 복제할 때 변이될 가능성을 안고 세대를 거쳐 전파되면서 진화한다. 유전자 빈도수가 자연 선택이 일어나지 않는 상황에서도 유전자 부동에 의해 임의로 변화한다는 이해는 진화생물학의 주요한 진보였다. 확률 표류는 언어적 형태가 화자 사이에서 복제될 때 나타나는 임의성을 고려하면 언어에서도 일어나야 한다. 이 연구에서 우리는 언어 진화에서 선택에 대한 확률 표류의 크기를 정량화하였다. 우리는 12세기에서 21세기에 만들어진 텍스트에 주석을 달아 분류한 큰 말뭉치에서 뽑아낸 시계열 데이터를 이용하여 영어의 유명한 문법적 변화 세 가지, 즉 과거형 동사의 규칙화, 우언법(迂言法) 'do'의 도입, 동사 부정법의 변천을 분석하였다. 어떤 경우에는 선택이 확률 표류를 압도하는 것으로 나왔지만 다른 경우에는 그렇지 않았다. 구체적으로, 일부 과거형 동사에 대해서는 불규칙 형태에 대한 선택을 관찰할 수 있었고, 이는 아마도 시간에 따라 운율 양식의 선호도가 변화했기 때문으로 보인다. 우리는 흔히 쓰이지 않는 단어들에 대해서는 확률 표류가 더 강력함을 보였고, 이로써 왜 흔히 쓰이지 않는 단어들이 자주 쓰이는 단어들에 비해 더 잘 대체되는지를 설명할 수 있을 것이다. 이 연구는 언어 변화의 선택 이론을 영 모형(null model)에 대해 시험하는 방법론을 제시하며, 언어 진화에 있어 그간 잘 인지되지 않던 확률성의 역할을 드러낸다.

+ 최신 글