(The Compact Muon Solenoid is a general-purpose detector at the Large Hadron Collider. Credit: CERN)
이미 IT 업계에서는 오픈 소스나 오픈 데이터라는 이야기가 낯설지 않습니다. 과학계에서도 과학적 관측 데이터를 공공에 개방해서 연구를 촉진하려는 움직임이 드물지 않습니다. 하지만 2014년에 공개된 거대 강입자 충돌기 (Large Hadron Collider)의 입자 검출기인 CMS (Compact Muon Solenoi) 데이터만큼 거대한 오픈 데이터는 그렇게 흔치 않습니다. 무려 29TB에 달하는 데이터가 조건 없이 공공에 개방되었기 때문입니다.
CMS의 오픈 데이터에는 2010년부터 모은 3억건에 달하는 고에너지 입자 충돌 기록이 담겨 있으며 입자 물리학과 관련해서만이 아니라 과학계 전체를 통틀어서도 가장 큰 오픈 데이터 가운데 하나입니다. MIT의 제시 탈러 교수(Jesse Thaler, an associate professor of physics at MIT)가 이끄는 연구팀은 이 데이터를 분석해 양성자 충돌 시 발생하는 제트(jet)의 패턴에 대한 연구를 진행했습니다.
양성자가 빛의 속도에 가까운 빠른 속도로 충돌하면 여러 개의 입자와 에너지가 사방으로 튀게 됩니다. 여기에는 양성자보다 작은 쿼크 같은 소립자가 포함되어 있어 주요 관측의 대상이 됩니다. 연구팀은 이 때 나오는 제트가 기존의 공식들과 맞는지 75만개의 제트를 조사해서 검증했습니다. 결과는 예상대로였습니다. 연구팀은 이 결과를 저널 Physical Review Letters에 공개했습니다.
이번 연구는 자료를 오픈했을때 직접 대규모 연구 시설에서 데이터를 확보하기 어려운 과학자들도 연구에 참여할 수 있다는 것을 보여주는 사례입니다. 점차 이런 사례가 증가하고 있다는 것은 의미심장한 일입니다. 사실 저 역시 국가 데이터를 분양받아 실제로 데이터를 수집하지 않고도 관련 연구를 수행하고 있습니다.
물론 오픈 데이터가 장점만 있는 것은 아닙니다. 연구자들간에 자신들도 모르게 중복 연구를 수행할 우려도 있으며 많은 연구자가 참가하면서 연관성이 없는 것을 연관성이 있다고 주장할 가능성도 증가하게 됩니다. 하지만 이런 단점을 생각해도 사실 오픈 데이터에는 장점이 더 많습니다. 모든 데이터를 공유하므로써 다른 연구자가 한 연구를 쉽게 검증이 가능하며 새로운 연구를 수행하기 위해서 비슷한 실험이나 관측을 중복해서 할 필요가 줄어들기 때문입니다.
현재 여러 분야에서 오픈 과학 데이터의 규모가 점차 증가하고 있어 많은 과학자들에게 데이터 과학자로써의 자질이 요구되고 있으며 이와 같은 추세는 계속해서 지속될 것으로 예상합니다. 이는 준비된 과학자에게 매우 긍정적인 변화라고 생각됩니다.
참고
Andrew Larkoski et al. Exposing the QCD Splitting Function with CMS Open Data, Physical Review Letters (2017). DOI: 10.1103/PhysRevLett.119.132003
댓글
댓글 쓰기