(MIT researchers have created an automated text-generating system that pinpoints and replaces specific information in relevant Wikipedia sentences, while keeping the language similar to how humans write and edit. Credit: Christine Daniloff, MIT)
MIT의 연구팀이 위키피디아의 내용을 수정하는 자동 텍스트 생성 시스템 (automated text-generating system)을 선보였습니다. MIT의 컴퓨터 과학 및 인공지능 연구소의 다쉬 샤 (Darsh Shah, a Ph.D. student in the Computer Science and Artificial Intelligence Laboratory (CSAIL))를 비롯한 연구팀은 AAAI Conference에서 문법 오류를 바로 잡는 것은 물론이고 오래된 데이터를 업데이트하고 사실 관계를 체크하는 자동화 시스템을 발표했습니다.
텍스트를 분석하고 간단한 기사나 글을 쓰는 인공지능은 이미 상용화 된 상태입니다. 이제 텍스트 관련 인공지능 연구자들은 다음 단계에 도전하고 있습니다. 위키피디아는 집단 지성의 성공 사례로 많은 사람에게 지식의 창고 역할을 하지만, 수백만 개의 항목이 생산되면서 이를 관리하는 일이 점점 어려워지고 있습니다.
새로운 내용을 업데이트하고 잘못된 내용을 수정하는 일을 모두 익명의 기여자가 감당해야 하는데 잘 되는 주제도 있지만 아닌 경우도 생길 수밖에 없습니다. 따라서 시간이 지나면 오래된 과거 정보나 이제는 잘못된 정보를 전파할 가능성이 있습니다. 여기에 의도적으로 글을 이상하게 수정하는 반달리즘이나 정치적, 이념적 편향성을 지닌 글이 수정이나 교정없이 올라갈 가능성도 있습니다.
MIT의 연구팀은 문법적으로 잘못되거나 어색한 문장을 수정하면서 내용도 업데이트 하는 방법을 먼저 연구했습니다. 예를 들어 "Fund A considers 28 of their 42 minority stakeholdings in operationally active companies to be of particular significance to the group."라는 문장을 "Fund A considers 23 of 43 minority stakeholdings significant." 라고 업데이트 하면서 문장도 읽기 쉽게 바꾸는 방식입니다.
여기까지는 그래도 어렵지 않아 보이지만, 정말 어려운 것은 사실 관계를 체크하는 것입니다. 연구팀이 개발한 알고리즘은 실제 확인된 사실과 문장을 대조해 동의/반대/중립 ("agree," "disagree," or "neutral")의 세 그룹으로 나눕니다. 알고리즘이 지닌 사실 데이터와 부합하거나 아닌지를 따지고 이를 판단할 정보가 부족하면 중립으로 나누는 것입니다.
하지만 이 역시 편향 (bias)가 있을 수 있는게 알고리즘이 학습한 데이터에 따라 문서를 분류하기 때문입니다. 데이터에 편향이 있다면 수정 내용에 그대로 반영될 수 있습니다. 다만 가짜인게 분명한 가짜 뉴스 가려내기 기술은 점점 발달하고 있고 관련 데이터도 축적되고 있어 명백한 가짜 데이터는 걸러낼 수 있을 것으로 예상됩니다.
그렇다고는 해도 기계가 사람대신 글을 편집하고 내용을 수정하게 되면 이에 따른 반발도 있을 것으로 예상됩니다. 그리고 아직 기술 자체도 완벽하진 않아서 인공지능이 편집한 위키피디아를 보게 되는 날은 아직은 멀었다고 생각합니다. 다만 로봇이 기사를 쓰고 글도 쓰는 미래는 이미 어느 정도 현실이 된 상황입니다. 아직은 단순한 글쓰기지만, 앞으로 더 발전할 것은 분명합니다.
참고
댓글
댓글 쓰기