기능어의 분포

언어에서 빈도수 최상위를 차지하는 단어들은 대개 기능어(function words)이다. 영어의 경우 대표적인 기능어로는 관사, 접속사, 대명사, 조동사, 전치사 등이 있다. 참고로 초기 영국 말뭉치 언어학에서 주도적인 역할을 한 British National Corpus에서 가장 많이 나오는 단어는 the, of, and, to, a, in, that, it, is, was 순이다. (좀더 세심한 데이터 작업을 거치면 is와 was가 다른 be동사형과 함께 하나로 묶여야 하지만 그 경우에도 10위는 대명사인 “I” 몫이다.)

대규모 말뭉치의 경우 하위 말뭉치의 장르에 따라 이들의 분포가 사뭇 달라진다. 일례로 롱맨 코퍼스의 경우 대화문 말뭉치에서는 대명사가 압도적으로 많지만 학술적인 글에서는 전치사와 관사의 비중이 상당히 높다.

이러한 차이는 학술적인 글과 면대면 대화의 차이에서 비롯된다. 얼굴을 맞대고 하는 대화에서는 많은 정보들이 공유된 채 대화가 흘러가는 경우가 많다. 명사가 계속 새로 등장하지도 않는다. 따라서 특정한 대상을 대명사로 지칭하는 빈도가 높을 수밖에 없다.

이에 비해 학술적인 글에서는 ‘글’의 특성상 정보가 공유된 채로 담화가 흘러가지 않는다. 개념을 명확히 할 필요가 있기에 명사가 자주 사용되는 것이다. 아울러 많은 정보들이 명사구로 표현된다. 따라서 명사와 짝을 이루는 관사의 비중이 높을 수밖에 없다.

나아가 전치사가 포함된 복합명사구(e.g. the adaptation of the method within a new context)의 쓰임이 면대면 대화에 비해 압도적으로 많다. 따라서 전치사의 비율이 높을 수밖에 없다.

참고로 wordcount.org를 기준으로 가장 빈도가 높은 일반명사는 time(66위)이고 그 다음은 people (81위)이다. <어머니와 나>에서도 언급했듯 빈도수만으로 볼 때 우리에게 가장 중요한 것은 시간과 사람인 셈인데, 그저 우연으로 보기에는 가볍지 않은 의미가 담겨 있는 듯하다.

#데이터와영어교육

Leave a Reply