한국어의 단어 빈도 (Korean words frequency)

Posted by on Sep 17, 2014 in 강의노트, 말에 관하여, 수업자료 | One Comment

영어에서 가장 빈도수가 높은 단어는? 일상적인 대화와 같은 입말이라면 가끔 I가 the를 제치고 1등을 하기도 하지만, 글모음에서는 the가 부동의 1위를 차지합니다. 이렇게 어떤 코퍼스(말뭉치)에서 빈도수를 산출하느냐에 따라 순위가 다를 수 있지만 대개 the가 1위를 차지하죠. 그렇다면 한국어는 어떨까요?

국립국어원이 제시한 단어목록에 따르면 “것”이 1위를, “하다”가 2위를 차지했네요. “있다”와 “수(way)”가 그 뒤를 잇구요. 30위 까지의 단어들 중 조금 의외였던 건 ‘대하다’였습니다. 그냥 제 직감으로는 빈도수가 그렇게 높지 않은 것 같아서요. 접속사 중에서는 ‘그러나’가 27위로 41위에 그친 ‘그리고’를 앞섰네요.

살피다 보니 데이터가 어찌되었는지 “하다”가 5위에 다시 나오는군요. 학술적으로 사용하기 위해서는 어떤 데이터를 사용했고, 형태소 분석은 어떻게 했는지 등에 대해 좀더 세밀하게 살펴야겠습니다만, 대략적인 감을 잡는 데는 도움이 되네요.

데이터셋은 아래에서 받으실 수 있습니다.
http://www.topikguide.com/2012/08/korean-frequency-list-top-6000-words.html

 

국립국어원_워드리스트

1 Comment

  1. 명랑소녀
    January 24, 2016

    동사 “대하다”는 그 자체보단 ~에 대하여, ~에 대한 이라는 형태로 자주 나오는 것 같네요 ^^ “위하다”도 마찬가지겠구요. 속기에서는 저런 자주 나오는 표현들은 간단히 입력할 수 있도록 따로 준비돼 있다 보니 이런 게 눈에 보이는군요.

    Reply

Leave a Reply