지난 학기, "코퍼스언어학"이라는 과목에서 R 프로그래밍을 활용한 텍스트 분석으로 진행한 프로젝트를 소개해 보고자 한다.
이번 포스팅에서는 조사동기를 포함한 서론에 이어 첫 번째 분석 기법인 "빈도분석"에 대해 소개할 것이다.
I. 서론
A. 주제 및 조사동기
세계적인 팝 가수들의 명곡에 사용된 가사를 텍스트 데이터로 설정하여 이를 분석해 보고자 한다. 대표 곡들의 가사를 살펴봄으로써 가수 별로 텍스트에 어떠한 특성이 담겨 있는 지 알아볼 수 있을 것이다. 세계적으로 큰 인기를 끌었던 팝 가수들은 그들의 명성만큼이나 전 세계의 팬들에게 많은 영향력을 끼쳐왔다. 그들의 음악이 큰 인기를 끌었던 중대한 요인 중 하나는 대표 곡들에 포함된 진정성 있는 가사라고 생각한다. 곡의 가사는 가수 본인의 정체성을 보여주기도, 시대의 한 장면을 압축하여 보여주기도 한다. 그렇기 때문에 가사는 ‘시’와 유사한 문화적 영향력을 가진다. 따라서 가사에 나오는 텍스트를 분석해 봄으로써 각각의 가수들이 어떠한 스토리를 전달하려고 했는 지, 당시 사람들의 관심사는 무엇이었으며 그들이 왜 많은 인기를 끌 수 있었는 지 고찰해 보고자 한다.
B. 데이터
분석에 사용된 데이터(https://www.kaggle.com/paultimothymooney/poetry)는 세계적인 인기를 끌었던 9명의 가수가 불렀던 대표 곡들의 가사를 포함한다. 해당 9명의 가수는 Adele, Amy Winehouse, Beatles, Bieber, Britney Spears, Bruno Mars, Lady Gaga, Michael Jackson, Rihanna이다. 해당 가수들의 경우 보유하고 있는 곡 수가 매우 많아 적당한 용량만 불러온 관계로 전체 곡을 모두 포함하지는 않는다. 하지만 유의미한 수준의 결과를 도출하기 위해 최대한 많은 수의 곡을 포함하였다. 그림 1은 각 가수가 부른 곡들의 가사가 포함된 9 개의 파일을 나타내며, 그림 2는 Adele의 가사들을 담은 텍스트 파일 형태 예시다.
II. 본론
A. 빈도 분석
1. 입력 코드
텍스트 파일이 저장되어 있는 현재 디렉토리에서 list.file()을 이용하여 각 가수들에 대한 파일을 불러왔다. 간혹 피처링으로 다른 가수들의 이름을 대괄호 안에 표시해 놓고 나열한 경우가 있어 특수 기호가 포함된 값들은 gsub 함수를 이용하여 생략하였다. Table 함수를 이용하여 각 텍스트파일에서 많이 사용된 어휘들의 빈도수를 내림차순으로 출력하였다. 또한, 가수들을 성별로 구분하여 각 빈도 값들에 대한 wordcloud을 생성하였다.
2. 출력 결과
출력결과는 아래와 같이 freq라는 디렉토리 아래에 텍스트파일로 저장하였다.
3. Wordcloud
9명을 모두 각기 다른 그림으로 나타냈을 때에는 공통적으로 등장하는 단어가 매우 유사하여 확연히 드러나는 특징을 찾기 어려웠다. 따라서 가수들을 성별로 구분하여 대표 가수 2명 씩만 선정하여 비교하는 방법을 선택하였다. 표본은 여자 솔로 가수 Adele과 Amy Winehouse, 그리고 남자 솔로 가수 Bruno Mars와 Michael Jackson으로 선정하였다. 아래 wordcloud 이미지를 통해 결과를 확인할 수 있다.
해당 그림에서 확인할 수 있듯이, 모든 표본에서 ‘you’, ‘I’와 같은 1인칭, 2인칭 대명사들이 가사 안에서 높은 빈도를 차지한다. 또한, 공통적으로 ‘love’와 같은 사랑과 관련된 단어들이 발견된다. 특히, 남자 솔로 가수의 가사에서는 ‘girl’, ‘baby’와 같은 단어 또한 중심 부근에서 찾아볼 수 있다.
4. 분석 결과 해석
가수들의 가사에 대한 빈도수 출력 결과를 BNC의 문어, 구어 상위 빈도어와 비교하여 해석하였다. 대표로 Adele의 상위 빈도어를 자세히 살펴보고자 한다. 아래와 같이 Adele의 가사와 문어, 구어 상위 빈도어를 병렬적으로 비교하면, BNC의 상위 빈도어에 속하지 않지만 Adele의 상위 빈도어에 속하는 단어로는 “me”, “my”, “your”, “love”, “all”, “when” 등이 있다. 노래 가사 속에 1인칭, 2인칭 대명사가 많이 사용되며 love라는 단어가 빈도 있게 사용되는 것으로 보아 사랑과 관련된 이야기가 가사에 자주 사용된다는 것을 알 수 있다. 또한, BNC의 경우 I와 you보다 the라는 관사가 더 많이 사용되지만, 가사에서는 관사보다는 사람을 지칭하는 대명사가 더 자주 사용됨을 알 수 있다. 노래 가사에서 물체나 사건에 대한 이야기보다 사람들 사이의 관계와 같은 이야기가 자주 다루어 지는 경향이 있기 때문에 나타나는 특징이라고 해석하였다.
한편, wordcloud로 나타낸 남녀 솔로 가수들의 그림에서 나타난 특징을 분석해 보면, 남자 솔로 가수들의 wordcloud에서 발견된 “girl”과 같은 단어들은 여자 솔로 가수들의 wordcloud에서 발견되지 않았다. 주로 남성 솔로 가수들의 가사에서 사랑에 대한 노래를 할 때에 여성을 빈도 있게 지칭하기 때문에 이러한 현상이 나타난다고 볼 수 있다. 더 나아가, 남자 솔로 가수들의 wordcloud에서 “she”, “her”을 중심 부근에서 볼 수 있는 것 또한 같은 맥락해서 해석해 볼 수 있다. 여자 솔로 가수들의 wordcloud에서도 “his”와 같은 남성 지칭 대명사를 볼 수 있지만, 남자 솔로 가수들의 wordcloud에서 만큼이나 두드러지게 많이 나타나지는 않는 것으로 확인되었다. 종합하면, 가수의 성별을 막론하고 사랑 이야기에 대한 가사가 많이 사용되었으며 서로 이성을 지칭하는 대명사가 높은 빈도로 등장하였고 이러한 특징은 남자 가수의 노래에서 더욱 두드러지게 나타났다.
'R Programming > Projects' 카테고리의 다른 글
팝 명곡 가사 텍스트 분석(3) - 키워드 & 탐색적 분석 (1) | 2021.02.14 |
---|---|
팝 명곡 가사 텍스트 분석(2) - Ngram + 연어분석 (2) | 2021.02.14 |