본문 바로가기

R Programming/Projects

팝 명곡 가사 텍스트 분석(3) - 키워드 & 탐색적 분석

D. 키워드 분석

1. 입력 코드

앞선 분석에서 살펴보았듯이, 팝 가수들의 명곡 속 가사에는 공통적으로 사랑에 대한 이야기가 많이 나타났다. 비슷한 장르적 특성을 지녔기 때문에 공통점에 대해 더욱 자세히 살펴볼 수 있었다. 남성과 여성 가수의 가사에 나타난 특징을 비교분석 하기 위해서는 TDM의 카이스퀘어 잔차를 산출하는 방법이 적절하다고 판단하였다. 따라서 키워드 분석에서는 여러 가수들의 가사들을 성별로 구분하여 분석하였다. 아래 코드는 strisplit를 사용하여 가수들의 이름을 조건문으로 구분한 후 성별로 각각 다른 벡터에 저장하는 과정을 나타낸다. 

 

 

아래의 코드 그림은 여성 가수와 남성 가수의 가사들에 대한 텍스트를 TDM으로 만들어 가공한 과정을 보여준다. 여성 가수에 대한 데이터와 남성 가수에 대한 데이터를 순차적으로 TDM에 저장하는 과정에서 merge 함수를 두 번 사용하였다.

 

 

이어서, 가공한 TDM을 comparison cloud로 표현하기 위해 작성한 코드와 카이스퀘어 잔차를 사용해 키워드 분석을 한 코드이다.

 

2. 출력 결과

아래의 그림은 순서대로 Chisquare 잔차를 여성 가수 기준으로 정렬한 표와 남성 가수 기준으로 정렬한 표이다. 또한, comparison cloud를 활용하여 성별로 구분한 가수들이 부른 노래의 가사적 특성이 시각적으로 비교될 수 있게 표현하였다.  

 

 

여성 가수를 기준으로 정렬하였을 때에는 boys가 상위에 나타나고 남성 가수를 기준으로 정렬하였을 때에는 girl, she, her가 상위에 나타났다. 또한, 여성 가수 기준 정렬표에서는 work, music, face과 같은 내용어가 발견되었으며 남성 가수 기준 정렬표에서는 change, lonely, smile, world과 같은 내용어를 확인할 수 있다. 

 

 

3. 분석 결과 해석

Chi square 잔차를 활용한 키워드 분석의 결과를 통해 남성, 여성 가수들의 가사 텍스트에 나타난 키워드를 도출할 수 있다. 위에 나타난 결과를 종합하여 보면, 남성 가수의 가사 텍스트 키워드는 “she”, “girl” 등 여성과 관련된 단어들이 있다. 그리고 “lonely”가 키워드로 등장하는 것으로 보아 외로움을 표현한 이야기를 노래하는 경향이 있다고 볼 수 있다. 또한, “no”와 같은 부정 표현, “change”과 같은 변화를 추구하는 단어들이 발견된다. 명곡들에는 사랑과 이별과 관련된 노래가 대체로 많이 등장하며, 슬픈 감정을 표현하는 곡들이 다수 있었다고 해석했다.

한편, 여성 가수의 가사에 나타난 키워드는 남성 가수의 경우와는 반대로 “boys”와 같이 남성을 지칭하는 단어가 있었다. 또한, “music”, “dance”와 같이 음악과 관련된 단어들이 comparison cloud의 중심부에 분포한 것으로 보아 여성 가수들은 음악에 대한 애정을 노래 안에서 많이 표현하는 경향이 있다고 해석할 수 있을 것 같다. 또한, “work”이라는 단어가 상위에 정렬된 것은 “일”에 대한 소재가 여성 가수들의 음악 안에서 빈도 있게 활용되었다는 것을 시사한다.

 

 

 

E. 탐색적 분석

1. 입력 코드

탐색적 분석에서는 가수들을 시대 별로 구분하여 각각의 특징을 살펴보고자 하였다. 1900년대 가수인 Beatles, Michael Jackson, Britney Spears 에 대한 데이터는 GEN_1에, 2003년~2005년 사이에 데뷔한 가수인 3명은 GEN_2에, 2006년 이후에 데뷔한 나머지 3명은 GEN_3에 저장하여 시대를 구분하였다. substr 를 사용하여 파일명을 가수 이름으로 변환하고, 해당 가수 이름이 각 시대 안에 속할 경우(%in% 사용) 알맞은 변수에 추가하였다.

 

 

각 시대에 대한 테이블을 하나의 TDM으로 생성한 후, 수업시간에 활용한 불용어목록 파일을 사용하여 불용어 목록을 제거하는 코드를 작성하였다. 불용어 목록에 대한 벡터는 STOP이라는 이름으로 지정하였고, setdiff 함수를 사용하여 rowname이 불용어 목록에 포함되는 단어인 경우 제외하여 NEW_TDM에 저장하였다.

 

아래 작성된 코드는 탐색적 분석의 한 종류인 대응분석을 실행하기 위해 입력한 코드이다.

 

 

2. 출력 결과

[NEW_TDM 표 출력결과]

 

[대응분석 결과]

3. 분석 결과 해석

시대 별로 유명 팝 가수를 구분하여 가사에 나타난 단어들의 분포적 특성을 검토하기 위해 탐색적 분석을 실시하였다. 대응 분석을 통해 도출한 결과를 살펴보면, 1900년대 가수들의 가사를 입력 값으로 한 GEN_1의 경우 “hey”, “girl”, “oh”, “world” 등의 단어들이 원점과 가깝게 나타난다. 이외에도 “bad”, “hold” 등의 단어들이 GEN_1 좌표 근처에 분포한다. 이를 통해 1900년대에 해당 가수들이 가사로 많이 사용한 추임새에는 “hey”, “oh” 등이 있다는 것을 알 수 있다. 다만, 1900년대의 특정 가수가 해당 추임새를 많이 사용하여 도출된 결과일 가능성 또한 배제해서는 안 된다. 2003년에서 2005년에 데뷔한 가수들의 집합인 GEN_2 좌표의 경우 “life”, “feel”, “tonight”, “boy” 등의 단어들이 해당 영역 부근에서 발견된다. 또한, 첫 번째 관찰치였던 GEN_1과는 다르게, “na”, “yeah”와 같은 추임새가 나타난다는 것이 특징이다. 마지막 시대로 구분한 GEN_3에는 “baby”, “eyes”, “heart”, “love”와 같은 단어들이 있다. 가사에 “love”라는 단어를 더욱 직관적으로 표현하게 되었음을 알 수 있고, 신체 부위에 대한 언급이 많이 되었다는 특징이 있다. 나아가, GEN_3 좌표 부근에는 “wanna”, “gonna”와 같은 줄임말을 찾아볼 수 있다. 가장 최근으로 구분되는 시대에 사용된 가사들이 줄임말을 더욱 많이 담고 있다는 것은 사람들이 줄임말을 더 일반적으로 사용하게 되었기 때문이라고 해석해 볼 수 있다.

 

III.  결론

각 시대를 대표하는 세계적인 팝 아티스트들의 가사를 이와 같이 여러 가지 방향으로 분석해 보았다. 개별 가사 텍스트에 대한 빈도 분석과Bruno Mars가사의 n-gram 분석을 통해 가사에서 주로 많이 등장하는 단어들을 직관적으로 확인하였다. 가사에서는 강조하고 싶은 단어를 반복해서 많이 사용한다는 특징이 있기 때문에 이와 같은 분석에서 각 가수들이 강조하고자 하는 음악 테마에 대한 mainstream을 파악할 수 있었다. 앞서 언급했던 결과에 대한 해석을 간단하게 요약하자면, 이 분석에서 사용한 가수들의 가사 텍스트 표본에서는 사람들 간의 관계, 특히 사랑에 대한 이야기를 많이 담고 있다. 또한, n-gram 분석을 통해 가사에서는 추임새를 반복적으로 사용하는 경향을 보인다는 것을 확인하였다. 이어서 Rihanna에 대한 연어분석을 진행하였고, 키워드 분석과 탐색적 분석을 통해 각각 성별, 시대별로 가수들을 구분하여 각각의 텍스트를 살펴보았다. 같은 주제에 대한 음악을 노래하더라도 성별로 표현하는 방법과 언어가 다를 수 있다는 사실을 이해하게 되었다. 또한, 음악이라는 매체가 해당 시기의 시대상을 담고 있기 때문에 가사를 통해 당시 유행하였던 표현을 대략적으로 분석할 수 있었다.

 

이 분석에서 사용된 데이터는 9명의 가수들에 대한 가사 텍스트를 대상으로 하고 있다. 추후 분석을 확장하여 더 많은 표본에 대한 데이터를 대상으로 하여 여러 가지 분석 방법론을 적용해 본다면 더욱 유의미한 결과를 도출할 수 있을 것이라고 생각한다. 표본이 많을수록 가수들을 성별, 시대별로 분류하였을 때 그 특성이 더욱 명확하게 나타날 것이기 때문이다.