R Programming (6) 썸네일형 리스트형 R 프로그래밍(3) - Factor & DataFrame 04 Factor 팩터 1. 문자열 표현 방식 ‘The ‘R’ project’ >> Error “The “R” project” >> Error “The ‘R’ project” >> [1] “The ‘R’ project” ‘The “R” project’ >> [1] “The \’R\’ project” a [1] “The ‘R’ project” [1] “The \”R\” project” print(a) >> [1] “The ‘R’ project” cat(a, ‘\n’) >> [1] The ‘R’ project cat(b, ‘\n’) >> [1] The “R” project 2. 이스케이프 Escape 문자 a > "a'b\"c\td\ne" *** ‘ 앞의 \ 만 생략됨 print(a) >> "a'b\"c\t.. R 프로그래밍(2) - 기본 사용법과 Vector " >> " 뒤에 오는 것은 앞 줄에서 실행한 입력값에 대한 출력 결과를 의미한다. 02 R 기본 사용법 1. 기본 연산자 4 / 2 # 나눗셈 5 %/% 2 # 몫 5%%2 # 나머지 (3+2)^3 # 거듭제곱 # 변수명 할당 (구성원리: 영문자/숫자/마침표 조합, 반드시 영문자로 시작, 대소문자 구별) 2. Data Type과 함수 class class(TRUE) >> [1] “logical” class(T) >> [1] “logical” class(12L) >> [1] “integer” class(3 + 2i) >> [1] “complex” class(12.3) >> [1] “numeric” as.numeric(12L) >> [1] 12 class(‘a’) >> [1] “character” clas.. R 프로그래밍(1) - 코퍼스 언어학이란? 지난 학기에 수강했던 "코퍼스 언어학"의 내용을 여러 포스팅에 걸쳐 요약 정리할 것이다. * 홍정하 교수님의 코퍼스 언어학 수업자료를 참고하였다. 00 Prologue 코퍼스 언어학 1. 코퍼스 언어학 ( = 텍스트 마이닝) 계량/통계적 분석을 통해 코퍼스 및 텍스트로부터 인간의 직관으로 발견하기 어려운 유의미한 정보를 도출하는 것이 목적임, 인간의 언어, 경험, 마음, 지식을 탐색하는 것 2. 빅데이터와 R · 빅데이터의 특성 정리되지 않은 데이터이므로 가공이 필요함 대규모 데이터이므로 통계 분석이 필요함 · Data Science / Data Mining 숨겨져 있는 유의미한 새로운 정보를 추출하여 전달하는 학문 데이터 수집, 가공, 분석, 전달, 시각화 전산학 + 통계학 + 정보이용 학문분야 … (.. 팝 명곡 가사 텍스트 분석(3) - 키워드 & 탐색적 분석 D. 키워드 분석 1. 입력 코드 앞선 분석에서 살펴보았듯이, 팝 가수들의 명곡 속 가사에는 공통적으로 사랑에 대한 이야기가 많이 나타났다. 비슷한 장르적 특성을 지녔기 때문에 공통점에 대해 더욱 자세히 살펴볼 수 있었다. 남성과 여성 가수의 가사에 나타난 특징을 비교분석 하기 위해서는 TDM의 카이스퀘어 잔차를 산출하는 방법이 적절하다고 판단하였다. 따라서 키워드 분석에서는 여러 가수들의 가사들을 성별로 구분하여 분석하였다. 아래 코드는 strisplit를 사용하여 가수들의 이름을 조건문으로 구분한 후 성별로 각각 다른 벡터에 저장하는 과정을 나타낸다. 아래의 코드 그림은 여성 가수와 남성 가수의 가사들에 대한 텍스트를 TDM으로 만들어 가공한 과정을 보여준다. 여성 가수에 대한 데이터와 남성 가수에 .. 팝 명곡 가사 텍스트 분석(2) - Ngram + 연어분석 지난 번 빈도분석에 이어 이번 포스팅에서는 Ngram 분석과 연어분석에 대한 소개를 할 것이다. B. N-gram 분석 1. 입력 코드 N-gram 분석에서는 Bruno Mars의 텍스트파일을 대표로 분석해 보고자 하였다. BRUNO_NGRAM이라는 변수에 해당 파일을 저장하여 bi-gram으로 변환한 후 빈도 수와 함께 bi.Freq이라는 table에 출력되게 하였다. 해당 빈도 수를 wordcloud 상에서도 확인해 보았다. 또한, write.table 를 이용하여 bi.gram으로 메모장에 나타냈다. 해당 과정은 위의 입력 코드와 같이 입력하였다. 위 그림은 같은 파일에 대해 tri-gram으로 나타내기 위해 작성한 코드이다. Bi-gram과 같은 방식으로 wordcloud을 생성하였으며 메모장에 .. 팝 명곡 가사 텍스트 분석(1) - 서론 + 빈도분석 지난 학기, "코퍼스언어학"이라는 과목에서 R 프로그래밍을 활용한 텍스트 분석으로 진행한 프로젝트를 소개해 보고자 한다. 이번 포스팅에서는 조사동기를 포함한 서론에 이어 첫 번째 분석 기법인 "빈도분석"에 대해 소개할 것이다. I. 서론 A. 주제 및 조사동기 세계적인 팝 가수들의 명곡에 사용된 가사를 텍스트 데이터로 설정하여 이를 분석해 보고자 한다. 대표 곡들의 가사를 살펴봄으로써 가수 별로 텍스트에 어떠한 특성이 담겨 있는 지 알아볼 수 있을 것이다. 세계적으로 큰 인기를 끌었던 팝 가수들은 그들의 명성만큼이나 전 세계의 팬들에게 많은 영향력을 끼쳐왔다. 그들의 음악이 큰 인기를 끌었던 중대한 요인 중 하나는 대표 곡들에 포함된 진정성 있는 가사라고 생각한다. 곡의 가사는 가수 본인의 정체성을 보여.. 이전 1 다음