지난 학기에 수강했던 "코퍼스 언어학"의 내용을 여러 포스팅에 걸쳐 요약 정리할 것이다.
* 홍정하 교수님의 코퍼스 언어학 수업자료를 참고하였다.
00 Prologue 코퍼스 언어학
1. 코퍼스 언어학 ( = 텍스트 마이닝)
계량/통계적 분석을 통해 코퍼스 및 텍스트로부터 인간의 직관으로 발견하기 어려운 유의미한 정보를 도출하는 것이 목적임, 인간의 언어, 경험, 마음, 지식을 탐색하는 것
2. 빅데이터와 R
· 빅데이터의 특성
정리되지 않은 데이터이므로 가공이 필요함
대규모 데이터이므로 통계 분석이 필요함
· Data Science / Data Mining
숨겨져 있는 유의미한 새로운 정보를 추출하여 전달하는 학문
데이터 수집, 가공, 분석, 전달, 시각화
전산학 + 통계학 + 정보이용 학문분야 … (Python과 R을 가장 많이 사용함)
· O’Reilly Media(2012)
데이터 과학은 다양한 관련 학문이 통합된 의미로 사용되어 모든 분야에 정통한 전문가는 존재하기 어렵다 à 대부분 팀으로 진행, 2~3개의 분야의 학제적 배경은 필요
· Guardian(2012)
Linkedin 수석과학자 Rogati의 말에 의하면,
"데이터 과학자는 반짝이는 눈을 가진 탐험가 콜럼버스, 의심 많은 형사 콜롬보를 합친 존재다"
· 빅데이터 시대와 프로그래밍 언어
빅데이터 환경
비정형 데이터를 포함하므로 가공/정리의 필요성
대규모 데이터 >> 컴퓨터를 이용한 처리의 필요성
모델링을 통한 예측과 패턴 탐색 à 새로운 분석 기법과 시각화 분석의 필요성
데이터 분석을 위해서는
표/정렬된 데이터가 필요하며, 데이터 분석 기법마다 고유한 입력 형식이 요구됨
3. R vs Python
· R
통계학자에 의해 개발된 언어, 데이터 분석에 용이한 환경이 잘 구축됨
기본 데이터구조 및 기본 함수가 데이터 분석용임
시각화 분석에 장점
(여러 가지 예쁜 시각화 모듈들이 있다. 추후 새 포스팅으로 다루도록 하겠다. )
통계 분석이 필수적인 학술 분야에서 많이 사용함
· Python
일반적 목적의 프로그래밍 언어
Numpy, scipy, matplotlib, pandas 모듈 별도 학습이 필요함
기본 데이터구조 및 기본 함수로는 데이터 분석이 제한적임
기계 학습에 장점!! 하지만, 기계 학습을 위한 별도 모듈 학습이 필요
01 코퍼스 빅데이터
1. 통계학
· 데이터(측정/관찰결과)에 대한 모든 측면을 다루는 학문
· 통계학의 작업: 수집 > 가공/조직화 > 분석 > 해석 > 제시/시각화
· 전통적 통계학의 시작과 핵심은 “표본”
표본의 대표성: 표본 크기보다 “무작위 표본 추출”을 하는 것이 핵심
기본적 표본 추출 방법
- 우연성
단순 무작위 표본추출(난수, 제비뽑기 …)
체계적 표본추출(첫 표본만 무작위 표본추출, 그 이후 일정 간격 추출)
개체가 표본에 포함될 동등한 기회 제공
- 분포 고려: 층화 표본추출(stratified sampling)
모집단을 구성하는 층화/집단의 분포 비율을 고려하여 추출(층화 내에선 우연성 이용)
여론조사 : 지역/직업/사회/나이/성별
코퍼스 : 장르/시기/인구통계학적 분포
2. 코퍼스(Corpus)
· 언어 연구대상이 될 수 있으며 아직 관찰/측정되지 않은 전산화된 문자 텍스트 또는 음성 자료를 말함
· 협의적/일반적 의미의 코퍼스
언어 연구 목적으로 대표성, 균형성, 크기를 고려하여 정교하게 설계, 구축
종류: 장르, 방언, 사용자 특성, 역사적 시기, 언어 학습/습득, 언어 비교 등…
언어 분석 정보: 원문(raw), 형태소 분석, 어휘 의미, 구문분석 등…
· 광의적 의미의 코퍼스
언어 연구목적 이외에도 다양한 목적으로 활용 가능한 전산화된 언어자료
반드시 대표성, 균형성이 고려될 필요는 없음
웹문서, 트위터, 페이스북, 전산 텍스트…
· 언어학적 가치
모국어 화자의 언어 지식과 언어 사용 특성이 반영된 대규모 언어 데이터
인위적 x, 실제 의사소통적 맥락이 반영되어 생성된 언어 자료
직관적 판단이 어려운 언어 표현에 대한 화자 마음속의 빈도/친숙성 효과/언어 표현 사이의 상관적 관계
어휘, 문법, 의미, 담화, 방언, 언어 교육, 사회언어학, 심리언어학, 역사언어학…
· 응용적 가치
텍스트는 언어/문화공동체의 관심사/메시지를 반영함 >> 인문사회과학, 공학, 마케팅 등에서 관심
정보검색 >> 컴퓨터를 이용하여 텍스트 데이터의 신속하고 정확한 저장, 검색, 분류, 계산
전산언어학, 기계학습 >> 언어 표현의 확률적 분포 정보 추출/ 학습 데이터
3. 모집단과 표본
· 코퍼스 설계
장르, 시기, 방언, 사용자 특성의 변이성을 고려하여
언어 사용, 관심사 특성 또는 모집단의 대표성 (균형성, 크기)
보통 코퍼스 설계만 1~2년 소요 (보편성, 변이성 관찰 목적)
· 표본으로서 코퍼스: 언어 사용 모집단에서 추출된 표본, 관찰 규모가 축소된 표본으로서 모집단 특성 반영
· 모집단으로서 코퍼스: 참조 코퍼스, 개별 텍스트 특성과 비교하기 위한 모집단
4. 코퍼스 예시
1) Brown Corpus
세계 최초로 구축된 코퍼스(코퍼스 설계의 전형)
영어 어휘 출현 빈도 등과 관련한 영어교육 및 심리학에서 코퍼스의 효용성 입증
표본추출 방법: 미국 출판 비율 고려 장르별 텍스트 비율 구성
장르별 텍스트 후보 텍스트에 일련 번호 부여 후 제비뽑기
층화 표본추출 + 단순 무작위적 표본추출
2) BNC
영국 표준 영어를 대상으로 하는 1억 어휘 규모 코퍼스
문어 90% + 구어 10%
통계학적 분포, 사회 계층 분포를 고려함
3) 21세기 세종계획 코퍼스
한국어 언어 자원 구축/보급, 정보화 사회에서의 언어 정보 처리를 진작시키기 위한 국가적 과제
현대국어 기초 코퍼스
현대국어 구어 전사 코퍼스
한영, 한일 병렬 코퍼스, 북한/해외 한국어 코퍼스 …
5. 언어 자원 관점의 코퍼스 언어학
· 코퍼스 언어학 지향점
개인 연구자의 관찰 한계를 넘는 규모의 데이터 (Hidden Knowledge Discovery)
언어 사용의 변이성 및 보편성이 반영된 데이터
· 기존 언어학 연구의 한계
제한된 범위(예문 추출, 제한된 통계기법)
코퍼스 활용 도구의 지나친 의존성(다양성 부족)
제한된 코퍼스 형식, 데이터 가공 능력의 부족, 다양한 통계 학습의 빈약
6. 전산언어학 관점의 코퍼스 언어학
· 문법이론 중심의 전산적 활용(1950~1980)
· 코퍼스를 이용한 전산적 활용(1990 ~)
· 국가 주도의 대용량 코퍼스 구축, 언어규칙/패턴 학습
· 실제 응용 가능한 자연언어 처리 시스템 연구
7. 융합적 관점의 코퍼스 언어학
· 디지털 인문학
디지털 자원을 활용한 인문사회과학과 전산적 연구의 융합 분야
(데이터 분석 + 디지털 자원 생성)
· 문화체학
대체로 google Ngram Viewer 이용
· Data Science
빅데이터로부터 숨겨져 있던 유의미한 새로운 정보를 추출하는 학문
데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커, 정보 이용학문 분야
통계학은 데이터 과학의 문법임
· 21세기 문헌학
문헌학의 지향점: 역사적 기록을 통해 역사적 원형과 의미에 대한 연구를 함
빅데이터 환경의 지향점: 대개의 경우, “인간”
학제간 연구의 필요성 à 여러 학문 분야에 대한 관심과 공감 능력이 필요함
'R Programming > Notes' 카테고리의 다른 글
R 프로그래밍(3) - Factor & DataFrame (0) | 2021.02.18 |
---|---|
R 프로그래밍(2) - 기본 사용법과 Vector (0) | 2021.02.16 |