본문 바로가기

Python Programming/Notes

(5)
CRISP-DM 공공자전거 데이터 분석 CRISP-DM Cross-industry standard process for data mining CRISP-DM이란, 데이터로부터 의미를 도출해내는 일반적인 접근법이자 표준 절차다. 분야/산업군을 막론하고 가장 널리 사용되고 있는 분석 모델이라고 볼 수 있다. 해당 모델에서는, 데이터 마이닝 프로세스를 총 6가지 단계로 나누어 분석한다. 1) Business Understanding:대상분야 이해단계 (비즈니스 로직 이해, 도메인 이해) 2) Data Understanding: 데이터 이해단계 (가용 데이터 품질, 형태, 정보 등 확인) 3) Data Exploration: 데이터 탐색단계 (그래프 그리는 단계) 4) Data Preparation: 데이터 준비단계, 학습(데이터에 들어 있는 패턴을..
Web_Crawler(3)_HTML HTML Crawling 해당 포스팅은 kgitbank의 웹크롤링 수업에 대한 내용을 일부 발췌하여 정리한 내용이다. 지난 Web Crawler(1), (2) 포스팅에서 JSON과 XML 형식 파일을 크롤링하는 방법에 대해 다루었다. HTML은 XML과 어떻게 다를까? XML은 태그 이름이 태그 안 정보의 제목 역할을 할 수 있다. HTML의 경우 태그 이름이 태그 안에 있는 정보와 관련이 없다는 특징이 있다. 이를 "HTML 태그"라고 부르며, 내용적 의미보다는 디자인/기능적 의미를 지닌다. 따라서, 태그 이름이 같은 여러 개의 정보 중에서 내가 관심 있는 것을 가져올 수 있어야 한다. Best Seller 50 오늘 사용할 URL은 알라딘 중고서점 사이트이다. 먼저, 베스트셀러 책 50권에 대한 정보..
금융데이터 다루기 - 패키지 설치와 Plotting 금융데이터 다루기 금융데이터를 불러오기 위해 필요한 Library 설치 yahoo 에서 제공하는 금융 데이터를 활용할 것이다. yfinance 를 설치한 후 yf라는 이름으로 불러온다. 명칭 yahoo finance 사이트에 접속하여 (https://finance.yahoo.com/) 회사 이름을 검색하면 종목에 어떤 명칭을 사용해야 할 지 알 수 있다. 아래 예시로부터, tesla 의 경우 TSLA라는 명칭을 사용하고 있음을 알 수 있다. !pip install yfinance import yfinance as yf Collecting yfinance Downloading https://files.pythonhosted.org/packages/7a/e8/b9d7104d3a4bf39924799067592..
Web Crawler(2) - XML 뉴스 정보 가져오기 해당 포스팅은 kgitbank의 웹크롤링 수업에 대한 내용을 일부 발췌하여 정리한 내용이다. 지난 Web Crawler(1) 포스팅에서는 웹 크롤링의 종류에 대해 설명하고, JSON 파일을 불러오는 방법에 대해 다루었다. JSON 파일은 Dictionary 형식으로 구성되어 있어 url을 request 모듈로 받은 후, 원하는 정보가 들어 있는 Key 값을 직접적으로 지정하여 접근할 수 있었다. 한편, XML 파일을 불러오는 경우, 파일을 Dictionary 형식으로 변환해 주는 모듈을 추가적으로 사용해야 한다. 그 중 xmltodict와 BeautifulSoup 모듈을 사용하여 최신 뉴스 정보를 불러오는 방법에 대해 알아볼 것이다. I. XML - Using Dictionary 우선 url을 불러오기 ..
Web Crawler(1) - JSON Web Crawler What is a Web Crawler? It is an Internet bot that systematically browses the World Wide Web, typically for the purpose of Web indexing (web spidering). It copies pages for processing by a search engine, which indexes the downloaded pages so that users can search more efficiently. There are three types of Crawling JSON - requests uses dictionary XML - requests uses dictionary & Beauti..