일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- security
- git
- 앙상블
- var
- C#
- docker
- 보안
- Clone
- bash
- npm
- loop
- nginx
- machine learning
- leetcode
- Python
- JavaScript
- C++
- type
- scss
- VUE
- vuetify
- property
- webpack
- TypeScript
- condition
- generic
- BOJ
- AI
- vue.js
- dotenv
Archives
- Today
- Total
목록Crawling (1)
ice rabbit programming
[Python] 파이썬으로 크롤링하기
크롤링 크롤링은 웹 페이지에서 필요한 데이터를 추출하는 작업이다. 이 데이터들을 원하는 형태로 파싱하여 사용한다. 도식화하여 과정을 보면 다음과 같다. 웹에서 HTML 구조 파악 -> request로 HTML 가져오기 -> HTML 분석하여 필요한 데이터 가져오기 -> 개행 문자 등 필요 없는 부분 필터링(파싱) -> 실제 사용 가져온 HTML을 분석하는 도구에는 여러 가지가 있지만, 여기서는 가장 널리 쓰이는 BeautifulSoup을 사용한다. BeautifulSoup은 HTML뿐 아니라 XML, JSON 등을 모두 분석할 수 있다. 아래와 같이 객체를 만들고 분석할 수 있다. soup = BeautifulSoup(open("index.html"), "html.parser") # 객체 생성 soup...
Development/Python
2020. 6. 13. 23:07