일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- TypeScript
- docker
- loop
- 보안
- generic
- C#
- VUE
- Python
- nginx
- webpack
- leetcode
- property
- var
- 앙상블
- type
- Clone
- scss
- AI
- git
- JavaScript
- bash
- security
- C++
- machine learning
- BOJ
- condition
- npm
- dotenv
- vuetify
- vue.js
Archives
- Today
- Total
목록BeautifulSoup (1)
ice rabbit programming

크롤링 크롤링은 웹 페이지에서 필요한 데이터를 추출하는 작업이다. 이 데이터들을 원하는 형태로 파싱하여 사용한다. 도식화하여 과정을 보면 다음과 같다. 웹에서 HTML 구조 파악 -> request로 HTML 가져오기 -> HTML 분석하여 필요한 데이터 가져오기 -> 개행 문자 등 필요 없는 부분 필터링(파싱) -> 실제 사용 가져온 HTML을 분석하는 도구에는 여러 가지가 있지만, 여기서는 가장 널리 쓰이는 BeautifulSoup을 사용한다. BeautifulSoup은 HTML뿐 아니라 XML, JSON 등을 모두 분석할 수 있다. 아래와 같이 객체를 만들고 분석할 수 있다. soup = BeautifulSoup(open("index.html"), "html.parser") # 객체 생성 soup...
Development/Python
2020. 6. 13. 23:07