
1. 웹페이지에 접속하기
크롤링 작업을 시작하려면 먼저 웹페이지에 접속해야 합니다. 파이썬을 사용하여 웹페이지에 접속하는 방법은 다음과 같습니다.
#### 1.1. 필요한 라이브러리 임포트
우선 파이썬 코드에서 웹 브라우저를 제어하기 위해 셀레늄 라이브러리를 임포트해야 합니다. 아래와 같이 코드를 작성합니다:
from selenium import webdriver
#### 1.2. 크롬 드라이버 실행
크롬 드라이버를 실행하여 웹 브라우저를 엽니다. 다음 코드를 사용합니다:
# 크롬 드라이버 자동 업데이트 코드 webdriver-manager 라이브러리
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
driver.get('https://www.naver.com/')
#### 1.3. 웹페이지 확인
웹 브라우저가 열리고 지정한 웹페이지에 접속합니다. 코드를 실행하면 해당 웹페이지가 크롬 브라우저에서 열리게 됩니다.
### 2. 웹페이지에서 데이터 수집하기
이제 웹페이지에 접속했으니 원하는 데이터를 수집해봅시다. 웹페이지에서 데이터를 수집하려면 원하는 웹 요소를 찾아야 합니다.
#### 2.1. 웹 요소 찾기
뷰티풀 소프트 라이브러리를 사용하여 웹 요소를 찾습니다. 예를 들어, 웹페이지에서 제목을 가져오려면 다음과 같이 코드를 작성합니다:
from bs4 import BeautifulSoup
# 페이지의 HTML을 파싱
soup = BeautifulSoup(driver.page_source, "html.parser")
# 원하는 웹 요소를 선택
title = soup.find("h1") # h1 태그에 있는 제목을 가져옵니다.
#### 2.2. 데이터 추출
데이터를 찾았으면 해당 데이터를 추출합니다. 위에서 찾은 제목을 출력하는 코드는 다음과 같습니다:
# 제목 출력
print(title.text)
### 3. 웹 브라우저 종료
크롤링 작업이 끝나면 웹 브라우저를 종료해야 합니다. 다음 코드를 사용하여 웹 브라우저를 종료합니다:
# 웹 브라우저 종료
driver.quit()
이번 파트에서는 웹페이지에 접속하고 데이터를 수집하는 방법을 배웠습니다. 크롤링 작업을 시작하려면 웹페이지에 접속하는 것이 첫 단계입니다. 다음 파트에서는 더 복잡한 크롤링 작업과 원하는 데이터를 추출하는 방법을 더 자세히 다룰 예정입니다.
'✏️ 공부중 파이썬' 카테고리의 다른 글
| 1. 크롤링 시작 (설치 및 설정) (5) | 2023.09.22 |
|---|---|
| #5.변수사용하기 (0) | 2023.08.12 |