이번 글에서는 파이썬을 사용해 웹사이트에서 링크 목록을 수집해오는 예제에 대해 소개하려 한다. 간단히 얘기하면 BeautifulSoup 모듈을 사용해 웹사이트를 받아와 특정 태그에 해당하는 항목들을 수집해오는 예제이다.
샘플 코드
예제에서 사용한 웹사이트는 https://example.com/ 으로 실제로 사이트에 들어가면 아래와 같은 화면이 나온다.
샘플 코드는 이 웹사이트의 제목과 링크(More information...)가 바라보는 사이트의 주소를 가져오는 기능을 수행한다.
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 웹 페이지에서 제목 추출
title = soup.title.text
print(f'웹 페이지 제목: {title}')
# 링크 목록 추출
links = soup.find_all('a')
for link in links:
print(link.get('href'))
실행 결과
위 샘플 코드를 실행하면 아래와 같은 결과가 출력된다. 웹사이트의 제목인 'Example Domain' 과 More information... 이 바라보고 있는 사이트 주소인 https://www.iana.org/domains/example 가 출력된 것을 확인할 수 있다.
웹 페이지 제목: Example Domain
https://www.iana.org/domains/example
반응형