이번 글에서는 파이썬을 사용해 웹사이트에서 링크 목록을 수집해오는 예제에 대해 소개하려 한다. 간단히 얘기하면 BeautifulSoup 모듈을 사용해 웹사이트를 받아와 특정 태그에 해당하는 항목들을 수집해오는 예제이다.
샘플 코드
예제에서 사용한 웹사이트는 https://example.com/ 으로 실제로 사이트에 들어가면 아래와 같은 화면이 나온다.

샘플 코드는 이 웹사이트의 제목과 링크(More information...)가 바라보는 사이트의 주소를 가져오는 기능을 수행한다.
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 웹 페이지에서 제목 추출
title = soup.title.text
print(f'웹 페이지 제목: {title}')
# 링크 목록 추출
links = soup.find_all('a')
for link in links:
print(link.get('href'))
실행 결과
위 샘플 코드를 실행하면 아래와 같은 결과가 출력된다. 웹사이트의 제목인 'Example Domain' 과 More information... 이 바라보고 있는 사이트 주소인 https://www.iana.org/domains/example 가 출력된 것을 확인할 수 있다.
웹 페이지 제목: Example Domain
https://www.iana.org/domains/example
이번 글에서는 파이썬을 사용해 웹사이트에서 링크 목록을 수집해오는 예제에 대해 소개하려 한다. 간단히 얘기하면 BeautifulSoup 모듈을 사용해 웹사이트를 받아와 특정 태그에 해당하는 항목들을 수집해오는 예제이다.
샘플 코드
예제에서 사용한 웹사이트는 https://example.com/ 으로 실제로 사이트에 들어가면 아래와 같은 화면이 나온다.

샘플 코드는 이 웹사이트의 제목과 링크(More information...)가 바라보는 사이트의 주소를 가져오는 기능을 수행한다.
import requests
from bs4 import BeautifulSoup
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 웹 페이지에서 제목 추출
title = soup.title.text
print(f'웹 페이지 제목: {title}')
# 링크 목록 추출
links = soup.find_all('a')
for link in links:
print(link.get('href'))
실행 결과
위 샘플 코드를 실행하면 아래와 같은 결과가 출력된다. 웹사이트의 제목인 'Example Domain' 과 More information... 이 바라보고 있는 사이트 주소인 https://www.iana.org/domains/example 가 출력된 것을 확인할 수 있다.
웹 페이지 제목: Example Domain
https://www.iana.org/domains/example