[Python] 웹사이트에서 링크 목록 수집하기

샘플 코드
실행 결과

이번 글에서는 파이썬을 사용해 웹사이트에서 링크 목록을 수집해오는 예제에 대해 소개하려 한다. 간단히 얘기하면 BeautifulSoup 모듈을 사용해 웹사이트를 받아와 특정 태그에 해당하는 항목들을 수집해오는 예제이다.

샘플 코드

예제에서 사용한 웹사이트는 https://example.com/ 으로 실제로 사이트에 들어가면 아래와 같은 화면이 나온다.

샘플 코드는 이 웹사이트의 제목과 링크(More information...)가 바라보는 사이트의 주소를 가져오는 기능을 수행한다.

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 웹 페이지에서 제목 추출
title = soup.title.text
print(f'웹 페이지 제목: {title}')

# 링크 목록 추출
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

실행 결과

위 샘플 코드를 실행하면 아래와 같은 결과가 출력된다. 웹사이트의 제목인 'Example Domain' 과 More information... 이 바라보고 있는 사이트 주소인 https://www.iana.org/domains/example 가 출력된 것을 확인할 수 있다.

웹 페이지 제목: Example Domain
https://www.iana.org/domains/example

저작자표시 비영리 변경금지

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[Python] 웹사이트에서 링크 목록 수집하기

샘플 코드

실행 결과

샘플 코드

실행 결과

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역