웹 크롤링이란?
⚪ 웹 크롤링이란?
웹 크롤링(Web Crawling)은 인터넷 상의 웹사이트에서 자동으로 데이터를 수집하는 과정입니다. 간단히 말해, 웹 페이지를 "탐색"하여 정보를 "수집"하는 작업이라고 할 수 있습니다. 이를 통해 웹사이트의 정보를 자동으로 가져오거나, 검색엔진에서 검색 결과를 제공하기 위해 사용됩니다.
⚪ 웹 크롤링의 도구
웹 크롤링을 하기 위해서는 주로 프로그래밍 언어(특히 Python)와 몇 가지 라이브러리를 사용합니다. 예를 들어:
- BeautifulSoup: HTML 문서를 파싱하고 원하는 정보를 추출하는 데 사용됩니다.
- Selenium: 동적으로 로드되는 페이지나 사용자 상호작용이 필요한 페이지를 크롤링할 때 사용됩니다.
- Scrapy: 고급 웹 크롤링 프레임워크로, 대규모 크롤링에 적합합니다.
- Requests: 웹 페이지의 HTML 콘텐츠를 요청하고 받아오는 데 사용됩니다.
Selenium은 웹 브라우저를 자동으로 제어하는 데 사용되는 오픈 소스 도구입니다. 웹 애플리케이션을 테스트하거나 크롤링을 할 때 유용하게 사용됩니다. 특히 동적 콘텐츠가 많은 웹 페이지에서 자주 사용되며, 사용자가 실제로 브라우저에서 수행하는 작업(예: 클릭, 스크롤, 데이터 입력 등)을 자동으로 시뮬레이션할 수 있습니다.
Selenium 및 ChromeDriver 설치하기
* 최신버전의 selenium을 설치하신 분들은 Chrom Driver를 따로 설치할 필요가 없습니다.
🔗 크롬 드라이브 오류
⚪ Chrome 버전 확인 방법
크롬창을 열어 설정에 들어간 후, Chrome 정보 페이지에서 현재 chrome 버전을 확인 할 수 있습니다. 참고로 제 노트북에 설치되어 있는 크롬은 134버전 입니다.
⚪ 나의 버전에 맞는 Chrome Driver 설치하기
🔗 Chrome Driver 에 접속하여 버전에 맞는 Chrome Driver를 설치할 수 있습니다.
제 chrome은 134버전으로, 115버전 이상이기 때문에, 'Chrome 버전 115 이상' 페이지로 넘어갔습니다.
다운로드 | ChromeDriver | Chrome for Developers
이 페이지는 Cloud Translation API를 통해 번역되었습니다. 다운로드 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. 달리 명시되지 않는 한 이 페이지의 콘텐츠
developer.chrome.com
stable 테이블에서 현재 플랫폼(운영체제)에 맞는 파일의 주소를 주소창에 입력하여 다운로드 받으시면 됩니다. 다운로드 받은 파일은 알집파일로 압축되어 있습니다.
여기까지 따라오지 못하신 분들을 위해, 134버전의 Chrome Driver 압축 파일을 공유드립니다.
(Version: 134.0.6998.88 (r1415337))
위 알집파일을 압축 해제하면, chromedriver.exe파일이 들어있는 것을 확인 할 수 있습니다. 이 파일이 python selenium을 활용하여 웹크로링할 때 필수적으로 필요합니다.
저는 다운로드 받은 chromedriver을 아래의 경로에 이동시켰습니다.
- C:\Users\webma\Desktop
⚪ Selenium 설치하기
저는 Anaconda를 설치하여 Python을 이용하고 있습니다. Anaoncda Prompt에서 pip 명령어를 활용하여 selenium을 설치 할 수 있습니다.
pip install selenium