티스토리 뷰
현재 프로젝트를 위해 많은 이미지가 필요합니다. tensorflow.datasets 에도 많은 데이터셋이 있고, kaggle 사이트에도 많은 데이터셋이 있고, 정부 기관 등에도 많은 데이터가 있습니다.
이번 프로젝트를 하면서 크롤링을 어떻게 하는지 해보고 싶어 오픈된 데이터셋이 아닌 저만의 데이터셋을 만들어보았습니다. (상업용 X) 또한, 구글에 제가 원하는 데이터가 더 많은 것 같아 구글이미지를 이용했습니다.
1. 우선 크롤링에 기본적으로 필요한 아래 모듈을 다운받아줍니다.
pip install beautifulsoup4
pip install selenium
2. 크롬 드라이버 설치
크롬으로 돌릴 예정이기 크롬 드라이버를 설치합니다.
chromedriver.chromium.org/downloads
여기서 본인의 크롬 버전에 맞는 드라이버를 설치 후, exe 파일을 크롤링시킬 py 또는 ipynb 파일과 같은 디렉토리에 넣습니다.
3. 아래 코드 실행
from selenium import webdriver
from bs4 import BeautifulSoup as soups
def search_selenium(search_name, search_limit) :
# 구글 이미지 검색
search_url = "https://www.google.com/search?q=" + str(search_name) + "&hl=ko&tbm=isch"
# 크롬 드라이버 불러오기
browser = webdriver.Chrome('./chromedriver.exe')
browser.get(search_url)
# img 파일 불러오기
image_count = len(browser.find_elements_by_tag_name("img"))
print("로드된 이미지 개수 : ", image_count)
browser.implicitly_wait(2)
# 이미지 저장
for i in range( search_limit ) :
image = browser.find_elements_by_tag_name("img")[i]
image.screenshot("./img/" + str(i) + ".jpg") # 맨 앞에 저장경로 설정.
browser.close()
if __name__ == "__main__" :
search_name = input("검색하고 싶은 키워드 : ")
search_limit = int(input("원하는 이미지 수집 개수 : "))
search_selenium(search_name, search_limit)
구글 이미지 url을 search_url로 잡은 뒤, selenium 모듈의 webdriver를 이용하여 크롬과 연결시킵니다. 이후 해당 url에서 검색되는 img 태그를 찾아 모조리 다운 받는 방법입니다.
(2초 기다리는 것은 오류 방지용)
이후 img 파일을 현재 폴더 / img / 1.jpg 이런 식으로 저장시켰습니다.
결과는 다음과 같습니다.
'암호학 > 자기주도연구 프로젝트' 카테고리의 다른 글
DES 이미지 암호화 딥러닝 학습 (16round) (0) | 2021.05.05 |
---|---|
이미지 암호화 / DES (single) 활용한 이미지 암호화 (0) | 2021.04.09 |
암호화 이미지 딥러닝 모델링 (AES128) (0) | 2021.04.01 |
이미지 암호화 / AES 함수 만들어 사용 (0) | 2021.04.01 |
이미지 암호화 - python AES 라이브러리 사용 (9) | 2021.03.26 |
댓글