Ziks

구글 이미지 크롤러 (Image Crawler) 본문

Development/Python

구글 이미지 크롤러 (Image Crawler)

YunZiks 2019. 7. 13. 23:03

딥러닝 학습에 필요한 이미지 데이터를 모으기위해 시도했다.

 

BeautifulSoup4와 Selenium으로 시도했지만, 구글은 이미지 검색시에 20개정도를 보여주고 스크롤하여 내려야 새로운 데이터들이 업로드 되었다. 이는 너무 불편했기에 ㅠㅠ.. 

 

iCrawl Docshttps://icrawler.readthedocs.io/en/latest/builtin.html#search-engine-crawlers

 

찾아보니 iCrawler API 를 이용하기로했다. iCrawl API는 사용방법이랄것도 없이 간단하기에 

코드를 내가 사용할 목적에 맞게 검색엔진을 import해와 수정하면 끝!

 

다만, 단순히 단어로 검색되다보니 데이터의 100번째 인덱스까지는 어느정도 맞지만 그 후의 파일을 확인하면

엉망진창 ㅠㅠ ....

일단은 하나하나 거르고 다시 라벨링 하기로 .. 

 

결국 끝은 노가다....ㅎㅎㅎ

 

 

Github : https://github.com/Zikx/googleImageCrawler

'Development > Python' 카테고리의 다른 글

Python string Library을 이용한 랜덤 String Token  (0) 2020.01.08
Comments