본문 바로가기
AI 자동화

네이버 블로그 텍스트 수집 자동화 크롤링 툴 crawler_nblog 소개

by 쿨꾸7 2023. 6. 27.
반응형

최근 AI 기술이 급속도로 발전하면서, 연구 및 상업 분야에 다양한 텍스트 데이터 수집이 매우 중요한 시점이 되었습니다.

특히 새롭고 다양한 데이터가 풍부하게 제공되는 네이버 블로그의 경우 AI 및 빅데이터 경향성을 연구 분석하기에 우수한 자료원이라고 말씀 드릴 수 있습니다.

 

다만 이러한 데이터 수집 (크롤링 봇) 프로그램의 경우 변화하는 서비스 환경에 맞춰 업데이트가 되어야 하기 때문에 쓸만한 프로그램을 찾기가 쉽지 않습니다.

 

이번 포스팅에서는 네이버 블로그의 텍스트를 문서로 수집할 수 있는 크롤링 툴을 소개해 드리려고 합니다.

크롤링 툴의 경우, 검색어를 지정하면 해당 검색어를 네이버에서 검색 후 나온 블로그들의 텍스트를 txt 파일로 저장해 줍니다.

 

이 과정에서 추출이 안되는 블로그는 생략하며, 각각 제목, 링크, 닉네임, 본문 까지 텍스트로 추출 가능합니다.

또한 추출 최대 개수를 설정하여 지정한 만큼의 블로그 추출이 가능합니다.

기본적으로 크롬 브라우져를 원격 조정하는 방식이기 때문에 크롬 브라우저가 설치 되어 있어야 하며, 수행 후 추출된 데이터는 TXT 형태의 파일에 저장하게 됩니다.

 

압축파일 1

 

압축파일 2

 

압축파일 3

 

크롤링 프로그램인데요, 위의 세개 파일을 다운로드 후 압축해제를 하여 손쉽게 별도의 설치 없이 프로그램 실행이 가능합니다.

 

 

 

 

 

 

 

crawler_nblog v1.0.zip
11.04MB
crawler_nblog v1.0.z01
19.53MB
crawler_nblog v1.0.z02
19.53MB

다른 다운로드 링크입니다.

반응형