Octoparse 리뷰: 웹 스크래핑을 쉽게

웹 스크래핑 또는 자동 데이터 추출은 개인과 기업 모두에게 매우 유용한 도구가 될 수 있습니다. 웹 스크래핑은 수작업으로 할 수 있지만, 빠르게 지루한 작업으로 변할 수 있습니다. 이 과정을 빠르게 하기 위해 사용자는 Octoparse와 같은 웹 스크래핑 도구에 의존하는 것이 좋습니다. 이 회사는 최근 8.4 버전의 소프트웨어를 출시했으며, 여러 가지 개선 사항이 포함되어 있습니다. 이 기사에서는 Octoparse 8.4가 제공하는 것들에 대해 자세히 살펴보겠습니다.
노트: 이 글은 후원 기사를 포함하며 Octoparse에 의해 가능해졌습니다. 실제 내용과 의견은 저자 본인의 견해로, 후원 게시물이더라도 편집 독립성을 유지합니다.
Octoparse 8.4 알아보기
Octoparse는 기능이 풍부한 사용하기 쉬운 웹 스크래핑 도구입니다. 사용자가 큰 노력 없이 즉시 웹 스크래핑을 시작할 수 있도록 몇 가지 편리한 템플릿이 제공됩니다. Octoparse는 코딩 지식이 필요하지 않기 때문에 누구나 이 데이터 마이닝 소프트웨어를 사용할 수 있습니다.
그러나 이 프로그램의 모든 기능을 최대한 활용하고 싶다면 일관된 학습 곡선이 고려되어야 합니다. 다행히도 Octoparse는 다양한 작업을 수행하는 방법에 대한 튜토리얼 라이브러리를 제공하여 빠르게 학습할 수 있도록 돕습니다.

Octoparse 8.4는 공식 웹사이트에서 Windows(7, 8, 10) 또는 macOS(10.10 이상) 사용자에게 제공됩니다. Windows XP 또는 x32 시스템을 사용 중이라면 이전 버전인 Octoparse 7.3.0을 다운로드해야 합니다.
Octoparse 8.4로 무엇을 할 수 있나요?
Octoparse를 사용하면 Amazon, eBay, Target, Walmart와 같은 주요 전자상거래 웹사이트에서 제품 데이터를 포함한 다양한 데이터를 추출할 수 있습니다. 또한 Facebook, Twitter, Instagram, YouTube 등과 같은 주요 소셜 미디어 웹사이트를 목표로 하여 게시물, 댓글, 이미지 등을 수집할 수 있습니다.
Octoparse 8.4를 열면 이러한 웹사이트를 타겟으로 하는 일련의 템플릿을 찾을 수 있습니다. 예를 들어, Facebook 템플릿은 Facebook 계정 페이지의 각 게시물에 대한 댓글을 스크래핑하도록 설계되었습니다. 이를 시도해 보려면 파란색 “시도하기” 버튼을 클릭하면 됩니다.
게다가 Octoparse는 Booking이나 TripAdvisor와 같은 웹사이트에서 호텔 가격, 평점 및 리뷰를 추적하거나 Yellow Pages, Yelp, Crunchbase와 같은 웹사이트에서 정보를 스크래핑하여 특정 데이터베이스를 만들도록 도와줄 수 있습니다.
웹 스크래핑 프로세스가 완료되면 Octoparse 사용자는 결과를 Excel, HTML, TXT, CVS 또는 MySQL, SQL Server 및 Oracle과 같은 데이터베이스와 같은 다양한 형식으로 내보낼 수 있습니다.
고급 모드 작업하기
템플릿 외에도 Octoparse는 사용자가 어떤 웹사이트에서든 데이터를 스크래핑할 수 있도록 허용합니다. 작업을 설정하는 것은 매우 간단합니다. 새 버전의 레이아웃은 워크플로우를 왼쪽에서 오른쪽으로 전환합니다. 또한 원하는 작업을 정의하기 쉽게 하는 고급 설정 영역이 있습니다.
전반적으로 인터페이스는 더 넓고 숨 쉴 공간이 많이 느껴집니다. 그럼에도 불구하고 Octoparse에서 작업할 때 더 큰 모니터를 사용하는 것이 좋습니다. 업데이트에도 불구하고 일반 노트북에서는 여전히 조금 비좁게 느껴집니다.
고급 모드에서는 관련 URL을 애플리케이션에 붙여넣어야 합니다.

다음으로 프로그램은 자동으로 페이지를 로드하고 관련 정보를 추출합니다. 결과는 화면 하단에 표시됩니다. 관심 없는 필드는 세 개의 점을 클릭한 후 “삭제” 옵션을 선택하면 제거할 수 있습니다.

최신 버전은 브라우저 내의 Webview 기술을 활용하여 훌륭한 동결 방지 기능을 제공합니다. 우리의 테스트에서는 짜증나는 페이지 정지 문제가 발생하지 않았습니다.
팁에 주의하세요
위의 지침을 따르면 Octoparse는 현재 페이지에서만 데이터를 추출하지만, 모든 페이지에서 데이터를 마이닝하려면 페이지네이션 루프를 만들어야 합니다. 이를 수행하기 위한 첫 번째 단계는 워크플로우를 만드는 것입니다. 시작 버튼을 클릭하세요.

제안 상자가 여러 옵션을 표시합니다. “더 보기 버튼 클릭”을 선택한 후 페이지 하단으로 스크롤하여 “다음 페이지” 버튼 또는 유사한 항목을 찾아 클릭한 후 “확인” 버튼을 누르세요.

Octoparse가 원래 수집한 것보다 더 많은 데이터가 필요하다면, 목록의 모든 항목을 선택하고 원하는 데이터를 가져올 두 번째 요소를 생성할 수 있습니다.
시작하려면 목록의 항목으로 가서 클릭한 후 팁 메뉴에서 “URL 클릭” 옵션을 선택하세요.

이제 항목의 전용 페이지가 로드됩니다. 관련 필드를 클릭하면 아래에 표시됩니다. 필요시 수정할 수 있습니다.

작업 실행하기
마침내 만든 작업의 개요에 만족하게 되면 장치에서 실행하거나 일정에 맞춰 실행할 시간입니다(로컬). 클라우드에서 실행하는 것도 가능하지만, 이 옵션은 요금제에 있는 경우에만 사용할 수 있습니다.

모든 것을 스크래핑하는 과정은 그리 오래 걸리지 않으며, 완료되면 즉시 “데이터 내보내기” 버튼을 클릭하고 거기서 원하는 형식을 선택할 수 있습니다.

Octoparse는 꽤 복잡하며 단순한 작업 설정 그 이상으로 더 많은 것을 달성할 수 있습니다. 예를 들어, 추출한 데이터를 개선하는 것입니다. 도구 상자의 RegEx 툴을 통해 텍스트를 교체하는 등의 데이터 정리를 할 수 있습니다.

안녕하세요, Zapier!
8.4 버전과 함께 Octoparse가 Zapier와 협력하게 되었으며, 이 통합은 사용자가 Google Drive, Google Sheets, Slack 및 기타 수천 개의 앱과 함께 웹 스크래핑 서비스를 사용할 수 있음을 의미합니다.
워크플로우 통합을 시작하려면 장치에서 Zapier에 접근해야 합니다. 그런 다음 화면 오른쪽의 “Zap 생성” 버튼을 클릭하세요. 우리는 Octoparse에서 처리된 새로운 문서로 Google Drive 파일을 교체할 수 있는 Zap을 설정하고 싶었습니다.
트리거를 설정하려면 검색창을 사용하여 Octoparse를 찾고 선택해야 합니다. Octoparse 계정과 연결한 후 트리거를 설정하기 시작합니다. 목표로 하는 Octoparse 작업을 선택하고, ID로 검색한 다음 이상적인 작업 상태를 설정하세요. 작업 ID를 찾는 것은 처음에는 약간 까다로울 수도 있습니다. 다행히도 설명서에서 도움을 받을 수 있으므로 빠르게 알아낼 수 있습니다. (팁: 클라우드에서 작업을 실행해야 합니다.)

다음으로, 이 예에서는 Google Docs인 액션 앱을 선택해야 합니다.

이 섹션에서는 여러 매개변수를 정의해야 합니다. 가장 중요한 것은 액션 이벤트이므로 적절한 옵션을 선택해야 합니다. 이후에는 “액션 설정” 필드에서 액션에 대한 자세한 내용을 지정해야 합니다.

다음 번에 새로운 Zap을 만들 때 과정은 꽤 매끄럽게 진행되었습니다. 다소 적응이 필요한 단계일 수도 있지만, 약간의 독서가 필요할 수 있습니다. 다행히도 Zapier와 Octoparse 모두 자체 튜토리얼 라이브러리를 제공하므로 많은 시간을 들여 연구할 필요는 없습니다.
지금 Octoparse 사용해보세요
Octoparse를 무료로 시험해볼 수 있으며, 이는 간단한 프로젝트를 하려는 사람들에게 적합합니다. 계정을 등록하여 시작하세요. 그러나 전체 기능을 사용하려면 세 가지 유료 플랜 중 하나로 업그레이드해야 합니다:
- 표준 플랜: 월 $75
- 전문 플랜: 월 $209
- 기업 플랜: 맞춤형 기능 요구

무료 버전에서 많은 것을 할 수 있지만, 유료 버전에서는 고급 옵션이 제공됩니다. 여기에는 더 많은 크롤러에 대한 접근, 일정별 데이터 추출, 동시 클라우드 데이터 추출, 자동 IP 회전, API 접근, 이메일 지원 등이 포함됩니다.
Octoparse에 대해 궁금하다면, 먼저 무료 티어를 받아서 얼마나 잘 맞는지 확인해보세요. 최신 버전은 지금 공식 웹사이트에서 다운로드 가능합니다.