Обзор Octoparse: Веб-скрапинг без усилий

Обновление инструмента веб-скрапинга Octoprase 8.4 Обзор

Веб-скрапинг или автоматическое извлечение данных может быть невероятно ценным инструментом как для частных лиц, так и для бизнеса. Хотя веб-скрапинг можно выполнять вручную, это быстро становится крайне утомительной задачей. Чтобы ускорить процесс, рекомендуется использовать инструмент веб-скрапинга, такой как тот, который предлагает Octoparse. Компания недавно выпустила новую версию (8.4) своего программного обеспечения, которое включает ряд улучшений. В этой статье мы подробнее рассмотрим, что нового предлагает Octoparse 8.4.

Примечание: это спонсируемая статья, подготовленная при поддержке Octoparse. Фактическое содержание и мнения являются исключительными взглядами автора, который сохраняет редакционную независимость, даже если пост спонсируется.

Знакомство с Octoparse 8.4

Octoparse — это простой в использовании инструмент веб-скрапинга, богатый функциями. Он предлагает ряд удобных шаблонов, позволяющих пользователям сразу приступить к веб-скрапингу без особых усилий. Поскольку Octoparse не требует никаких знаний программирования, любой может воспользоваться этим программным обеспечением для извлечения данных.

Тем не менее, существует постоянная кривая обучения, которую следует учитывать, если вы хотите в полной мере использовать возможности этой программы. К счастью, Octoparse предоставляет обширную библиотеку учебных материалов, чтобы вы могли быстро изучить, как выполнять различные задачи.

Обновление инструмента веб-скрапинга Octoprase 8.4 Загрузка Windows Mac

Octoparse 8.4 доступен для пользователей Windows (7, 8, 10) или macOS (10.10 и выше) на официальном сайте. Если вы находитесь на системе Windows XP или x32, вам придется скачать более раннюю версию Octoparse 7.3.0.

Что вы можете делать с Octoparse 8.4?

С помощью Octoparse вы можете извлекать различные данные, включая данные о продуктах с крупных интернет-магазинов, таких как Amazon, eBay, Target, Walmart и других. Кроме того, инструмент может нацеливаться на крупные социальные сети, такие как Facebook, Twitter, Instagram, YouTube и др., чтобы захватывать посты, комментарии, изображения и многое другое.

Вы найдете ряд шаблонов, нацеленных на эти сайты, когда откроете Octoparse 8.4. Например, шаблон Facebook предназначен для сбора комментариев к каждому посту с страницы аккаунта Facebook. Чтобы попробовать, все, что вам нужно сделать, это нажать синюю кнопку «Попробовать».

Более того, Octoparse может помочь вам отслеживать цены на отели, рейтинги и отзывы на таких сайтах, как Booking или TripAdvisor, или создать специфическую базу данных, извлекая информацию с таких сайтов, как Желтые страницы, Yelp, Crunchbase и других.

После завершения процесса веб-скрапинга пользователи Octoparse могут экспортировать результаты в различные форматы, включая Excel, HTML, TXT, CVS или базы данных, такие как MySQL, SQL Server и Oracle.

Работа с Расширенным Режимом

В стороне от шаблонов, Octoparse позволяет извлекать данные с любого сайта. Настроить операцию довольно просто. В новой версии есть новое оформление, которое переключает рабочий процесс справа налево. Также существует область расширенных настроек в углу, что упрощает пользователям определение желаемых действий.

В целом интерфейс стал более просторным и создается впечатление, что у вас достаточно места для работы. Тем не менее, мы рекомендуем использовать более крупный монитор при работе в Octoparse. Несмотря на обновление, работа все еще кажется немного ограниченной на стандартном ноутбуке.

В Расширенном режиме вам нужно вставить соответствующий URL в приложение.

Обновление инструмента веб-скрапинга Octoprase 8.4 Ссылка Начать

Затем программа автоматически загрузит страницу и извлечет то, что считает релевантной информацией. Результаты отображаются в нижней части дисплея. Вы можете удалить ненужные поля, простым щелчком на три точки, а затем выбрав опцию «Удалить».

Обновление инструмента веб-скрапинга Octoprase 8.4 Автосканирование

Последняя версия использует технику Webview в браузере, которая предлагает отличные возможности против зависания. Наши тесты не выявили никаких раздражающих проблем с зависанием страниц.

Обратите внимание на советы

Следуя приведенным выше инструкциям, Octoparse будет извлекать данные только с текущей страницы, но если вы хотите, чтобы программа собирала данные со всех страниц, вам нужно создать цикл пагинации. Первый шаг к этому — создать рабочий процесс. Нажмите кнопку, чтобы начать.

Обновление инструмента веб-скрапинга Octoprase 8.4 Создать рабочий процесс

Теперь в окне предложений появится несколько вариантов. Выберите «Нажмите на кнопку Загрузить ещё», затем прокрутите вниз до самого низа страницы, пока не найдёте кнопку «Следующая страница» или что-то подобное. Нажмите на нее и нажмите кнопку «Подтвердить».

Обновление инструмента веб-скрапинга Octoprase 8.4 Кнопка Загрузить больше

Если вам нужно больше данных, чем изначально собрал Octoparse, вы можете создать второй элемент, который выберет каждый элемент в списке и соберет необходимые данные.

Для начала перейдите к элементу в списке и нажмите на него, затем выберите опцию «Нажать URL» в меню советов.

Обновление инструмента веб-скрапинга Octoprase 8.4 Нажать элемент

Посвященная страница элемента теперь загрузится. Нажмите на соответствующие поля, и они отобразятся ниже. Вы можете редактировать их, если хотите.

Обновление инструмента веб-скрапинга Octoprase 8.4 Обзор всех отдельных полей

Запустите задачу

Когда вы наконец будете удовлетворены контуром созданной вами задачи, пришло время запустить ее на вашем устройстве или запланировать (Локально). Также возможно запустить ее в облаке, но этот вариант доступен только для тех, кто на плане.

Обновление инструмента веб-скрапинга Octoprase 8.4 Запустить на устройстве

Процесс сбора всех данных не занимает много времени, и когда он завершен, вы можете немедленно нажать кнопку «Экспортировать данные» и выбрать предпочитаемый формат оттуда.

Обновление инструмента веб-скрапинга Octoprase 8.4 Обзор Экспорт

Octoparse довольно сложный, и вы можете достичь большего с его помощью, чем просто настройкой простых задач. Например: уточнение данных, которые вы извлекли. С помощью инструмента RegEx в инструментальной панели вы можете очистить данные, например, заменяя текст.

Обновление инструмента веб-скрапинга Octoprase 8.4 Обзор всей инструментария

Привет, Zapier!

Также стоит отметить, что с версией 8.4 Octoparse объединяет усилия с Zapier, и эта интеграция позволяет пользователям теперь использовать сервис веб-скрапинга в сочетании с тысячами приложений, такими как Google Drive, Google Sheets, Slack и другими.

Чтобы начать интеграцию рабочих процессов, вам нужно получить доступ к Zapier на вашем устройстве. Затем нажмите кнопку «Создать Zap» в правом верхнем углу экрана. Мы хотели настроить Zap, который мог бы заменять файлы Google Drive новыми документами, обработанными в Octoparse.

Чтобы настроить триггер, вам нужно будет использовать строку поиска, чтобы найти и выбрать Octoparse. Подключитесь к своему аккаунту Octoparse и начните настраивать триггер. Выберите целевую задачу Octoparse, которую вы можете искать по ID, затем установите желаемый статус задачи. Найти ID задачи немного сложно, когда вы делаете это в первый раз. К счастью, документация поможет вам, чтобы вы могли быстро разобраться. (Совет: вам нужно запускать задачу в облаке.)

Обновление инструмента веб-скрапинга Octoprase 8.4 Выберите свою задачу

Далее вам нужно будет выбрать действие приложения, которое в этом примере — Google Docs.

Обновление инструмента веб-скрапинга Octoprase 8.4 Настроить действие

В этом разделе вам нужно будет определить несколько параметров. Самый важный — это событие действия, поэтому убедитесь, что вы выбрали подходящий вариант. После этого вам придется указать дополнительные детали относительно действия в полях «Настроить действие».

Обновление инструмента веб-скрапинга Octoprase 8.4 Полный вид настройки действия

Процесс оказался довольно бесшовным в следующий раз, когда мы попытались создать новый Zap. Просто потребуется немного времени, чтобы привыкнуть. Это также может потребовать немного чтения. К счастью, и Zapier, и Octoparse предлагают свою собственную библиотеку учебных материалов, так что вам не придется тратить много времени на исследования.

Получите Octoparse сейчас

Вы можете попробовать Octoparse бесплатно, что идеально подходит для тех, кто хочет реализовать несколько простых проектов. Зарегистрируйтесь с аккаунтом, чтобы начать. Однако, чтобы получить доступ ко всему набору функций, вам нужно будет перейти на один из трех платных планов:

  • Стандартный план: 75 долларов США в месяц
  • Профессиональный план: 209 долларов США в месяц
  • Корпоративный план: настраиваемые функции по запросу

Обновление инструмента веб-скрапинга Octoprase 8.4 Планы

Хотя в бесплатной версии есть много возможностей, платные версии предлагают расширенные опции. Это включает доступ к большему количеству роботов, запланированные извлечения, одновременные облачные извлечения, автоматическую ротацию IP-адресов, доступ к API, поддержку по электронной почте и многое другое.

Если вас заинтересовал Octoparse, вы можете сначала получить бесплатный уровень и посмотреть, насколько хорошо он соответствует вашим потребностям. Последняя версия доступна для загрузки на официальном сайте прямо сейчас.