Зміст
Збір даних
Octoparse - це комплексне програмне рішення для масового та автоматизованого збору (веб-скрейпінгу), структуризації та аналізу даних, для використання якого не потрібно навичок програмування. З його допомогою можна перетворити будь-які неструктуровані веб-дані в готову інформаційну базу для маркетингу, досліджень, продажів, просування і вирішення безлічі інших бізнес-завдань.
Залежно від того, на яких сайтах буде використовуватися ПО, можна отримати дані і/або контент наступного типу: ціни та інформація про продукти (для торгових майданчиків); пости, публікації, коментарі (соціальні мережі); ціни, рейтинги, відгуки (букінг, нерухомість); вакансії і зарплати (робота) і т. д.
Розглянуте ПЗ функціонує під управлінням унікального алгоритму, в основі якого лежить штучний інтелект, що і дозволяє автоматично знаходити і витягувати дані веб-сторінок за попередньо вказаними або шаблонними параметрами.
Шаблони
Сервіс надає більше 200 готових до використання шаблонів по збору даних з сайтів наступних категорій:
- Популярні веб-сервіси;
- Інтернет-магазини та ринки (Amazon, eBay, Walmart тощо);
- Готелі та подорожі (Airbnb, Booking, Tripadvisor тощо);
- Соціальні медіа та медіа (Facebook, Instagram, Twitter, YouTube тощо);
- Пошукові системи (Google, Yahoo);
- Дошки оголошень (Crunchbase, Yellow Pages, Yelp тощо);
- Картографічні служби (Google);
- Огляди;
- Пошук роботи;
- Нерухомість;
- Шкільна освіта;
- Фінанси;
- Ставки.
Створення завдань
Крім шаблонних, в Octoparse можна створити свої власні завдання з вилучення даних з інтернету. Виконується дана процедура в три простих кроки: вказівка URL-адреси сторінки сайту, з якої потрібно зібрати дані, вибір мети і потім запуск і безпосереднє Витяг.
Процедура гранично проста і автоматизована – система розпізнає ключові елементи на веб-сторінках і виділяє (підсвічує) їх, що не тільки забезпечує додаткову зручність у взаємодії, але і економить час. Ще більш важливим є те, що такий підхід виключає необхідність знання і використання мови XPath для самостійного створення XML-запитів.
Збереження та зміна налаштувань завдань
В ході автоматичного вилучення інформації і на підставі виявленого на сайті контенту Октопарс створює власні настройки, які можна як зберегти у вигляді шаблонних і готових для подальшого використання, так і змінити на свій розсуд, наприклад, виключивши одні категорії і додавши інші або просто змінивши їх черговість.
Очевидно, що необхідність зміни базових налаштувань, якими і обумовлюється кінцеве представлення зібраних даних, виникає досить часто. Спочатку вони відображаються у вигляді наочної таблиці з автоматично певними категоріями і порядком, стовпці в якій можна міняти місцями, а непотрібні просто видалити.
Крім цього, можна і часто потрібно самостійно вказувати такі параметри, як кількість сторінок на сайті і інтервал звернення до них.
Після автоматичного або самостійного визначення налаштувань, запуску і завершення безпосереднього процесу вилучення створюється робочий шаблон (workflow), що складається з декількох блоків – редагованих елементів, кінцевий вигляд яких і визначає те, як буде виглядати завдання в результаті.
Представлення завдань та управління
Готові завдання додаються на інформаційну панель (доступна з верхнього та бічного меню), звідки можна виконувати такі дії, як запуск та зупинка процесу вилучення, ділитися з колегами, експортувати, переглядати локальні дані та ті, що зберігаються в хмарі.
Для більш зручного пошуку і управління рекомендується створювати групи, за необхідності можна переміщати завдання з однієї категорії в іншу.
Додаткові інструменти
У складі актуальної (бета) версії Октопарс є два додаткових інструменту, які розширюють функціональні можливості цієї програми і дозволяють більш ефективно взаємодіяти з даними. Так, RegEx Tool надає можливість очищення зібраної інформації, а Database Auto Export Tool дозволяє задавати свій розклад для експорту в локальну базу.
Експорт даних
Зібрані за допомогою Octoparse дані по необхідності можуть бути збережені в форматах XLSX, CSV, JSON і т.д. для подальшої їх обробки в сторонньому програмному забезпеченні, наприклад, Excel або Ajax. Також є можливість експорту в бази даних.
Проксі-сервери
Розглянута програма надає можливість використання власного проксі-сервера в процесі збору даних. Таким чином можна приховати або автоматично підміняти свою IP-адресу, щоб не потрапити в чорний список оброблюваних веб-ресурсів.
Блокування реклами
Octoparse містить в своєму складі засоби блокування реклами, завдяки чому скорочується час завантаження сторінок і звернень до них і, отже, оптимізується і прискорюється рішення основних робочих завдань.
Хмарні сервіси
Для забезпечення безпеки і надійності процесу веб-скрейпінга Октопарс використовує передові технології хмарних обчислень власної розробки, а також надає доступ до своїх сервісів і серверів, швидкість роботи яких до 20 разів вище, ніж у локальних аналогів.
Уроки використання
На офіційному сайті Octoparse представлена вичерпна бібліотека навчальних матеріалів, завдяки яким можна в найкоротші терміни освоїти всі функціональні можливості даного ПЗ, щоб максимально ефективно використовувати його для організації робочих процесів і вирішення бізнес-завдань. Перейти до них можна і з інтерфейсу програми, її головного вікна.
Технічна підтримка
У разі виникнення будь-яких труднощів у використанні і/або проблем в роботі Октопарс завжди можна звернутися в службу технічної підтримки Сервісу веб-скрейпінга даних. Доступні наступні канали зв'язку: електронна пошта, форум і спільнота, соціальні мережі і живий чат (є тільки в платному тарифі). При цьому варто відзначити, що для отримання відповідей на ті чи інші питання часто досить звернутися до представленої на сайті базі знань або вже згаданим вище навчальних матеріалів.
Гідності
- Наявність 14-денної безкоштовної пробної версії;
- Простий і зручний, інтуїтивно зрозумілий інтерфейс;
- Відсутність необхідності володіння навичками програмування;
- Можливість використання хмарних сервісів компанії-розробника;
- Наявність навчальних матеріалів по використанню ПЗ;
- Технічна підтримка з декількома каналами зв'язку;
- Велика бібліотека готових шаблонів, які за необхідності можна змінювати під свої завдання;
- Підтримка найбільш популярних веб-сайтів і сервісів абсолютно різних спрямувань і тематик.
Недоліки
- Відсутність русифікації;
- Відсутність шаблонів для вітчизняних сайтів;
- На момент написання огляду актуальні версії Octoparse для Windows і macOS доступні тільки у вигляді beta. Попередня (стабільна) відрізняється від неї інтерфейсом і функціональністю.
Завантажити пробну версію Octoparse
Завантажити останню версію програми з офіційного сайту