Основные сведения

Обращение к API происходит посредством отправки запроса на адрес вида http://convextra.com/extapi/%methodName%/, где %methodName% - название вызываемого метода. Передача дополнительных параметров происходит GET или POST методом, по выбору клиента. Ответ API возвращается в формате JSON. При любом обращении к API обязательным является передача параметра apiKey (вы можете получить его на странице настроек своего профиля), в котором указывается Ваш персональный ключ.


Методы API

  • apiGetData - получение данных со страницы
  • apiAnalyzePage - анализ страницы на наличие данных
Ниже представлено описание каждого из методов с их входными праметрами. Обязательные параметры выделены жирным.


apiGetData

Метод служит для извлечения данных со страницы.

Адрес: http://convextra.com/extapi/apiGetData/

Параметры:

  • (string) url - url страницы для извлечения данных
  • (string) html - html код страницы (в случае, когда указан html, параметр url не будет использоваться для загрузки кода страницы)
  • (string) standartStamp - уникальный идентификатор набора для парсинга. В случае, если standartStamp не указан, система автоматически определит наиболее вероятный набор данных. Для получения доступных наборов данных используйте метод apiAnalyzePage.
  • (range 0..100) optAccuracy (80 by default) - опция настройки. Определяет минимально необходимую схожесть элементов, при котором они считаются принадлежащими одному набору. Допустимые значения 0..100.
  • (string) document_cookie - cookie(в строковом виде), которые будут переданы при загрузке страницы, указнной в параметре url. Даный параметр не имеет смысла, если используется параметр html.
  • (bool) csv - позволяет получить результат парсинга в виде ссылки на CSV файл.


Возвращаемые значения:
  • parsedData - массив строк извлеченных данных. Каждый элемент строки (ячейка результирующей таблицы) обладает свойствами:
    • data - текстовое представление ячейки
    • linkedTo - указывает адрес, если ячейка является ссылкой
    • isImage - указывает, является ли ячейка изображением
    • label - название столбца, которому принадлежит ячейка
    • propertyIdentifier - уникальный идентификатор столбца, которому принадлежит ячейка
    • csvUrl - ссылка на CSV файл с результатом парсинга.


Консоль проверки работы:



apiAnalyzePage

Метод служит для извлечения данных со страницы.

Адрес: http://convextra.com/extapi/apiAnalyzePage/

Параметры:

  • (string) url - url страницы для извлечения данных
  • (string) html - html код страницы (в случае, когда указан html, параметр url не будет использоваться для загрузки кода страницы)
  • (range 0..100) optAccuracy (80 by default) - опция настройки. Определяет минимально необходимую схожесть элементов, при котором они считаются принадлежащими одному набору. Допустимые значения 0..100.
  • (string) document_cookie - cookie(в строковом виде), которые будут переданы при загрузке страницы, указнной в параметре url. Даный параметр не имеет смысла, если используется параметр html.
  • (bool) optDetectPagination (0, 1) - в случае optDetectPagination равному 1 будет произведена попытка автоматического определения схемы пагинации на странице.


Возвращаемые значения:
  • set - массив наборов данных, которые удалось определить. Каждый набор данных обладает свойствами:
    • standardStamp - уникальный идентификатор набора
    • items - массив элементов набора (с указанием их XPATH в документе)
    • isImage - указывает, является ли ячейка изображением
    • label - название столбца, которому принадлежит ячейка
    • propertyIdentifier - уникальный идентификатор столбца, которому принадлежит ячейка
  • pagination - информация о найденной постраничной разбивке. Обладает свойствами:
    • scheme - шаблон ссылки страниц
    • step - шаг пагинации
    • range - диапазон страниц
    • currentPage - текущая страница


Консоль проверки работы: