Обещал выслать пример кода.

Из последнего на Java для меди эстетик делал грабилку бонусов с сайта https://partner.loyaltyplant.com/IPLPartner/
(под тестовой учёткой SalonStyle@loyaltyplant.com и паролем lpSalonDemoTry2015 )
Для авторизации использовался объект класса Login.

Данные собирались с помощью библиотеки jsoup (http://developer.alexanderklimov.ru/android/library/jsoup.php) с HTML-страниц по адресу https://partner.loyaltyplant.com/IPLPartner/#/clients и всех последующих. При этом прикидываясь Mozilla/5.0.

partner.loyaltyplant.com



Данные вначале импортировались в объекты типа RowInfo построчно. Списки прочитывались в объект имплементирующий интерфейс IList. Для этого использовались абстрактные классы ListClient либо ListStatistic. Разница в том, что для ListStatistic возможно указания фильтра в виде начальной и конечной даты, в зависимости от того указаны ли эти даты в параметрах командной строки JAR-файла. Разница в классах вызвана тем, что в зависимости от наличия или отсутствия этого фильтра в URL-строке были заметные изменения.
Ещё разница была в том, что в ListClient использовался класс PageHtml, а в ListStatistic - класс PageJson.
PageHtml - парсит с помощью библиотеки jsoup HTML-страницу
PageJson - разбирает JSON-объект который возвращается при штатном AJAX-запросе при клике по каждой из страниц.

Если в командной строке JAR-файла указывался файл, экспорта то в него попадали эти данные в формате CSV. Предполагалось регулярное сохранение в БД, но до финиша проект так и не дошёл, потому эта функция осталась не реализована.

Не уверен, что формат этого сайта за 3 года не поменялся, но тогда эта схема работала отлично.

Исходники прилагаю во вложенном .rar архиве (2.5Mb)

-------------------------
В Газпромнефти НТЦ (2009-2010г) разрабатывал внутренний портал, но на сервлетах. Там работал с БД Oracle без Hibernate, немного сам разрабатывал хранимки и триггеры на PL\SQL.

Делал и простые грабилки, в т.ч. в многопоточном режиме, когда для инвентаризации в том же НТЦ, по списку адресов рассылались HTTP-запросы ни параллеьно обрабатывались и составлялся список оборудования, серийников аппаратуры с этой HTML-страницы и т.п.

Надеюсь мой исходный код и пояснения к нему помогут лучше сориентироваться.