Вход | Регистрация



Большой объем данных при парсинге

Большой объем данных при парсинге
Я
   Александр Тоха
 
16.09.18 - 11:54
Уважаемые знатоки, добрый день. Подскажите как решить мне одну очень простую для вас задачу) Вкратце, пишу парсер впервые) и так случилось, что мне нужно открыть постоянное соединение с источником и получать только измененные данные, так как в текущей реализации "curl_multi" уперся в узкое место - канал, json данные 1.06-1.09mb летят через космос и доходят до пасрера через 3-3.4с. Это очень большая задержка, какой костыль или решение есть для данной проблемы ?
 
 
   Пузан
 
1 - 16.09.18 - 12:03
(0) Упаковывать данные перед передачей и распаковывать после получения.
   Александр Тоха
 
2 - 16.09.18 - 12:04
(1) как упаковать перед передачей на стороннем ресурсе ?
   Cool_Profi
 
3 - 16.09.18 - 12:10
Сделй так, чтобы пакет летел не через космос, а по земле
   Пузан
 
4 - 16.09.18 - 12:12
(2) Т.е. ты никак на тот ресурс повлиять не можешь, попросить отдавать данные пакетами поменьше, упаковывать их? Тогда никак. Расширить канал вряд ли даст эффект, а больше ты ни на что не влияешь.
   Александр Тоха
 
5 - 16.09.18 - 12:16
(3) имеете ввиду взять vps ближе к источнику ?
   Cool_Profi
 
6 - 16.09.18 - 12:19
(5) Откуда я знаю, как у тебя там всё это собрано. Тебе видней
   Александр Тоха
 
7 - 16.09.18 - 12:45
(6) парсер на localhost
   Asmody
 
8 - 16.09.18 - 12:51
Не заниматься велосипедостроением, а использовать готовые MQ.
   Александр Тоха
 
9 - 16.09.18 - 12:53
(8) что такое MQ ?) и как это MQ поможет мне ?
   Пузан
 
10 - 16.09.18 - 12:56
(8) Для этого ему надо будет все-равно иметь влияние на источник данных. А у него нет. :)
 
 Рекламное место пустует
   dmitryds
 
11 - 16.09.18 - 12:56
(0) можно попробовать в заголовке запроса добавить в поддерживаемые кодировки gzip
   Garykom
 
12 - 16.09.18 - 12:59
(9) Тебе намекают что нехрен заниматься парсингом html, договорись с "поставщиком данных" (владельцем сайта) и получай готовые данные в нужном виде.
   Александр Тоха
 
13 - 16.09.18 - 13:04
(12) не думаю, что это возможно
   Пузан
 
14 - 16.09.18 - 13:05
(13) А ты пробовал? Может у них даже есть такая фишка уже готовая, просто ты об этом не знаешь. Че вообще за данные и че за источник такой? Публичный и открытый?
   Cyberhawk
 
15 - 16.09.18 - 13:06
А что такое "открыть постоянное соединение с источником и получать только измененные данные"?
   Александр Тоха
 
16 - 16.09.18 - 13:10
(15) ну это я достучался до сокета одного из источников данных. Тут же меня отвергают))))))))
   Александр Тоха
 
17 - 16.09.18 - 13:16
(14) апи у них нету. Британская БК с большим кол-ом событий. Мне нужно забирать эти события в полном объеме. Если я спокойно забираю данные у других, то тут я запнулся.
   Cyberhawk
 
18 - 16.09.18 - 13:19
Какой еще сокет, чем ты там занимаешься?
   Александр Тоха
 
19 - 16.09.18 - 13:21
(18) работу работаю
   sechs
 
20 - 16.09.18 - 13:32
(19)
в (0) у тебя "получать только измененные данные"
в (17) - "в полном объеме"

Ты б определился, работник.
   Доктор Кто
 
21 - 16.09.18 - 13:32
(0) Так ты можешь получать только измененные данные? Или это невозможнож и ты ищешь другой способ? Ничего непонятно, что тебе нужно. Сам сайт этого сервиса как работает?
   sechs
 
22 - 16.09.18 - 13:37
(0) Разверни свой сервер рядом с источником данных, чтобы канал не жал при парсинге. Со своего сервера отдавай разобранные данные хоть через космос, хоть почтой россии
   Александр Тоха
 
23 - 16.09.18 - 13:38
(22) СПАСИБО! Именно так и поступлю, взял вируталку у того же провайдера, что и источник )) Спасибо !
   Asmody
 
24 - 16.09.18 - 13:39
(9) Увольняйся
   Доктор Манхэттен
 
25 - 16.09.18 - 13:40
(23) Отлично! Попроси провайдера чтобы разместил виртуалку на том же сервере если возможно, или в одной локальной сети, будет вообще чотко )))
   Александр Тоха
 
26 - 16.09.18 - 13:46
(24) Почему Вы думаете, что я обязан знать MQ ?
   Александр Тоха
 
27 - 16.09.18 - 14:08
(24) нашел) просто по первому запросу у меня софтина от IBM открылась, почитал понял. Спасибо за наводку
   Сияющий в темноте
 
28 - 17.09.18 - 10:42
Mq это те же тапки,только порезанные на сообщения.
В случае большого числа сообщений и необходимости в каждое добавить все упомянутые поля получаем дикий рост обьема
   crocop
 
29 - 28.09.18 - 06:36
а какой сайт необходимо спарсить?


Список тем форума
Рекламное место пустует  Рекламное место пустует
ВНИМАНИЕ! Если вы потеряли окно ввода сообщения, нажмите Ctrl-F5 или Ctrl-R или кнопку "Обновить" в браузере.
Рекламное место пустует