Вход | Регистрация


Информационные технологии :: Администрирование

Неустранимая аппаратная ошибка + Тормоза на сервере.

Неустранимая аппаратная ошибка + Тормоза на сервере.
Я
   AleksandrM09
 
30.10.18 - 20:13
Не могу локализовать ошибку, проявляется по разному, но итог один - тормоза на терминальном сервере. Извиняюсь за многобукв.

Имеем сервер :
Мать - ASRock EP2C612D8 (был ранее заменена по гарантии на идентичную, после замены ОС не переустанавливали)
ОЗУ - 64 Гб
Процессор - Intel Xeon E5-2620 v3, 2,4 Ггц
RAID контроллер - LSI MegaRAID SAS 9271-8i

На сервере крутится
Windows Server 2008R2
Терминалы
MS SQL 2012
Сервер 1С
УТ 10.3 ~ 80 Гб
Бух 3.0 ~ 80 Гб
Пользователей до 20-25, в основном работают в УТ, забивают заявки и и тд.

В штатном режиме работы  процессор загружен до 15 процентов, чаще всего до 10.

Описание проблемы :

Сегодня пользователи пожаловались на тормоза, в диспетчере задач увидел загруженность процессора под 60%, причем понять что именно грузило не возможно, поочередно процессор то SQL, то платформа, то rphost, то другое по, хотя показатели по оперативной памяти и дисковой активности были в норме.
В  событиях красовалась ошибка :

Неустранимая аппаратная ошибка.
Источник : WHEA-Logger
Компонент: Порт PCI Express Root
Источник ошибки: BOOT
Шина:Устройство:Функция: 0x0:0x3:0x2
ИД поставщика:ИД устройства: 0x8086:0x2f0a
Код класса: 0x604

Согласно ИД устройства это
Intel(R) Xeon(R) E7 v3/Xeon(R) E5 v3/Core i7 PCI Express Root Port 3 - 2F0A

Подобная ошибка и тормоза выскакивали не первый раз, помогало обычная перезагрузка.  

Пробовал обновить драйвера на материнской плате - безуспешно, до следующих тормозов могло пройти 2-3 недели.
Сегодня перезагрузка не решила, процессор был загружен изначально, помогло только вкл/выкл.

После загрузки снова выскочила ошибка, но уже ссылалось на другое ИД оборудования
Intel(R) Xeon(R) E7 v3/Xeon(R) E5 v3/Core i7 DMI2 - 2F00

С подобным дел не имел, теряюсь в догадках.

Провернуть глобальные вещи нет возможности, так как на сервер свободен только 6 часов.  Банально даже систему переставить не успею толком.
Завтра буду ставить вопрос перед руководителем о приобретении мощного ПК, на который можно все это будет временно перенести. (i7,SSD все дела).
 
 
   Garykom
 
1 - 30.10.18 - 20:32
Железо не под задачи да и само по себе не очень надежное.

У тебя идет банальный "перегрев" мамки при работе/нагрузке и это еще осложнено старой осью с не совсем правильными драйверами.

Обновление биоса/оси/дров может помочь но совершенно не факт.

Ищите другой сервак и выносите на него одну из баз чтобы снизить нагрузку, заодно и резерв будет.
   Garykom
 
2 - 30.10.18 - 20:34
БП3 дико прожорлива в терминале, если рабочие компы позволяют то в тонкие клиенты ее.
   Cyberhawk
 
3 - 30.10.18 - 20:42
(2) "БП3 дико прожорлива в терминале" // Речь о толстом клиенте в терминале?
   unregistered
 
4 - 30.10.18 - 20:48
(3) > Речь о толстом клиенте в терминале?

У автора УТ-шка 10.3. А она разве в тонком клиенте, а не в толстом на обычных формах?

Вообще идея смешивания сервера терминалов с СУБД и сервером приложения на одном компе не самая лучшая.
По возможности надо сервер терминалов отдельно выносить, оставив только СУБД+1С. Для 25 пользователей самое то.
Начать можно с того, что пользователей с нормальными по характеристикам клиентскими компами вообще выкинуть с терминального сервера.
   ansh15
 
5 - 30.10.18 - 22:37
(0) У вас этот сервер стоит в отдельном, хорошо охлаждаемом помещении? Если нет, то можно попросить руководство обеспечить серверу необходимые условия эксплуатации. И туда же потом поставить еще I7 с SSD и всеми делами.
   vde69
 
6 - 30.10.18 - 22:57
1. виртуальные сервера есть? если есть - какой гипервизор
2. посмотри какая температура процов, возможно их банально пропылесосить и поменять пасту под радиатарами
3. включи средства объективного контроля (запись параметров быстродействия, особенно длину очереди к дискам)
4. https://wiki.mista.ru/doku.php?id=it:analiz_sql_block
   Fram
 
7 - 31.10.18 - 07:34
(0) Обновляй биосы мамки и рейд контроллера.

PS это еще одна отрицательная сторона серверного оборудования - необкатанность прошивок и драйверов.
   Cyberhawk
 
8 - 31.10.18 - 08:13
(4) Ты посмотри, на какое сообщение Я отвечал
   AleksandrM09
 
9 - 31.10.18 - 10:07
(2) В БУХ работает 1-2 человека, как правило это переброс документов из УТ и перепроверенные их в отчетные периоды.
В УТ 10.3 днем работает пару бухгалтеров, разносят приходники и c 12 до 21 остальные пользователи забивают до 1000 РТУ.
В штатном режиме таких проблем не было, процессор загружается от 0 до 10 процентов и не более. Время отклика и длина очереди дисковой системы в норме. Я понимаю что сервер не хватает с небес звезды, но с нагрузкой справлялся.

А тут даже после перезагрузки тормозил сервер целиком, даже банальное сворачивание окна проводника происходило не спеша и небрежно.

(6)
1. Виртуальных серверов нет.
2. Температура процессоров и материнской была в норме, температура в серверной не превышала 25 градусов, сегодня включил принудительное охлаждение.
3. Длина очереди к дискам и время отклика на удивление были в норме. Отклик порядка 10 мс.
4. Изучу вопрос.

(7) Тоже склонен глобально заняться этим вопросом, но смогу только после переноса текущего ПО на другую площадку. Выделят ли для этого хоть какие-то средства - большая загадка. Планировал приобрести i7 c максимальной частотой на ядро, оперативы 32/64 и воткнуть пару SSD от самсунг. Как раз будет некий резерв, куда можно будет переносить базы, так и машина на которой можно будет шустрее поорбрезать базы.
   AleksandrM09
 
10 - 31.10.18 - 10:54
(4) Основная часть клиентов УТ 10.3 работают через аппаратные тонкие клиенты, грузятся по сети (WTware).
Напрямую по RDP с компьютеров подключается 3 бухгалтера да и компьютеры у них так себе (4Гб ОЗУ и прочее), не думаю что они что-то решат.

Отделить терминалы от 1С+SQL это хорошо, но увы не располагаю такими ресурсами, просто тупо некуда. Особенность предприятия - минимальные затраты на АйТи, а лучше чтоб их вообще не было. Сложно что-то объяснить человеку, если он не слушает, ну это так ... эмоции.

Склонен все же выбить производительный системник (писал выше), обновить биос, прошивку контролера обновить, сделать ТО серверу, переустановить ОС и там будет понятно, решаемая эта проблема или нет.
 
 Рекламное место пустует
   Cyberhawk
 
11 - 31.10.18 - 10:57
(10) "Особенность предприятия - минимальные затраты на АйТи, а лучше чтоб их вообще не было. Сложно что-то объяснить человеку, если он не слушает" // Так ты пади объяснять не умеешь, лезешь с какой-нибудь технической хней.
Ты в понятиях управленца попробуй разъяснить, что если не вкладывать в ИТ, то будет то-то и то-то (столько-то часов / дней простоя, например)
   AleksandrM09
 
12 - 31.10.18 - 11:25
(11) Это скажем так "особенность" руководителя. Он считает что ИТ вообще лишнее и с ним он мирится как с необходимым злом, что-то вкладывать это как переступить через себя.

Чтоб понимать насколько неохотно выделяются средства - приведу пример. Ежемесячно предприятие тратит ~15 т.р. на заправки картриджей и мелкий ремонт техники(блоки питания, батареи ИБП, мышки и прочая мелочевка). Даже при таких минимальных тратах я оказался под подозрением. Получил звание - Директор по расходам. В итоге провел анализ своих затрат за 3 года и подготовил докладную записку, в которой на цифрах, что за 3 года цена на заправку не изменились и остались на прежнем уровне. Вроде как этот вопрос закрыл.

В мае взял отпуск на 1 рабочую неделю и как по закону подлости произошел вот такой же баг как я и описывал в (0). Был в горах, вне зоны GSM.
Два дня водили админов со всего города и на второй день решились перезагрузить сервер и все вернулось на круги своя. Что было потом, сложно описать приличными словами. В итоге шеф признал, что резерв нужен, что бы не было простоев, но платить полную стоимость аналогичного сервера он не готов. Мол ищите иной хитрый способ.
Ничего иного кроме мощного ПК на SSD дисках я не придумал.
   Garykom
 
13 - 31.10.18 - 11:42
(9) >А тут даже после перезагрузки тормозил сервер целиком, даже банальное сворачивание окна проводника происходило не спеша и небрежно.

Проблемы с работой железа, проверь кондеры на мамке ))
   Cyberhawk
 
14 - 31.10.18 - 11:43
(12) Смысл там работать?
   Garykom
 
15 - 31.10.18 - 11:45
(12) >Ничего иного кроме мощного ПК на SSD дисках я не придумал.
Один хрен что сервак за 200+ тыщ, что мощный системник за сравнимую сумму.
   Garykom
 
16 - 31.10.18 - 11:45
(10) >Основная часть клиентов УТ 10.3 работают через аппаратные тонкие клиенты, грузятся по сети (WTware)

А точно юзеры разными непотребностями не балются в терминалке?
Типа там запуска вконтактиков в браузере?
   AleksandrM09
 
17 - 31.10.18 - 11:50
(13) Да вот мать как раз где-то пол года назад менял на новую по гарантии, как раз под занавес успел, но все равно посмотрю.

(14) ЗП выше рынка меня держит, после майских приключений понял, что нефиг лениться и сидеть на месте, нужно повышать квалификацию, чтоб меньше зависеть от работодателя. Штудирую курсы по 1С.

(15) Ну сервер с нормальным раид контроллером и тд меньше чем 400 не выйдет никак, где-то в эти деньги выходил текущий 3 года назад.

(16) Не,этот процесс под контролем.
   Йохохо
 
18 - 31.10.18 - 11:52
(12) откажись от рейда на время. Если интерфейс лагает значит система где то ждет, вероятно и/о. Раз в мониторе нагрузки нет проблема в драйвер+железо -> плату рейда нафиг, смотреть смарт дисков, продать барыгам, купить ссд
   AleksandrM09
 
19 - 31.10.18 - 11:59
(18) Опять же мы возвращаемся к тому, что все это программное богатство нужно куда-то перенести, пока проводятся все эти манипуляции с тестами, обновлениями и прочее.
   Йохохо
 
20 - 31.10.18 - 12:05
(19) воткни ссд + под бэкапы да переноси не спеша. Покупку дисков легко обосновать
   AleksandrM09
 
21 - 31.10.18 - 13:35
(20) Воткну я 2-3 SSD диска, заменю текущие массивы на одиночные SSD. Руководитель будет считать что эти затраты полностью и 100% решат возникший вопрос, а это не так. Подходить второй раз и говорить, что проблема глубже и выявить ее оперативно не выходит, это очередной раз дергать судьбу за причинные места.

Как видим, все упирается в ресурс, которого у меня нет.
   Cyberhawk
 
22 - 31.10.18 - 13:38
(21) С таким подходом далеко не уедешь)
   AleksandrM09
 
23 - 31.10.18 - 13:52
(22) с моим подходом или с подходом руководителя ?)
Руководитель на самом деле отличный управленец на производстве, в свое время оптимизировал его и при этом повысил эффективность на всех производственных участках.

И этот принцип он пытается распространить на ИТ, хотя что тут оптимизировать, 1 сервер и меня ?
   Garykom
 
24 - 31.10.18 - 13:58
(23) Спросите у "отличный управленец" что будет с его зарплатой (интересен размер) если будет простой по вине не выделения средств на резервное оборудование?

Причем простой так в пару недель если не месяц.

Когда всего то надо выделять на оборудование в размере как 2-3 его зарплаты месячные но раз в пару-тройку лет.
   AleksandrM09
 
25 - 31.10.18 - 14:13
(24) Он не только управленец, но и собственник.

Во время майского кипиша он приглашал специалиста со стороны, чтоб выслушать его мнение.
Когда показал парню "серверную", тот был весьма удивлен решению "all in one", чем закончилась их беседа я без понятия, но притенении в мой адрес утихли.

Человек просто не понимает, как оно должны быть правильно. Что на 25 компьютеров как бы желательно развернуть AD, бекапы снимать средствами СУБД и хранить не только на сервере + компе админа, но желательно на NAS и тд и тп.
Слава Богу что в серверную мне кондиционер поставили, а не прорубили дырку в полу, в склад готовой продукции (холодильник).

Ладно, все это эмоции. Картина более менее ясна, буду писать записку о необходимости приобретения ПК и глобальном ТО текущего сервера.
   Cyberhawk
 
26 - 31.10.18 - 15:03
(23) "Руководитель будет считать что эти затраты полностью и 100% решат возникший вопрос, а это не так"
"Человек просто не понимает, как оно должны быть правильно"
Ты объяснить раз не можешь, то какой с тебя спрос?
   AleksandrM09
 
27 - 31.10.18 - 15:20
(26) А вот как правильно,давайте проверим ?)

У человека сложившийся стереотип, что все "компьютерщики" вечно хотят "понакупить всякой херни". Причем херня эта ломается, потому что покупают "китайское". Что дурак показывают результат своей работы через расходы и тд.

Буквально недавно потратил 3 месяца на выбивание двух новых принтеров, на которых печатаются отгрузочные документы.

Две Kyocerы на пару распечатали больше 1 300 000 листов (это без глобального ТО), на одну бумагу потратили порядка 500 т.р. и около 100 т.р. на заправку.
А вот 65 оплатить за два принтера и 4 картриджа к ним это лишние и не обоснованные траты.

В итоге просто сказал всем заинтересованным лицам писать заявки на имя руководителя, обосновывать необходимость и тд и в случае, если отгрузка остановится из за выхода их из строя мне не звонить ночью. Худо бедно победили.
   ansh15
 
28 - 31.10.18 - 16:02
(0) Процессор контроллера RAID  не перегревается случайно? Там высокие температуры могут быть при недостаточном охлаждении, до 100 градусов - https://forum.infostart.ru/forum72/topic118874/
Рекомендации производителя - до +45-55 с модулем защиты кэша https://serverfault.com/questions/541816/lsi-megaraid-expected-chip-temperature
   AleksandrM09
 
29 - 31.10.18 - 16:14
(28) Смотрел, температура BBU была в районе 47 градусов.
Хоть помещение серверной проветривается сейчас, включил на всякий случай кондиционер.
   ansh15
 
30 - 31.10.18 - 16:28
(29) Для самой BBU это довольно много. Нормальная температура эксплуатации для батарейки - +28-30. А когда контроллер ее тренирует(разряжает-заряжает), то будет еще больше, будет +55-57. В таких условиях батарейка гибнет гораздо быстрее, год-полтора, от силы два, вместо пяти лет.
   AleksandrM09
 
31 - 31.10.18 - 16:43
(30) спасибо за наводку, займусь этим вопросом.
   Cyberhawk
 
32 - 31.10.18 - 17:37
(27) Надо на его языке уметь объяснить. См. (11)
   Fram
 
33 - 31.10.18 - 20:35
(25) Ну, если ты подстраховываешься заранее написанными служебками, так, чтобы потом можно было смело крикнуть "А я предупреждал!".. То спи спокойно, че нервничать то!
 
 
   palsergeich
 
34 - 31.10.18 - 20:46
(27) Экономисты.
Я помню как изза 1000 р подшипника с бесплатной заменой (были признаки скорого ухода из жизни) накрылось расходки на 150к(металлическая стружка от подшипника вывела из строя барабаны, ленту и ленту печи).
А мне пофиг акт есть, подпись есть предупрежден - на. И оплатили как родненькие через 15 минут, производство встало.
150000 срочно есть, а вот 1000 что бы этого не допустить - нет. Парадокс
   Наблюдающий
 
35 - 31.10.18 - 21:07
Что то я не увидел данных по оперативной памяти (сколько занято), тут под один сервер 1с и mssql 64 гига надо, а тут еще и терминал с 25 пользователями... Что с настройками sql сервера по расходу памяти - по умолчанию стоят?
   Cyberhawk
 
36 - 31.10.18 - 21:14
(34) Это не по части 1С ты работал?
   palsergeich
 
37 - 31.10.18 - 22:10
(36) Да, давно дело было
   palsergeich
 
38 - 31.10.18 - 22:10
(36) Еще когда доллар 30 стоил)
   palsergeich
 
39 - 31.10.18 - 22:12
(36) http://init-digital.ru/catalog/archive_color/bizhub_press_c6000/ Такие аппараты например чинил
   Йохохо
 
40 - 01.11.18 - 00:25
(21) вопрос 10к. По твоей прошлой теме в рейде два блина в миррор, это было говном 5 лет назад
   Злопчинский
 
41 - 01.11.18 - 00:43
(34) это-то как раз и понятно. это чисто "лавочная" идеология. "Лавочники" насмерть не переносят расходы/затраты, которые не дают сиюминутный результат. все что им доступно - это "кассовый метод" и эквивалентное ему.

Поэтому 150 тыс здесь и сейчас - это запросто, а 1тыс с непонятным профитом - фиг вам.

а профит непонятен по одной причине - у нас таки не научились смотреть вперед на перспективу, потому что такая сиюминутная экономика, такие же сиюминутные законы и сиюминутное прочее
   Cyberhawk
 
42 - 01.11.18 - 08:19
(41) Да и жизнь состоит по сути из сиюминутных желаний души )
   AleksandrM09
 
43 - 01.11.18 - 10:32
(32) Да если бы хотели слушать и мало мальски вникнуть в суть вопроса, человек живет стереотипами. Я уже предлагал пригласить любого другого специалиста, чтоб он выслушал мои предложения. В итоге - все вы компьютерщики одинаковые, вам бы все что-нибудь купить, наворотить,а  потом заявить что вы один не справляетесь и нужен еще один человек, создать отдел и раздуть свою деятельность до невообразимых масштабов.
Я уже давно смирился, что я появился на этом предприятии в результате коллапса, в результате другого коллапса я его и покину. По этому делаем все что возможно и грызем курсы, повышаем свою квалификацию доступными способами.

(33)Да кто потом вспомнит, скажут что недостаточно убедительно убеждал или вообще не было такого. Это у нас запросто.

(35) 32 Гб выделено под SQL, 25 пользователей это я назвал в самом пике с запасом, по факту работает 10-15 человек. Свободной оперативки достаточно.

(40) Да понимаю что зеркало это нанотехнологии, но работает же. Когда вылетел один из винтов из зеркала, на котором стоит ОСЬ, то сервер не встал в известную позу, а спокойно ждал когда я закажу винт на замену. Понятно что можно регулярно снимать бекапы акронисом, но это нужно купить его, иметь запасной накопитель и место где хранить бекапы, а у нас каменный век, нам нельзя иметь запас.


(41) Сложность еще в том, что человек полон устаревших стереотипов. Если покупаешь принтер, то нужно искать "японской сборки" и прочее.
   Cyberhawk
 
44 - 01.11.18 - 10:34
(43) "мало мальски вникнуть в суть вопроса" // Так не нужно объяснять так, чтоб тому надо было куда-то вникать. Я ж говорю - его понятиями надо объяснять, в которые ему вникать не нужно (раз это уже его понятия).
   Garykom
 
45 - 01.11.18 - 10:41
(44) Так не платит начальник-владелец столько чтобы хватило на человека с понятиями умеющего ))

Короче есть подозрения что для завода ИТ это глубоко вторично и чисто для печатанья доков на отгрузку и отчетов по бух/зп, на основной процесс никак не влияет.

Поэтому и пофиг основная работа (производство) не встанет даже если все компы накроются на пару дней - неделю, за этот срок обычно можно даже с нуля наладить при желании и $.
   sitex
 
46 - 01.11.18 - 10:48
(43) Бегите от туда, сбережёте свои нервы и время. Уверен найдете лучше , и владельцы будут смотреть на перспективу развития своего бизнеса.  А то с таким подходом владельцев перейдете на карандаши , кульманы , доски , счеты и тетради.
   Йохохо
 
47 - 01.11.18 - 10:55
(43) какой еще акронис? у Вас что, система и базы на одном рейде на двух тех блинах? какой бред вы там построили
   Cyberhawk
 
48 - 01.11.18 - 10:59
(47) Ну а что делать, если бюджета нет? ))
   Йохохо
 
49 - 01.11.18 - 11:07
(48) переходить на линукс, собрать 4 флешки в рейд 10, эффект будет огого
 
 Рекламное место пустует
   AleksandrM09
 
50 - 01.11.18 - 11:07
(46) Если бы это было возможно - уже давно убрали бы все ПК из офиса)

(47) Нет, организовано следующим образом.

С:\ RAID1 (SATA) - ОС, профили пользователей и промежуточное хранение бекапов.
D:\ RAID1 (SSD) - TempDB, транзакшнлог
E:\ RAID10 (SAS) - Файлы БД.
   Йохохо
 
51 - 01.11.18 - 11:45
(50) профили на ссд, бд на ссд, лог на сас, если не можете выкинуть, под бэкапы еще винт
   Йохохо
 
52 - 01.11.18 - 11:47
лог это запись в один поток, ссд там не нужен, а вот бд нужен
   eklmn
 
53 - 01.11.18 - 11:48
(51) +++
   Йохохо
 
54 - 01.11.18 - 12:05
(51) + это с точки зрения производительности. С точки зрения сохранения данных хранить лог на сбойном дивайсе огромная ошибка, его надо убрать
   AleksandrM09
 
55 - 01.11.18 - 14:37
(51) Да три года назад уже понял что нужно было упор делать на ССД и разносить все несколько иначе,а так как SSDшки взял маленькие по объему, то вынес на них темпдб, вроде тоже рекомендуется на другой накопитель их.
Но даже при таком варианте дисковая система справляется на ура, конечно замедляет все RAID1 из SATA дисков.

Ну мечтаю, что когда-нибудь мне выделят денег и сделаю все по феншую.

(54) Да пока страдали C: и E: , на каждом вылетало по одному винту, массив с логами и TempBD держится)


Список тем форума
Рекламное место пустует  Рекламное место пустует
ВНИМАНИЕ! Если вы потеряли окно ввода сообщения, нажмите Ctrl-F5 или Ctrl-R или кнопку "Обновить" в браузере.
Рекламное место пустует