Нощна смяна
от ILuxWiki
Допълнителните ангажименти, които има нощната смяна от поддръжката по отношение на мрежата са описани по-долу. В началото казвам с едно изречение: касае се за това, да следите мрежите дали работят, и ако има спиране на район или мрежа, да уведомите екипите. Техниците, които се занимават с проблеми, имат ангажимента при поява на голяма авария да научат и да излязат да я оправят.
Това частично изисква да имате познания какво правим ние на "отдел 108", и какви са начините, с които следим дали мрежата работи или не.
Какви са необходимите стъпки, които трябва да се изпълняват от Ваша страна:
- Следите активно програмата с проблеми, за да имате поглед какво записвате Вие и колегите. При запис на два или повече проблема от една и съща мрежа, трябва да се обезпокоите, че нещо може да не е наред.
- Следите изравняванията в outpost-a. Касите работят до 20:00 и е възможно да има плащания (особено ако е след датата на спиране).
- Ползвате ipacshow, за да сравните дали записаните IP-та са спрели по едно и също време. Ако да, това трябва да повишава тревогата при Вас :)
- Поглеждате http://incubus.interbild.net/sntop - сайта с пингвачките. Проверявате дали в засегнатата мрежа има крайни точки, и съответно дали са down или up. Ако са down, пингвате ги на ръка, за да се уверите.
- Следите проблемите сложени под наблюдение, ако нямат специални коментари - дали проблемът се е оправил. Ако са за загуби и все още има загуби, пействате част от статистиката, за да могат да се ориентират колегите на сутринта.
- При обаждане за загуби:
- Отваря се картата на мрежата - /mapclient/ и се ориентирате от коя кутия взема абоната. При нужда попълвате адреса в www.bgmaps.com, за да откриете от коя кутия може да е включен. В търсачката на картата можете да напишете IP и тогава ще бъде автоматично маркирана кутията, която Ви интересува - това важи само за кутии, които са описани от наша страна.
- Преглеждат се абонатите в близост, пингва се и се уточнява дали те имат / нямат загуби - Клиенти от същата кооперация, близки входове, ако е улица - близки номера на съответната улица
- Тръгвате назад по кабела спрямо картата, гледате пътя на трасето. Може да минава през различни улици, според възможностите проверявате от къде започват съответните загуби.
- Ако двама или повече абонати се обадят за загуби от една и съща мрежа, проследяването на началната точка за загубите е задължително.
- ПОМОЩНА КОМАНДА: alive
- ЦЕЛ: да не се получава следното, вечерта като е натоварено да се претоварва някой клон, а сутрин няма проблем и се чудим какво е ставало по пътя от клиента назад.
- Ако няколко или всички точки са долу, тогава правите проверка в сървъра какво работи и какво не. Това главно става със следните команди: alive, bmon
alive : работи в продължение на минута-две и после изкарва списък с клиентите, които работят от съответната мрежа. Синтаксис: alive (интерфейс) пример: alive lan79
bmon : пуска се и показва в табличен вид дали на съответния интерфейс идва и заминава трафик (дали идва нещо от мрежата и дали отива нещо към мрежата).
- Rx: колонката показва какво идва от мрежата, т.е. upload-a на клиентите.
- Tx: колонката показва какво отива към мрежата, download-a на клиентите. Какво бихте могли да разберете от bmon?
Ако трафикът в колонката Rx: е нула или само някакви байти в секунда, това показва, че нямате идващ трафик от мрежата към сървъра. Тогава със сигурност никой няма интернет от съответната мрежа. Ако има много малък трафик, това означава, че имате спиране на голям район, но все пак има някакви абонати, които работят. Tx: колонката не е задължително да стане "0" веднага щом спре интернета към мрежата; често се виждат някакви байти там, това е трафик от заявки, които опитват да търсят клиенти от мрежата. Примерно който има реално IP от мрежа 10.79., има входящи заявки към себе си, които се отразяват в Tx: - все пак сървърът работи и опитва да праща на клиента заявки, сървърът не знае, че имаме технически проблем и съответно трафикът опитва да мине. Това е причината поради която колонката Tx: рядко е "0" дори и да не работи цялата мрежа.
Обаждане до екипа: Обаждането на техниците се прави, когато сте събрали наличната информация:
* Кои пингвачки работят и кои не работят * Кои клиенти са се обадили до момента и с какви проблеми: НС ЛАН / Няма пинг * Какво излиза на alive - кои клиенти от кои адреси работят
Когато имате готовност да кажете всичко това на екипа, се обаждате и съобщавате данните. Екипите се интересуват от горните три неща, така че на мозилата си подреждате табчета с проблемите и пингвачките едно до друго, и alive в конзолата, за да можете максимално бързо да съобщите тези неща без излишно да държите екипите на телефона. Все пак техниците са си обикновени хора с личен живот, вечерно време предпочитат да са заедно с близките си, а не да говорят по десет минути на телефона по работа.
В разговора Ви с техниците получавате информация, дали те имат намерение да отидат и да отстранят настъпилия проблем. Отговаряйте ако Ви питат нещо странично от горните неща, например може да се поинтересуват дали даден конкретен клиент или конкретен адрес работи. Това се прави с търсене по адрес в outpost и пингване на всички клиенти по ред от съответния адрес.
По принцип смятам, че до 22:00 - 22:30 имате шанс да съобщите на някой техник, че му е спряла мрежата. Не е малка вероятността съответния техник да излезе по това време, но ако часовникът превърти 23:00 и тогава стане нещо, вероятността да излязат е много минимална. Така че, все пак се съобразявайте и с часовника, когато се обаждате на някого да излиза със стълбата. А ако сметнете, че техниците не подхождат задоволително към задължението си да оправят нещата вечер, например ако в 21:00 спре цялата мрежа 10.79. и екипът откаже да отиде, можете да звъннете на Кольо и да му съобщите, че съответния екип отказва със съответната причина, и че не можете да направите организация по разрешаването на проблема.
Други възможни проблеми и ситуации: Ако спре сървър, примерно:
adun ~> ping degoba PING degoba.interbild.net (94.190.192.19): 56 data bytes --------------------------------------------------------- --- degoba.interbild.net ping statistics --- 1 packets transmitted, 0 packets received, 100% packet loss
и не тръгне в продължение на пет минути сам, се обаждате на мене.
Ако спре цялата мрежа, можете да проверите ifconfig (ако не се изпълни - /sbin/ifconfig) дали ЛАН картата дава, че е закачена:
propain ~> /sbin/ifconfig
lan9: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> mtu 1500
options=b<RXCSUM,TXCSUM,VLAN_MTU>
inet6 fe80::215:17ff:fe94:f9f2%lan9 prefixlen 64 scopeid 0x1
inet 10.9.0.1 netmask 0xffff0000 broadcast 10.9.255.255
inet 10.99.20.1 netmask 0xfffffe00 broadcast 10.99.21.255
inet 195.138.139.137 netmask 0xfffffff8 broadcast 195.138.139.143
inet 94.190.189.33 netmask 0xfffffff8 broadcast 94.190.189.39
ether 00:15:17:94:f9:f2
media: Ethernet autoselect (1000baseTX <full-duplex>)
status: active
като съответно ако горното се промени на:
media: Ethernet autoselect
status: no carrier
това означава, че пак трябва да науча аз и екипите няма да Ви помогнат.
За Ваша информация давам списък от мрежи, които не може да спрат целите при никакви положения:
10.1 10.2 10.6 10.8 10.9 10.17 10.27 10.28 10.29 10.52 10.54 + 10.55 (lan54 интерфейс hiperion) 10.56 10.59 10.60 10.61 10.80 10.81 10.82
За горните мрежи важи следното: невъзможно е да спрат всички клиенти заедно от някоя от тях. Например, ако спре цялата 10.8. проблемът задължително не е за техниците, дори и да отидат няма да могат да оправят нищо. Това е поради специален начин, по който съответните мрежи са свързани.
Поздрави: Чечо

