Voit kysyä apua AI-harjoittelija Vispertiltä oikean alakulman chatista!

Päivittyvä seuranta: parannukset ja korjaukset Fivaldin uuteen sovellusikkunaan

V
Alkuperäinen julkaisu tehty 05.01.2023, viimeisin päivitys tehty 27.03.2023.

Julkaisimme Fivaldin uuden sovellusikkunan porrastetusti, kesäkuuhun 2022 mennessä uusi sovellusikkuna oli käytössä kaikilla asiakkailla. Kesälomakauden jälkeen, käyttömäärien noustessa sovellusikkunassa on kuitenkin ilmennyt valitettavia haasteita, joiden taklaamiseksi sekä uuden sovellusikkunan parantamiseksi teemme jatkuvasti korjaustoimenpiteitä.

Tavoitteenamme on toteuttaa luotettava työkalu, ja tämän tavoitteen eteen työskentelemme ahkerasti. Voit käyttää vanhaa sovellusikkunaa kunnes nämä haasteet ovat ratkaistu. Voit myös edelleen käyttää vanhaa sovellusikkunaa valitsemalla “avaa sovellusikkuna” -näppäimen nuolesta valikon.

 

 Päivitämme jatkossa tähän artikkeliin viikoittaisen koonnin uuden sovellusikkunan teknisten parannusten ja korjausten etenemisestä. Työ jatkuu! 

 

Viikko 11 - 12

  • Olemme tunnistaneet teknisessä alustassa mahdollisen virheen, korjaustyö toteutetaan teknisen ensin alustan ylläpidon puolelta, jonka jälkeen Fivaldin osalta tarvittavat toimenpiteet tehdään huhtikuun aikana. Virheen korjaaminen pitäisi vähentää tai poistaa sovelluksen palaamista päävalikkoon kesken työstön.
  • Palaamme päivittyvään seurantaan, kun saamme teknisen alustan muutokset toteutettua ja näemme vaikutuksen käyttövarmuuteen.

Viikko 9 - 10

  • Olemme ottaneet erityiseen tarkasteluun asiakaspalautteet uuteen sovellusikkunaan liittyen, joita käymme läpi
  • Teemme kokeiluja rajatuille käyttäjäjoukoille toimintavarmuuden optimointitoimenpiteiden testaamiseksi

Viikko 7 - 8

  • Havaittu, että IP-osoitteiden näkökulmasta tarkastelemalla logeilla näkyvät kaatumiset keskittyvät osin samoihin ryppäisiin, joka antaa indikaatiota siitä, että näissä tapauksissa kyseessä saattaa olla verkkoyhteysongelma
  • Websocket-epävakauksiin liittyen taustateknologiassa on jo muissa tapauksissa tiedostettu ongelma, johon on myös muutama work aroud-ratkaisuvaihtoehto. Näitä on testattu jo pienimuotoisesti aiemmin, mutta muokkaamalla kokeilua ja julkaisemalla yhteen ympäristöön testaamme uudelleen vaikuttavuutta.

Viikko 5 - 6

  • Viikon 5 lopulla otettiin käyttöön uusi palvelinkonfiguraatio rajatulle käyttäjäjoukolle. Uusi konfiguraatio toimii keräämämme statistiikan mukaisesti huomattavasti aiempaa vakaammin eikä uuden sovellusikkunan kaatumisia havaittu testikäyttäjäjoukolla.
  • Perjantaina 10.2. uuden palvelinkonfiguraation käyttöä laajennetaan koskemaan isompaa osaa käyttäjäjoukkoa. Tästä aiheutuu käyttökatko uuteen sovellusikkunaan, mutta se ei aiheuta muita toimenpiteitä käyttäjille.
  • Ensi viikon aikana seuraamme tilannetta varmistuaksemme, että muutokset ovat positiivisia myös isommalla käyttäjäjoukolla.
Viikko 3 - 4
  • Edellisviikolla otimme käyttöön osalle käyttäjistä uuden palvelinalustan yksinkertaisemmalla konfiguraatiolla. Alustavan analyysin perusteella näyttää siltä, ettei tällä ollut vaikutusta satunnaisesti esiintyviin uudelleenkäynnistyksiin. Uusi palvelinalusta on kuitenkin helpommin päivitettävissä ja tulemme ensi viikolla tekemään jälleen uuden kokeilun palvelimen konfiguraatioiden muuttamisen kanssa.

Viikko 2

  • Analysoimme virheitä kokeneiden käyttäjien toimintaa edellisviikon muutosten jälkeen. Kävi ilmi, ettei kuormanjako vaikuttanut logianalyysin perusteella tapahtuneiden virheiden määrään
  • Tarkemman analyysin yhteydessä huomasimme, että osa logeissa näkyvistä virhestä täytyy johtua käyttäjän selaimen toiminnasta, mikä nousi epäillyksi syyksi muutama viikko sitten. Tätä oletusta tukee se, että virheitä tapahtui käyttäjien logianalyysin mukaan myös esimerkiksi keskellä yötä, jolloin käyttö on hyvin vähäistä.

Viikko 1

  • Olemme saaneet toistettua testiympäristössä latautumisongelman ja ratkaisun siihen, tulevalla viikolla lähdemme työstämään ja testaamaan ratkaisua tuotantoympäristöön rajatulla käyttäjäjoukolla. Tämä ei vaadi toimenpiteitä käyttäjiltämme.

 
Viikko 52 

  • Kehitystiimi lomalla vuoden viimeisen viikon

 

Viikko 50 -51

  • Analysoimme virheitä kokeneiden käyttäjien toimintaa edellisviikon muutosten jälkeen. Kävi ilmi, ettei kuormanjako vaikuttanut logianalyysin perusteella tapahtuneiden virheiden määrään
  • Tarkemman analyysin yhteydessä huomasimme, että osa logeissa näkyvistä virhestä täytyy johtua käyttäjän selaimen toiminnasta, mikä nousi epäillyksi syyksi muutama viikko sitten. Tätä oletusta tukee se, että virheitä tapahtui käyttäjien logianalyysin mukaan myös esimerkiksi keskellä yötä, jolloin käyttö on hyvin vähäistä.

Viikko 49 & 50

  • Tunnistimme muutamia kymmeniä käyttäjiä, joilla logien mukaan tapahtuu erityisen paljon virheitä. Siirsimme nämä käyttäjät toisen kuormanjaon taakse seurataksemme vaikuttaako kuormanjako virheiden määrään.

Viikko 48

  • Parantuneen logituksen ansiosta pystyimme toteamaan, että tällä hetkellä keksejä katoaa eikä siis kaikissa kutsuissa tule mukana kuormanjaon tarvitsemaa keksiä.
  • Testasimme, ratkaisisiko keksipohjaisen ohjauksen sijaan IP-pohjainen ohjaus ongelmaa, mutta testiratkaisu ei ollut toimiva. Jatkamme kuitenkin selvitystyötä tämän vaihtoehdon tiimoilta.

Viikko 47

  • Yhteistyössä taustateknologian asiantuntijoiden kanssa olemme tulleet tietoisiksi siitä, että tietyt selainten toiminta epäaktiivisten selainvälilehtien osalta on muuttunut tavalla, joka voi selittää yhteyden katkeamiset epänormaalisti joissain tilanteissa
  • Tähän liittyen tulemme muuttamana heartbeat-konfiguraatiota, eli kokeilemme auttaako pidempi heartbeat-ajastus ongelmaan.
  • Lisäksi olemme edelleen lisänneet debug-logituksen määrää ja nyt pystymme aukottomasti seuraamaan selainpään, kuormanjakajan ja palvelinpään logeja yksittäisen käyttäjän/session osalta.


Viikko 46

  • Asensimme toiminnon, jolla voimme tarkastella käyttäjien vasteaikoja ja sitä kautta tutkia tarkemmin asiakkaiden kohtaamia haasteita
  • Toiminto mahdollistaa myös virhetilanteissa aiempaa helpomman näkyvyyden käyttäjän ruudulle ja virhetilanteiden tehokkaamman selvityksen

Viikko 45

  • Tilanteissa, joissa asiakas kokee käyttökatkon, palvelin usein palauttaa 404-virheen sovellusikkunan Heartbeat-kyselyyn, joita tehdään minuutin välein. Tämän tilanteen korjaaminen on ykkösprioriteettimme ja olemme toteuttaneet uuden tavan seurata logaista kyseisen kyselyn onnistumista, jotta tilanteen korjaaminen on jouhevampaa.
  • Lisäämme Tomcatin logitusta osassa konteista, jotta saisimme kiinni mahdolliset Tomcatin sisäiset virheet

Viikko 44.

  • Lisäsimme tuotantoon kolmannet kontit jokaiselle palvelimelle, joilla ajetaan uutta sovellusikkunaa. Näin ollen kuorma on jakautunut noin 1,5-kertaiselle määrälle kontteja
  • Kerätty oppeja käyttöönotetun yöllisen palvelinten uudelleenkäynnistysten jälkeen, tulokset vaikuttavat lupaavilta 

Viikko 43

  • Työryhmää täydennettiin uudella osaajalla, jolla vahva tausta uuden sovellusikkunan teknologian kanssa. Uuden henkilön keskittyminen on erityisesti suorituskyvyn parantamisessa.

Viikko 42 

  • Satunnaisesti palvelimilla tapahtuu ns. roskienkeruu, joka vaikuttaa siten, että palvelimen kyky palvella käyttäjiä heikentyy muutamiksi kymmeniksi sekunneiksi tai jopa pariksi minuutiksi. Tällöin Fivaldi vaikuttaa hyvin hitaalta tai ei vastaa ollenkaan. Otimme käyttöön ajastetun palvelinten uudelleenkäynnistyksen. Tämä tarkoittaa sitä, että keskellä yötä tapahtuu noin minuutin katkos Fivaldissa, mutta päivisin ei pitäisi enää näkyä siivousajosta johtuvia hidastumisia.
  • Lisätty uusi laskuri, jolla voidaan tilastoida käyttäjien kokemat yhteyden katkeamiset aiempaa tarkemmin. Laskurin tarkoituksena on mahdollistaa korjaavien toimenpiteiden vaikutusten arviointi, jotta tiedämme mitkä muutokset auttavat käyttäjien kokemiin ongelmiin

Viikko 41 

  • Maanantai-iltana siirrettiin kaikki käyttäjät liikennöimään uuden kuormantasaajan taakse. Siirron yhteydessä ilmeni haasteita, jotka johtivat valitettavasti virheisiin ja hitauteen uuden sovellusikkunan käyttäjille 
  • Tiistai-aamulla akuutti virhetilanne kuormantasaajasiirron suhteen korjattiin. Tiistaina illalla ja yöllä tehtiin vielä uusia muutoksia kuormantasaajaan ja keskiviikkona on ollut ensimmäinen päivä, kun koko kuorma on uudella kuormantasaajalla ja kaikki palvelimet olivat jakamassa kuormaa
  • Siirron yhteydessä havaittu virhe, joka koskee erityisesti ulkoisten aineistojen käsittelyä/joidenkin raporttien lataamista. Tähän on korjaus työn alla ja viedään tuotantoon mahdollisimman pian.
  • Keskiviikkona ja torstaina on myös jälleen lisätty logitusta (mm debug-tason logit aiempaa useammalle palvelimelle, tarkemmat logit palvelinkonttien kaatumistiheydestä ja kantayhteyksien katkeamisesta), jotta voimme vielä paremmin havainnoida tehtyjen muutosten vaikutusta ja pureutua juurisyihin.

Viikko 40 

  • Siirretty lisää käyttäjiä liikennöimään AWS:n kautta.
  • Muutettu konttien konfigurointia, jolla pyritään selvittämään uuden kuormanjaon haasteita.

Viikko 39

  • Tehty ja julkaistu muutos Fivaldin keksien käsittelyyn, jotta AWS Load Balancerin kokeilu on mahdollista. Tämä aiheutti bugeja tuotantoon ja muutos jouduttiin siksi perumaan seuraavana päivänä. Uusi yritys kaksi päivää myöhemmin; tällöin muutos saatiin onnistuneesti tuotantoon.
  • Ensimmäiset asiakkaat siirretty testinä käyttämään uutta kuormanjakoa.
  • Havaittu haasteita uudessa kuormanjaossa.

Viikko 38 

  • Muutettu API Publicin konffeja niin, ettei IO-virheitä enää tule.
  • Kehitetty ja julkaistu Feature Toggle, jolla voidaan ohjata testimielessä käyttäjät uutta kautta sovellusikkunaan. 
  • Konfiguroitu AWS Load Balancer.

Viikko 37 

  • Tehty JDBC-testiohjelma, jota ajettu useilla konteilla sen havaitsemiseksi, katkooko myös niitä yhteyksiä. 
  • Testattu konfiguraatiomuutoksia. Muutokset sekoittivat kuitenkin testiympäristön toimintaa, joten niitä ei voitu viedä tuotantoon.
  • Lisätty kantaan triggereinä logitusta, jolla voidaan seurata kantaan kirjautumiset ja sieltä poistumiset.
  • Muutettu teknologia-alustan parametrejä.
  • Ohjeistettu sovellustukea pyytämään asiakkailta selaimen Console Logeja.

Viikko 36 

  • Logeissa havaittu tilanteita, joissa yhteydet katkeavat samaan aikaan useammalla kontilla. 

 

Viikko 35 

  • Muutettu Javan käynnistysparametreja tavoitteena palvelimen resurssien järkevämpi käyttö.

 

Viikko 34 

  • Siirretty yksi teknologia-alustan kone debug logitus -käyttöön ja lisätty koneita teknologia-alustan pooliin.
  • Kokeiltu yhteysprotokollamuutosta.
  • Saatu uusia logihavaintoja.

Viikko 33

  • Selvitetty tilannetta Fivaldin logeilta. Logitusta parannettu, jotta olisi mahdollista muodostaa tarkempaa tilannekuvaa.
  • Selvitetty tilannetta teknologia-alustan (Reforms) toimijan puolelta.

Viikko 32

  • Uuden sovellusikkunan parannuksille perustettiin oma erillinen työryhmänsä, joka keskittyy haasteiden ratkaisuun.
Kirjaudu tai Rekisteröidy lähettääksesi kommentin

Etkö löydä etsimääsi?

Aloita uusi keskustelu