Suur rabelemine elektriturul tekitas soovi vaadata, kas elektritarbimist saab ka selgitada statistilise mudeliga ja kuidas selle kirjeldusvõime on muutunud üle aastate. Panin selle siia blogisse üles, et kunagi oleks endal meeles mõnele tudengile selle põhjal uurimistöö välja pakkuda. Uuendan seda jooksvalt.
Andmed
Minu uuritavaks tunnuseks on tunnine elektritarbimine, mille andmed on pärit Eleringi dashboardist.

Et andmetes esinevad mõned anomaaliad varasematel aastatel, siis on alt tsenseeritud 0.0001 protsentiililt (517 MWh). See mõjutab 2016 ja 2017. aasta vaatlusi.
Üks peamine tarbimist selgitav komponent on temperatuur (kasutan hetkel Tallinn-Harku ilmajaama keskmist temperatuuri).

Lisaks kasutan infot (1-0 kujul), kas antud tunniks on päike juba tõusnud või loojunud. Selle allikaks on Ri pakett suncalc. Olgu tähelepanu juhitud, et päikesetõusu ja loojumise kellaaeg on joonisel koordineeritud maailmaaeg ehk UTC, mis on 2 või 3 tundi erinev Eesti kohalikust ajast sõltuvalt kellakeeramisest.

Lisaks temperatuurile ja päikesetõusule kasutan mudeli kellaaega ja seda siis 2D mõõtmes, et saaks panna nii, et 23.59-le järgneks taas 00.00, mis lineaarsel teljel oleksid teineteisest väga kaugel. Selleks teen teisendused, kus aega mõõdame siinus- ja koosinusteisenduste abil.

Seega lähevad mudelisse sisse mõlemad aja koordinaadid, mis võimaldavad tunni mõju paremini arvestada. Analoogselt teeme ka kalendrikuuga, mis tagab, et detsembrikuule (12) järgneks jaanuar (1).
Majandusaktiivsuse muutust võtan hetkel arvesse vaid ühe näitajaga, nimelt töötasu saavate inimeste arv kuu jooksul, tegemist on Maksu- ja Tolliameti kuiste koondandmetega. (2022 juuli väärtust veel ei olnud analüüsi kirjutamise hetkel ja see on võetud võrdseks juuni omaga).

Lisaks on mudelis sees veel info kas tegemist on tööpäevaga või nädalavahetusega, samuti kas on riiklik puhkepäev.
Katsetan ka mudelis elektrihinnaga börsil ning ka suhtelise hinnaga (hind antud tunnis võrreldes ööpäeva keskmise hinnaga), kuid nendega peab olema ettevaatlik, sest elektrihind ise on ökonomeetria mõttes endogeenne: mida suurem on agregeeritud nõudlus, seda suurem ka hind, ning prognoosimise mõttes ei oleks suurt kasu hinnast mudelis.
Metoodika
Kasutan väga lihtsat parameetrite suhtes lineaarset regressioonimudelid, kuid kus selgitavad tunnused on erinevate polünoomidena ja interaktsioonidena, et võtta kinni temperatuuri, tööpäeva, päevavalguse mittelineaarsed mõju. Mudeli puhul ei ole keskendutud praegu prognoosivõimele mistõttu võib olla tegu ka liigse valimisisese kirjeldusvõime tagaajamisega (ülesobitamisega).
Mudelisse on pandud temperatuur neljandat järku polünoomina, interaktsioonid tunni ja tööpäeva/puhkepäeva vahel, interaktsioon tunni ja päikesepaiste vahel, temperatuuri ja tööpäeva/puhkepäeva vahel, temperatuuri ja päikesepaiste vahel ja veel ka mõned kolmekordsed korrutised. Et vaatluste arv on suur (ca 56 tuhat), siis on muidugi kõik mittelinaarsused statistiliselt olulised majandusteadlaste tavapärastel olulisusnivoodel.

Et vaadata mudeli kirjeldusvõimet üle aja, siis on see hinnatud ka muutuva aknaga (akna suurus ligikaudu üks aasta ehk 8928 andmepunkti = 24 tundi x 31 päeva x 12 kuud).
Tulemused
Et mudel sisaldab igasuguseid interaktsioone, siis tavapäraste kordajate esitamine paljuski ei oma mõtet. Allosas on tavapärane tabel enda jaoks küll toodud, et kunagi oleks hea meelde tuletada.

Esimene huvipakkuv koht võiks olla tarbimise hinnatud seos temperatuuriga. Alljärgnev joonis esitab eraldi efekti tööpäeva ja puhkepäeva lõikes. (Kõik tulemused on mudelist 1, kus ei ole sees hinda). Elektritarbimine on kõrgem külmaga, kuid suureneb ka temperatuuri tõustes üle 20 kraadi. Olgu lisatud, et täiendav mittelineaarsus tööpäeva/puhkepäevaga kinnitust ei leidnud, seega tööpäev vaid nihutas kõverat.

Seos tunniga ja tööpäeva/puhkepäevaga on kooskõlas ootustega, mõlemad on kõrgemad päevasel ajal, tööpäeviti on tarbimine suurem, kuid puhkepäevadel on tarbimise tipp hilisem. (Jõnks joonisel 15-16 kellaaja vahel on ilmselt tingitud päikeseloojangu mõjust, aga peab veel kontrollima.)

Päikesepaiste oodatavalt vähendab tarbimist, kui võrrelda samal kellajal toimuvat tarbimist erinevatel aastaaegadel (ühel juhul päike loojas, teisel juhul tõusnud). Suhteliselt on päevavalguse efekt alati suurem puhkepäeviti. Päikesevalguse absoluutne (ja ka suhteline) efekt on väikseim tööpäeva hommikuti, vahemikus kell 5-7 .

Seos kalendrikuuga on ootuspärane – suvekuudel on tarbimine väikseim ja detsembris-jaanuaris suurim.

Hindamaks, kas antud mudel kirjeldab ühtviisi hästi elektritarbimist üle aja on alljärgnevalt hinnatud mudel muutuva aknaga (ligikaudu üks aasta). Alljärgneval joonisel on esitatud mudeli determinatsioonikordaja muutus üle aja. (R2 konkreetses punktis kajastab seega eelneva 12 kuu andmete põhjal hinnatud mudeli kirjeldusvõimet).
On näha, et kirjeldusvõime oli madalam kasutades vaatlusi perioodil 2019-2020, mis ilmselt iseloomustab COVID-perioodi muutusi ning on hakanud kukkuma uuesti alates elektrihinna kiirest tõusust.

Üks võimalik selgitus, miks traditsioonilised tegurid enam nii hästi elektritarbimist ei kirjelda, võib olla kasvav päikesepaneelide arv majapidamistes ja seega tarbimine on vähenenud päikesepaistelistel ilmadel aina enam. Et päikesepaneelide olemasolu kohta majapidamistel hetkel andmeid ei ole, siis kasutame lähendina päikeseenergia elektritootmise andmeid taas Eleringi töölaualt. Eeldus on see, et mida rohkem müüakse päikeseenergiat võrku, seda rohkem toodetakse seda ka enda tarbeks.

Et päikeseenergia elektritootmise tunnise sammuga aegrida on kättesaadav vaid aastast 2020 ja kuni juunini 2022, siis võrdluseks on hinnatud mudel koos ja ilma päikeseenergia tootmisega. Oodatult vähendab suurem päikeseenergia tootmine tarbimist. Kordaja (allolevas tabelis muutuja PEtootmine) on samas üllatuslikult suur, 1MWh suurem päikeseenergia tootmine, vähendab 0.288 MWh tunni võrra tarbimist. Päikeseenergia tootmine ilmselt võtab osaliselt kinni mudelis ka kellaaja ja päikesevalguse tunnuste efekti, mille kordajad oluliselt muutuvad päikeseenergia tootmise mudelisse lisamisel. (Nt tunnus paikepaistab muudab lausa märki).

Päikeseenergia tootmise lisandumine küll suurendab tarbimismudeli täpsust, kuid siiski näitab ka mudel selle tunnusega selget kirjeldusvõime vähenemist 2022. aastal. Seega informatsioon päikeseenergia tootmisvõimaluste kohta ning ka näiteks päikesevalguse hulga kohta (nt pilvisus) võiks aidata täpsemini prognoosida tarbimist viimastel aastatel, kuid midagi on ilmselt veel mudelist puudu.

Käesolev statistiline mudel ei ole küll mõeldud lühiajaliseks prognoosiks (milleks ilmselt SARIMA tüüpi aegrea mudelid oleksid täpsemad), kuid mudeli täpsuse iseloomustamiseks on siiski esitatud jägnevalt prognoosid kaks päeva ette ehk 48 andmepunkti. Ainukesed selgitavad tunnused, mille väärtus oleks vaja ette teada meie mudelis on temperatuur ja hõivatute arv. Temperatuuri puhul saaks põhimõtteliselt kasutada ilmateenistuse mudelipõhist tunnist prognoosi. Hetkel kasutame siiski tegelikku temperatuuri, seega ülehindame mudeli täpsust praktikas. Samuti on jäetud mudelisse tegelik hõivatute arv, sest selle andmed nagunii ei muutuks kahe päeva jooksul. (Prognoosimudelisse ei lisa loomulikult tegelikku hinda ja jätame välja ka päikeseenergia tegeliku tootmise.)
Prognoosi andmisel hinnatakse mudelite parameetrite väärtused eelneva kolme aasta andmete põhjal ja igal südaöösel antakse seejärel prognoos ette 48 tunniks. Alljärgneval joonisel on esitatud iga päev antud 48 tunni prognooside keskmine absoluutne viga ja keskmine absoluutne protsentviga.
Keskmiselt on 48 tundi ette prognoosiviga taolise mudeliga perioodi 2019-2022 kohta ca 50MWh ja keskmine suhteline viga 5.3%. Suhteline viga on sesoonne, sest suviti on absoluutne tarbimise tase madalam, samas kui prognoosivea keskmine suurus üllatuslikult ei ole sesoonne.
Nii absoluutne kui suhteline viga pigem kasvavad ajas, sealjuures suhteline viga just 2022. aastal. Nii nagu ülal leidis kinnitust, et mudeli kirjeldusvõime oluliselt langes 2022. aastal, kui hinnad muutusid volatiilsemaks, nii ka mudeli prognoositäpsus on 2022. aastal langenud.

Mudelit saab edasi arendada mitmel moel. Lihtsaim viis on lisaks sisse tuua dünaamilised SARIMA mudelite elemendid (nt sesoonsete viitaegadega tarbimised, viitajaga prognoosivead jmt). Näiteks viimase (48 tundi tagasi) ja nädalataguse (7×24 tundi varasema) tarbimise teadaoleva tarbimise sissetoomine vähendab MAPE suurust 3.8% peale ning keskmine absoluutne viga väheneb enam kui veerandi võrra 35 MWh peale kogu vaadeldud perioodil.
Siiski kasvavad prognoosivead üle aja, mis näitab, et lihtne mudel temperatuuri, päevavalguse, pühade jm sesoonsete teguritega enam nii hästi ei kirjelda energitarbimist kui varem.

Kui soovida mudelit kasutada agregeeritud tarbimise prognoosimiseks, siis oleks järgmine samm tegeliku temperatuuri asemel kasutada prognoositud väärtusi, vahest kaaluda ka täiendavate ilmaparameetrite sissetoomist. Mudelisse võiks lisada ka keerukama viitaegade dünaamika (sesoonsed tarbimise autoregressiivsed liikmed, vahest ka mõned vealiikmete autoregressiivsed liikmed, mis võtaks arvesse tarbimise asendatuvust üle päevade). Lühem mudeli treeningperiood samuti parandab prognoosimisel täpsust. Näiteks kasutades treeningperioodina kolme aasta asemel kahte aastat väheneb MAPE veel 3.7% peale.