18. august 2021

Hvorfor vi måske er nået toppen af computerteknologi?

Billede af Lorenzo Herrera - Unsplash
Tech-giganter har opdaget ”lydløse fejl”, hvor nye computere laver fejl, der kan ende med at slette deres egne data. Problemet kan ligge i computerens hurtige udvikling. Derfor kan vi være på et ståsted i computerteknologien.

I begyndelsen af juni udgav Google en rapport om et problem, som de bakser med. Problemet hænger sammen med computere, som pludselig begynder at lave fejl. De bliver kaldt for lydløse fejl. Disse fejl fortæller os, om hvor langt vi er kommet med computere, dog viser det også, hvor skrøbelige vi er, når maskiner ikke er til at regne med.

I denne explainer vil jeg fortælle om computerchippens hurtige udvikling og forklare, hvorfor at selve den udvikling måske er årsagen til, at moderne computere bliver mere upålidelige.

Computerens hurtige udvikling

Men før vi kan komme til 2021 og til tech-industriens nye problem, så skal vi tilbage til 1960’erne. Helt nøjagtigt 1965, hvor ingeniør og medstifter af Intel Gordon Moore udgav en artikel i Electronic Magazine. Den handlede om computerchippens fremtid. Moore mente, at computerudviklingen ville stige eksponentielt. Udviklingen ville altså fordobles hvert andet år. Moore havde ret, og tesen blev senere kaldt for Moores lov, som man stadig taler om, er gældende i dag.

Gordon Moores firma Intel blev de allerførste til at producere en computermikrochip seks år efter artiklen i Electronic Magazine. Intels første mikrocomputerchip blev introduceret i 1971. Central Processing Unit eller CPU er den chip, som er motoren i din computer. CPU’en tager kodestrimler af binære koder, som er nul- og et-taller, afkoder dem, for så at få et program startet eller gemme og redigere et dokument. Hver handling, du laver på computeren, kommer gennem CPU’en. Selve CPU’en er fyldt med transistorer, som gør den hurtig og effektiv.

Før Intels mikrochip havde computere forskellige computerchips fordelt i deres hardware. Intel blev de første til at samle alle computerchipsene et sted. Og voila! Så var den moderne computer-mikrochip født.

Sådan lyder en meget forsimplet forklaring på en CPU-chip. Nu er du klædt på til resten af denne explainer. 

Det debatteres, om Moores lov stadig holder stik, som nu er over et halvt århundrede gammelt. Dog kan du bare kigge på, hvor langt vi er kommet bare i den tid, du har levet. Tænk bare på din første computer, og så dén som du har nu.

Nye upålidelige computere

Nu tager vi tilbage til 2021. Vi er gået fra Intels første mikrochip, som havde 2300 transistorer fordelt på sine 12mm2, til mikrochipsfirmaet AMD’s nyeste chip med 39,54 milliarder transistorer på 1008mm2.  De har både fået flere ting, som de kan gøre, og de er blevet utrolig hurtige og effektive på utrolig kort tid. Men nu er de begyndt at regne forkert.

Google kalder fejlene Silent Corrupt Execution Errors (CEEs). Google opdagede, at nogle af deres CPU’er begyndte at lave fejl. Fejlen er i selve CPU’ens hovedopgave, som er at tage data, afkode den, og så udfør opgaven. Fejlene opstod, når de udførte deres opgaver, som kan ende med at få programmer til at gå i stå eller ødelægge filer. Computerchipsene var ellers helt fejlfrie, forinden de enkelte fejl skete.

Det interessante ved det er, at disse computere pludselig begyndte at lave tilfældige regnefejl, selvom hver CPU-udbyder tester deres chips, før de bliver solgt. Ingeniørerne hos Google begynder at screene hver afkodning og opdager, at der ikke rigtig er noget mønster, men årsagen ligger i CPU’ens forskellige cores.

Cores er en del af opgraderingen af CPU-mikrochippen. De kan ses som en CPU inde i CPU’en. En CPU-mikrochip kan have flere cores, som kan hjælpe med at fordele arbejdet med afkodningen mere effektivt. Men de kan også være årsagen til fejl, opdager ingeniørerne.

Mercurial Cores eller bedre forklaret som upålidelige cores har større sandsynlighed for at afkode forkert. Deres fejl er så tilfældige, at man ikke kan opdage det gennem Googles eller chip-udbyderene stresstest af mikrochippen, derfor kan de kun opdages ved at tjekke hver computerchip for sig. Derfor bliver de også kaldt for lydløse fejl.

Konsekvenser ved fejlagtige computere

Googles ingeniører peger på forskellige grunde til, hvorfor upålidelige cores laver CEE’s. Den største årsag, som de peger på, er den evige forbedring af ny teknologi. Mikrochips skal være mere effektive, hurtigere, bruge mindre strøm, have flere cores og transistorer samt på mindre plads.

Det passer selvfølgelig til Moores lov, at teknologi bare skal vokse og vokse, men måske går teknologien ud over selve produktet. Med flere transistorer på den samme mængde plads, giver det også større risiko for at lave fejl i produktet, mener ingeniør Peter Hochschild og hans kollegaer i hans rapport ”Cores that don’t count” om CEE’er hos google.

I stræben efter, at alt kan blive bedre, begynder hardwaren og præcisionen fra mennesker at halte efter. De nye computere bliver hurtigere utilregnelige end de ældre computere.

Problemet kan også gå ud over os forbrugere. Tænk på skylagering. Hvis du bruger Google Drive, hvor du gemmer på deres supercomputercenter, kan du blive offer for lydløse fejl, som kan ende med at slette dine filer. Lydløse fejl er ikke kun noget Google har oplevet. Facebook har også. Det betyder, at lydløse fejl potentiel kan ske for andre virksomheder og deres skylagring såsom iCloud og Dropbox.

Google har ikke sagt, hvor mange upålidelige CPU’er, de har opdaget, eller hvor stort et problem det er. Dog arbejder de på en løsning på de lydløse fejl.

Bekæmpelsen af lydløse fejl

Ingeniørerne hos Google har undersøgt, at aldringen, høj temperatur og den elektriske spænding, som deres CPU-cores bliver udsat for, gør dem mere upålidelige. Løsningen på det problem er dyrt. Man skal have enten mennesker eller andre computere til at overvåge deres CPU’er for regnefejl, for så at kunne slukke og udskifte dem, hvis de er upålidelige.

Facebook har også oplevet CEE’s eller hvad de kalder dem, Silent Data Corruption (SDC). De skrev om dem i februar. Deres forskning fortalte, at disse SDC skete oftere og oftere og om en strategi for, hvordan de vil holde øje med dem, som også handler om udskiftning og screening af chips.

Lige nu tester Google løbende hver enkel af deres CPU-chips i hele deres levetid for at kunne undgå store skader. Men det arbejde koster.

Google arbejder på en algoritme for at kunne opdage flere af de lydløse fejl, inden de bliver skadelige, og så at reducere omkostningerne ved screening og test af hver CPU-chip. Men alt omkring emnet er meget nyt.

Man kan spekulere om, hvorfor to store teknologivirksomheder begge udkommer med rapporter om utilregnelige computere? Er der mon flere virksomheder, som også oplever samme problemer? Kommer det mon til at sænke farten på CPU-chips, hvis nye computere hurtigere bliver utilregnelige? Og burde man være nervøs for digitalisering af samfundet, hvis upålidelige computere kan slette filer og ødelægge programmer? Hvorom alting er, bliver det interessant, om der kommer en løsning.’

Lavet af