PODACI S ISPRAVI.ME

'Nebi', 'čemo' ili 'več': Ove pravopisne pogreške najčešće rade Hrvati

11.01.2024 u 10:04

Bionic
Reading

U sklopu svoje 'godišnje inventure' FER-ov strojni provjernik Ispravi.me - koji nas je nebrojeno puta spasio od grešaka i tipfelera što nam se omaknu - objavio je najčešće pravopisne greške korisnika. Riječ je o servisu za strojnu provjeru pravopisa koji ove godine obilježava 30. obljetnicu; sve je počelo 1994., kada je predstavljena usluga Hrvatskog akademskog spelling checkera – Haschecka, da bi 22 godine kasnije postao Ispravi.me

'Ove godine obilježit ćemo i tridesetu obljetnicu postojanja usluge, koja je prve 22 godine živjela pod akronimom Hrvatskog akademskog spelling checkeraHaschecka (čita se 'Hašek').

Od javne objave usluge 21. ožujka 1994. godine, kad se ona koristila putem elektroničke pošte, preko uvođenja web-sučelja 2003. godine, Hašek je do danas obradio gotovo 63 milijuna tekstova s nešto više od 16 milijarda riječi, čime je, prema navedenim parametrima, korisnicima uštedio više od 15,5 tisuća radnih godina sričućeg čitanja teksta', navode idejni začetnici usluge Ispravi.me.

Prethodne je godine Ispravi.me - poslužujući preko 600.000 korisnika - obradio 7,45 milijuna tekstova s ukupno 1,74 milijarde riječi, tj. u prosjeku 234 riječi po tekstu. Ako se to pretvori u radne sate, ispada da je automatskom provjerom pravopisa tih 7,3 milijuna kartica korisnicima ušteđeno 363 tisuće dana, tj. ukupno gotovo 1700 radnih godina, ako se kao parametre uzme 20 kartica teksta na dan i osmosatno radno vrijeme.

Kao i godinu ranije, prema podacima koje daje Google Analytics, nešto više od 85 posto korisnika dolazi iz Hrvatske, njih sedam posto iz Bosne i Hercegovine, dok uslugu koristi i po jedan posto korisnika iz Njemačke, Srbije, Austrije i Slovenije. Najviše je korisnika u dobnoj skupini od 25 do 35 godine (njih četvrtina), no ove godine najmanje je korisnika mlađih od 24 godine (tek 10 posto).

Ukupno je sustav pronašao 4,86 milijuna različitih pogrešaka koje su se u tekstovima pojavile 30,32 milijuna puta, što znači da i dalje na svakih 60-ak ispravnih riječi dolazi jedna pogrešna.

Najčešće pogreške

Top-lista grešaka nije se, navode na Ispravi.me, značajno mijenjala u odnosu na posljednje godine: najčešće se griješi pišući 'slijedeći' umjesto 'sljedeći', 'riješenje' umjesto 'rješenje', 'promjeniti' umjesto 'promijeniti', 'mogučnost' umjesto 'mogućnost', 'če' i 'čemo' umjesto 'će' i 'ćemo', 'več' umjesto 'već'.

Vrlo često korisnici uopće ne koriste dijakritike, što se ne bi trebalo smatrati pravopisnom pogreškom, nego pripisati želji za brzim pisanjem, posebno na pametnim telefonima. Zamjetno je i često pisanje riječi 'svo' umjesto 'sve', 'niko' umjesto 'nitko', 'šta' umjesto 'što', 'vjerovatno' umjesto 'vjerojatno' ili 'projekat' umjesto 'projekt'.

Pri vrhu je i pogrešno pisanje negacije pa tako 'ne bi' postaje 'nebi', a 'ne znam' postaje 'neznam'. 'Sa mnom' često postaje 'samnom'. Očekivano, 10 posto najčešćih pogrešnih riječi pojavljuje se u gotovo polovici svih pronađenih pogrešaka.

Usluga Ispravi.me, osim klasičnih zatipaka, ispravlja česte gramatičke te stilske pogreške – takvih je pronađeno 300 tisuća, a pojavile su se 3,2 milijuna puta.

U takve pogreške ubrajamo sintagme 's obzirom da' (treba 's obzirom na to da'), 'na taj način' (bolje je 'tako') ili 'na način da' (bolje je 'tako da'), 'zajedno s' (najčešće je dovoljno 's'), grozomorno 'iz razloga što' (ispravno je 'zato što') te iritantno administrativno 'nismo u mogućnosti' (a lakše je napisati 'ne možemo'). Tu je i pogrešna upotreba riječi 'ukoliko', umjesto koje, ako ne dolazi u paru s 'utoliko', treba pisati 'ako'. Korisnici griješe i kod pisanja futura (npr. 'biti će' umjesto 'bit će'). Pri vrhu ljestvice nalazi se i pogrešno korištenje prijedloga 's', tj. 'sa' te sintagma 'da li'.

Ispravi.me

Analiza višegodišnjih zapisa o ispravcima koje korisnici izabiru od ponuđenih opcija (preko 33 milijuna pogrešaka i ispravaka) pokazala je sljedeće:

  • 18,3 posto svih pogrešaka posljedica je nekorištenja dijakritika
  • sedam posto svih pogrešaka posljedica je pogrešnog pisanja 'je' umjesto 'ije'
  • 6,3 posto svih pogrešaka posljedica je pogrešnog pisanja 'č' umjesto 'ć'
  • 5,4 posto svih pogrešaka predstavlja pogrešno pisanje prijedloga 'sa' umjesto 's' (za razliku od 0,4 posto pogrešaka pisanja 's' umjesto 'sa')
  • 5 posto svih pogrešaka predstavlja pogrešno pisanje 'ije' umjesto 'je'
  • 3,4 posto svih pogrešaka predstavlja pogrešno pisanje 'ć' umjesto 'č'.

Nove funkcionalnosti

Kako navode iz provjernika, krajem prošle godine usluga je obogaćena novim funkcionalnostima, promijenjeno je sučelje za nuđenje ispravaka, a dio programskog koda na poslužiteljskoj strani napisan je iznova, čime je brzina odgovora utrostručena.

Nove funkcionalnosti uključuju prepoznavanje ispravnog oblika pisanja datuma (s razmakom iza točke i nazivom mjeseca u genitivu), dodavanje razmaka između broja i mjerne jedinice ili naziva valute, provjeru pisanja rednih brojeva (npr. ispravljanje '1-og', '3-eg', '1940-tih' ili '1000-ih'), ispravljanje parova 'tokom/tijekom', 'budući/budući da', 'zahtjeva/zahtijeva' na temelju frekvencije pojavljivanja izraza u kojima se koriste i sličnog.

Predlažu se i ispravci suvišnih razmaka ispred znakova interpunkcije te iza otvorenih ili ispred zatvorenih zagrada. U planu su i nova poboljšanja, uglavnom temeljena na n-gramskom modelu hrvatskoga jezika, a on se gradi u sklopu usluge provjere pravopisa. Mjereno pojavnicama, taj sustav višestruko nadmašuje opseg svih knjiga tiskanih na hrvatskom jeziku od Gutenberga do danas, dajući podlogu za big data obradu.