2009 m. kovo 10 d., antradienis

2009 m. kovo 1 d., sekmadienis

Laisvas lietuviško teksto OCR

Užplaukė idėja pasidomėti >subj> perspektyvomis:

išvados:
1) Tesseract lit
2) CuneIform

toliau persiunčiu Donato ats su smulkmenom:

2009/3/1 Donatas G.:
> šiuo metu tai visiškai neturiu motyvacijos, tiesą sakant, tobulinti
> tesseract... Bet jei kas nors to imtųsi, tikrai neprieštaraučiau, gali
> ir visą projektą iš manęs perimti :)
>
> tesseract lit nėra idealus, ir ko gero šiek tiek tikslumo dar būtų
> galima pasiekti, tačiau tai kas padaryta iki šiol yra 70% rezultato su
> 30% pastangų, o laukia likę 30% rezultato su 70% pastangų. Nevilioja :)
>
> Gan prastai yra su kabučių ir kt. panašių simbolių atpažinimu, bet tai
> yra paties tesseract ydos, tad ne ką čia tepataisysi. Kol jie patys
> kitos versijos neišleis – bet jie ties tuo lyg ir dirbo prieš pusmetį.
>
> Tobulinimas įmanomas dviem kryptim, kas link lietuviško teksto atpažinimo:
>
> 1. Reikia daugiau tekstų, kuriais atliekamas apmokymas. Tas apmokymas
> yra labai daug kruopštumo reikalaujantis darbas, nes padarysi vieną
> klaidą - subalamutinsi programą, ir viso e sėkmingai virs c. :) Man
> atrodo, aš sukūriau apmokymo failų tik kokį trečdalį to, ką galima
> panaudoti, ir teksto variantų ten tik keli (skirtingais šriftais ir
> pan). ne idealu, bet tobulindamas vis užsiraudavau ant situacijos, kad
> papildomas apmokymo failas ne pagerina bandomojo teksto nuskaitymą, bet
> jį pablogina. Ir tada ieškai priežasties toje raidžių krūvoje: ar
> apmokomojo teksto paveikslėlio kokybė prasta, ar įvėlei kokią nors
> klaidą, ar tiesiog tesseract šriftas anas nepatiko :)
>
> 2. Dažniausiai pasikartojančių žodžių sąrašo tobulinimas. Nežinia ar čia
> ką galima padaryti... Gavau iš VDU kompiuterinės lingvistikos centro
> tekstyno dažniausiai pasikartojančius 300000 žodžių. Tačiau mano
> bandymai neleidžia teigti, kad to tekstyno naudojimas duoda optimalius
> rezultatus; kartais ima ir geriau padeda žodžių sąrašas iš tekstyno,
> kurį pats per kokią valandą sumečiau iš internetinių straipsnių
> kratinio. Arba, geriau suveikia tekstynas, naudojantis tik 100000
> žodžių. Čia ko gero būtų naudinga atlikti daugiau testų.
>
> Tai vat tokios tokelės. Pats nelabai noriu prie tesseract grįžti.
>
> Be to yra dar toks projektas cuneiform, kuris ir šiaip atpažįsta
> lietuviškus simbolius ir net formatavimą atpažįsta, tekstą saugo html
> arba rtf formatais. Jis gal net būtų vertesnis dėmesio, tik kad ten nėra
> jokio treniravimo, kalbos atpažinimas yra programuojamas dalykas
> (nepasakysiu kokiu principu).
>
> Kiek bandžiau, lietuviško teksto nuskaitymo kokybė cuneiform'e panaši,
> kaip tesseract.
>
> Beje, būtų visai malonu apsilankyti kokiame nors Ubuntu.lt renginyje,
> gal ten ir KDE vartotojų būna? :)
>
> Donatas
>
>
> Jurgis Pralgauskis rašė:
>> Sveikas,
>>
>> gal prie progos galima būtų patobulinti lietuviškąjį tesseract?
>> kaip supratau jis dar nėra idealus...
>>
>> gal net padaryti online texto atpažinimą? -- tuo pačiu būtų galima
>> gaut pavyzdžių teksto atpažinimui.. ir gal automatizuoti training'ą
>> nes šiaip trainingo procesas ten atrodo chitras, ne eiliniam piliečiui
>> suprasti ...