Automatisk journalisering af papirdokumenter

posted in: Software, Tips | 0

This is going to be HUGE! Fabulous! We are so exited. Men derfor behøver jeg selvfølgelig ikke at lyde som en amerikansk reklamemand. Men jeg har lidt samme følelse, som når man står med et stykke godt værktøj i hånden: Velafbalanceret, præcist og passer til opgaven.

Vi har kombineret en scanner, noget OCR software og vores egen PdfTextScanner til en løsning, hvor man blot fodrer sin scanner med diverse bilag i papirform og så sorteres de færdige, søgbare pdf filer ned i relevante mapper ud fra det indhold, man finder interessant. Og det går rimeligt hurtigt (faktisk tager det længere tid at køre papirerne gennem makulatoren bagefter).

Løsningen er specielt tiltænkt sortering af dokumenter med cpr-nummer, så de problemer, man risikerer i forbindelse med ikrafttræden af EUs nye persondataforordning kan minimeres: Beskyttelse af persondata og herunder sletning af forældede data, er lige vigtig uanset om disse data foreligger i digital form eller på papir. Så vores løsning finder cpr numre og opretter mapper med pdf-filer for hver enkelt fundet cpr nummer. Og så må man selv beslutte om de skal slettes, arkiveres eller spises med varm mælk.

Men nu kan vi jo godt lide at lave løsninger, så de er generelt anvendelige til lidt af hvert, så vi kan finde hvad som helst, der kan udtrykkes med en regular expression tekst. Regular expressions er egentligt noget lidt kompliceret stads (se en forklaring her: Regular-expressions.info), men vi sørger selvfølgelig for at det er nemt at komme i gang, bl.a. ved at levere udvalgte RegEx udtryk for cpr numre, bilers registreringsnumre, beløb m.v. RexEx for et CPR nummer ser i øvrigt sådan ud: ” [0-3][0-9][0-1][0-9]{3}-[0-9]{4} “. Mens fx RexEx for advokat ser sådan ud: “advokat” – så mere kompliceret behøver det heller ikke at være.

Vi benytter en Brother ADS-2800W scanner, som scanner 30 sider pr minut. På begge sider, hvis det er nødvendigt! (Altså 60 sider pr minut ved bilag ed tekst på begge sider). Og den er stort set ligeglad med om alle sider har samme størrelse og klarer selv en bon fra storebæltsbroen uden problemer. Scanneren leveres incl. ABBYY OCR software, som automatisk kan oversætte de scannede sider til søgbare Pdf filer. Og vores PdfTextScanner, som fordeler siderne i mapper, sådan som du har defineret det. Listepris for Scanner og OCR software: 3.399 kr + moms (4.248,75 incl. moms). Men vi har fået en god aftale med Brother, så vi kan sælge den til 2.960 kr + moms og incl. vores PdfTextScanner til 3.460 kr + moms.

Vores PdfTextScanner kan også købes uden scanner, hvis du nu i forvejen har en god scanner eller bare har en masse søgbare pdf filer, du gerne vil have sorteret. pris 1.160 + moms.

PS: Jeg har så lige brugt den til at scanne nogle gamle feriebilleder i papir. Det går betydeligt hurtigere at scanne billederne end det gør at pille dem ud af albummet. Og hvis man så gerne vil have bagsidens håndskrevne kommentarer med, så sætter man den selvfølgelig bare til at scanne to-sidet – det går ikke langsommere af den grund (resultatet kan så gemmes i en pdf fil, så man har både billede og tekst – den slags kan vi dog ikke automatisk sortere. Endnu.).