Auteur Topic: JPG via OCR-Word naar Excel (gelezen 8340 keer)

BlackDevil · « **Gepost op:** 29 oktober 2023, 09:44:53 »

Goedemiddag allen,

Na een aanzienlijke onderbreking omwille van medische omstandigheden ben ik sinds kort, beetje bij beetje, mijn genealogisch werk aan het hernemen.
Eén van de belangrijkste en meest tijdrovende (voorbereidings-) onderdelen van dit genealogisch werk is het indexeren van de diverse doop/geboorte- , huwelijks- en overlijdensakten, die online beschikbaar gesteld zijn door het Rijksarchief, om deze dan naderhand via een door mij geautomatiseerd excel-bestand verder te kunnen verwerken. Voor de parochieregisters (periode 1500-1796) werden er in de 19e eeuw reeds alfabetische indexen opgesteld welke ik wens over te nemen in mijn excel-bestand. Voor de registers vanaf 1800 zijn er soms tienjaarlijkse tafels voorhanden die ik zou kunnen overnemen maar grotendeels zal ik zelf alle akten moeten overlopen en indexeren.
Het overnemen van bestaande indexen (PR) is sowieso al een tijdrovende job maar zelf de indexen aanmaken (BS) zal nog tijdrovender worden omdat dan echt élke akte moet doorgelezen worden.

Om toch een beetje aan tijdsbesparing te kunnen doen zou ik voor de overname van de bestaande indexen gebruik willen maken van OCR-conversie. Hier en daar een foutief stukje tekst verbeteren zal een pak minder tijd in beslag nemen dan alles handmatig overtypen.
Ik ben dan op zoek gegaan naar een online-tooltje om dit te verwezenlijken.
De bronbestanden zijn afbeeldingen aan vrij hoge resolutie (ca. 1 à 2 MB per afbeelding) en de indexen zelf zijn handgeschreven (ergens in de 19e eeuw) in een tabel-layout.
Ik heb een site gevonden waar ik de afbeeldingen kan laten converteren en ze zijn voor minstens de helft correct maar de tekst word deels onder, deels naast elkaar weergegeven in een word-document terwijl ik ze dus in een excel-bestand in tabelvorm nodig heb.

Hoe kan ik de inhoud van dat word-document nu best overzetten naar excel in de juiste tabel-layout?
OF is er misschien een betere en/of snellere manier (die hopelijk ook iets correcter converteert) waarmee ik de handgeschreven tekst uit de afbeeldingen kan overnemen in mijn excel-bestand in dezelfde tabel-layout?

In bijlage :

BlackDevil_bron.jpg => verkleinde versie van origineel bestand voor plaatsing op forum (originele bestandsgrootte was 1,6 MB)

BlackDevil_OCR-conversie.doc => het geconverteerde resultaat via een website

BlackDevil_doel.xlsm => bestand met tabel waar de gegevens moeten komen voor verdere verwerking
Ik heb hierin, ter voorbeeld, de eerste 2 vermeldingen uit de originele index geplaatst als volgt :
In zwarte tekst zoals het in de originele index vermeld staat
In rode tekst zoals het in het geconverteerde word-document staat en overgenomen moet worden in excel
In blauwe tekst hoe het uiteindelijke resultaat moet zijn na (eventuele) manuele correctie.

Bij het tweede voorbeeld zal je zien dat er bij het originele als maand “8ber” staat en dat in de correctie het maandcijfer 10 staat. Dit is géén fout.
7ber = september = 9
8ber = oktober = 10
9ber = november = 11
10ber of Xber = december = 12

P.S.: bij het meedenken en/of aanreiken van tips/hulp wel rekening houden met het feit dat ik op deze wijze letterlijk honderden afbeeldingen zal moeten converteren.

Alvast mijn oprechte dank op voorhand.

Groetjes,
BlackDevil/Bieke

MollyVH · « **Reactie #1 Gepost op:** 29 oktober 2023, 12:05:43 »

Hoi Bieke,

Niet meteen beginnen jubelen, hé, want deze post is enkel bedoeld om je te zeggen dat het me veel plezier doet te merken dat je er opnieuw tegenaan kan gaan.
Wat je vraag betreft kom ik helaas niet verder dan 'oeioeioei'

Op zoek naar een efficiëntere ocr-tool is vermoedelijk geen slecht idee. Veel succes gewenst!
En wie weet, misschien (hopelijk) komt iemand anders wel met nuttiger tips

Groetjes,
Molly

BlackDevil · « **Reactie #2 Gepost op:** 29 oktober 2023, 12:27:12 »

Hey Molly,

Alvast bedankt voor je reactie

.
En ja, beetje bij beetje probeer ik me terug met allerlei bezig te houden op de PC desondanks dat de gezondheid nog steeds
blijft achteruitgaan. Maar heb het vooral mentaal nodig om terug iets om handen te hebben, al was het maar enkele uurtjes
per dag en zuiver fysiek-passief aan men bureau...

OT : ja, ik ben tijdens mijn zoektocht ook wel op een site terecht gekomen van professionele OCR-software en is uiteindelijk
niet zo superduur, en zeker gezien de hoeveelheid die ik zal moeten verwerken zeker de investering waard maar door mijn
zware medische kosten die nog een tijdje zullen aanhouden heb ik er spijtig genoeg momenteel niet het budget voor.
Vandaar dat ik hoopte om me met een gratis online-tooltje te kunnen behelpen...

Maar het is vooral het omzetten van de inhoud uit het word-document naar mijn excel-bestand waar ik beetje tegen een muur aanloop...

Dat ik meerdere bewerkingen ga moeten uitvoeren en/of redelijk wat tekst zal moeten corrigeren vind ik minder erg dan dat ik echt
alles zou moeten handmatig gaan overtypen... Door mijn neuromusculaire aandoening in combinatie met de artritis is veel en langdurig
typen echt geen pretje...

Dus ja, hopelijk komt er toch nog iemand met een goede tip op de proppen...

groetjes,
Bieke

Pagadder · « **Reactie #3 Gepost op:** 29 oktober 2023, 12:46:43 »

Kijk eens of onderstaande link iets voor jou kan betekenen en het een betere conversie oplevert.
https://giveaway.tickcoupon.com/smartocr-pro-free-license-code/

BlackDevil · « **Reactie #4 Gepost op:** 29 oktober 2023, 13:56:30 »

@Pagadder,

Bedankt voor jouw suggestie.
Heb het progje even geïnstalleerd maar krijg totaal niet wat ik nodig heb.
Bij dit krijg ik gewoon een exacte kopie van mijn afbeelding.... dus niks ocr-conversie...

@allen,

na nog diverse online-tooltjes en een ander gratis progje uitgetest te hebben moet ik concluderen dat mijn
bijgevoegde resultaat (zie .doc-file in mijn eerste bericht) voorlopig het beste resultaat is dat ik kan krijgen.

Ik ga nu nog één programma uittesten, namelijk de proefversie van dat professionele programma waarover ik het
in mijn reactie op Molly had maar ongeacht het resultaat zal ik het sowieso voorlopig moeten doen met het resultaat
dat ik in mijn eerste bericht had bijgevoegd ofwel toch alles handmatig beginnen overtypen want het zal nog maanden
duren eer ik dat professionele programma zal kunnen aankopen indien mijn test hiermee een beter resultaat zou geven.

Alvast bedankt voor de reeds gegeven reacties en sowieso dank voor mogelijke toekomstige tips.

groetjes,
Bieke

BlackDevil · « **Reactie #5 Gepost op:** 29 oktober 2023, 14:31:18 »

***UPDATE***

Na de proefversie van dat professioneel OCR-progje te hebben getest moet ik concluderen dat ik het niet
zal kunnen gebruiken voor dit specifieke projectje, de afbeeldingen hebben namelijk een te lage resolutie
om de taak te kunnen uitvoeren. En aangezien de afbeeldingen niet door mij werden ingescand zie ik niet
hoe ik dit kan verhelpen.
Verder ziet het programma er echt wel top uit, leuke interface om in te werken en zeer gebruiksvriendelijk.

Dus zoals eerder gezegd...
Ik ga nu verder zoeken hoe ik het (tot nu toe best) verkregen resultaat uit mijn eerste post het beste van
word naar excel krijg in een min of meer correcte tabel-indeling die ik dan eventueel nog lichtjes moet
aanpassen.
Ik hou jullie op de hoogte.

groetjes,
BlackDevil/Bieke

BlackDevil · « **Reactie #6 Gepost op:** 29 oktober 2023, 16:47:50 »

Wel......

Omdat ik misschien alsnog een oplossing heb gevonden heb ik mijn vorige tekst, die dus niet meer relevant is, vervangen door deze nieuwe tekst

.

Met in het achterhoofd dat de reden dat ik het professioneel progje niet kon testen te wijten was aan een te lage resolutie van de afbeeldingen bedacht ik "wat als ik nu eens die resolutie toch probeer te verhogen...". Dus ging ik online op zoek naar een tooltje om dit te doen. Zo gezocht, zo gevonden en toegepast.
Na verhoging van de resolutie op een deel van de originele afbeelding (de 2e kolom van de linkse pagina) heb ik dit laten converteren door de online OCR-tool en ik moest vaststellen dat de correctheid met zeker 50% verbeterd was wat dus zeker de moeite is. Als ik dit dan gewoon overzet vanuit word in de juiste kolom van mijn excel bestand dan kan ik gewoon adhv een hulp-werkblad en een korte macro de kleine foutjes in de namen automatisch laten corrigeren nadat ik stelselmatig alle mogelijke "foute" herkenningen toevoeg aan het hulp-werkblad bij de werkelijke naam op dezelfde wijze zoals ik in het verleden heb gedaan om de verschillende schrijfwijzes van namen te standaardiseren. Dit zal dan enkel in het begin wat extra werk vragen om alle mogelijkheden toe te voegen maar op de lange termijn zal dit me uiteindelijk toch wel héél wat corrigeertijd besparen.
Dus wat de voornamen betreft is dit al een mogelijke oplossing.

Ik ga nu ook eens testen of die resolutieverhoging voor de andere kolommen ook zulke verhoging in de correctheid geeft en dan kan ik via hetzelfde principe te werk gaan om de "foute" herkenningen automatisch te laten corrigeren.

Ik ga nu alvast een aparte map-indeling maken voor de afbeeldingen en de diverse stappen alsook mijn excel-bestand voorbereiden.

Zodra ik dan een aantal afbeeldingen alzo verwerkt (resolutieverhoging/ocr-conversie/word-naar-excel) heb en aan de code begin voor de automatische correctie zal ik hier een voorbeeldbestandje plaatsen met vermoedelijk nog hulpvraagjes mbt de benodigde vba-code.

Ik heb alvast terug wat goede moed door deze mogelijke oplossing

(al is het er eentje met wat ferme omwegen

)

groetjes,
Bieke

BlackDevil · « **Reactie #7 Gepost op:** 30 oktober 2023, 14:37:50 »

Goedemiddag allen,

Hier ben ik dan met een eerste werkbare versie van mijn excel-bestand.

Wat betreft de OCR-conversie heb ik besloten om me te beperken tot de voornamen omdat hierbij de conversie het hoogste correctheids-percentage heeft en dit sowieso de meest tijdrovende overname is bij handmatig overtypen. De familienamen die telkens tientallen keren dezelfde is kan ik simpelweg doortrekken, de datums zal ik mits een kleine automatiseringscode ook snel kunnen invoeren en de folio-nummers zullen uiteindelijk ook relatief snel ingetypt zijn.

Ik heb dus momenteel de eerste afbeelding verwerkt wat de voornamen betreft, elke afbeelding bevat 2 pagina’s dus elke handeling word 2x gedaan per afbeelding.
Ik heb eerst de betreffende kolom uit de afbeelding gehaald en via een progje de resolutie verhoogd en vervolgens via de ocr-software deze laten converteren naar tekst. Deze drie (dubbele) handelingen nemen ca. 5 minuten in beslag per afbeelding. Vervolgens heb ik dan in de 2 geconverteerde word-bestanden de namen die onterecht naast elkaar stonden onder elkaar gezet door een simpele “enter”, vervolgens alles geselecteerd en via copy/paste dan in de correcte tabel geplaatst in mijn excel-bestand. Ook dit heeft voor de volledige afbeelding minder dan 5 min in beslag genomen.

In mijn excel-bestand heb ik vervolgens een hulp-werkblad aangemaakt “CORR_vrnmn” waar ik dan voor elke “foutief” geconverteerde voornaam een kolom heb voorzien met in de bovenste rij (titel) de naam zoals hij hoort te zijn en daaronder dan elke ‘foutieve’ vorm van die voornaam zoals ik ze ben tegen gekomen in de geconverteerde lijst. Dit zal bij elke afbeeldingsverwerking verder uitgebreid worden. Voor de eerste afbeelding heeft dit ook minder dan 5 minuten in beslag genomen.
Zoals in mijn vorig bericht reeds aangegeven is dit een onderdeel dat enkel in het begin wat extra tijd in beslag zal nemen om er alle mogelijke ‘foute’ vormen van de voornamen in op te nemen maar op de lange termijn zal dit mij gigantisch veel tijd besparen bij de correcties.

Bedoeling is nu dat ik via VBA-code de voornaam-kolom in het werkblad “DOPEN” laat doorlopen en elke vermelde naam laat “opzoeken” in het hulp-werkblad laat vervangen door de correcte schrijfwijze. Bij het zoeken in het hulp-werkblad is het hoofdlettergebruik irrelevant. De waarde die geretourneerd moet worden naar het werkblad “DOPEN” moet altijd deze uit de eerste rij van het hulp-werkblad zijn en deze is altijd met hoofdletter zoals het hoort te zijn.

MAAR alvorens de namen opgezocht en vervangen moeten worden moet er eerst gecontroleerd worden of er in de naam ergens een ‘.’ (punt) is geplaatst en dient dit verwijderd te worden. Ook een eventuele extra spatie achter de laatste naam in een cel moet verwijderd worden. Ik heb gemerkt dat er bij de OCR-conversie soms een punt of extra spatie geplaatst word.

Verder heb ik in het werkblad “DOPEN” ook een controle-kolom voor de correctie toegevoegd waarin, na de naam-correctie, voor elke rij het woordje ‘ok’ geplaatst moet worden zodat dit bij een volgende correctieronde niet opnieuw verwerkt wordt. Gezien er na verloop van tijd talloze rijen gevuld zullen zijn zou dit anders alsmaar meer verwerkingstijd in beslag nemen.

Ik ben reeds gestart met het schrijven van de procedure voor de correctie maar kom vast te zitten bij het formuleren van de zoek-code in het hulp-werkblad. Vooral omdat er soms, ingeval van meerdere voornamen, met een array zal moeten gewerkt worden. Aangezien ik al een tijdje niet meer actief met VBA-code ben bezig geweest kom ik er niet meteen uit hoe dit ‘zoeken’ in een range, die steeds groter zal worden, en vervolgens de gevonden waarde vervangen, door de waarde uit de eerste rij van dezelfde kolom, nu weer allemaal correct in elkaar zit.

In bijlage mijn eerste versie.

Alvast dank op voorhand voor hulp en/of tips.

Groetjes,
Bieke

***EDIT***
om één of andere reden kan ik mijn bijlage niet toevoegen... krijg steeds melding dat de schrijfdirectory niet beschikbaar is (of iets in die trant)

@SoftAid : enig advies? zodat ik het bestand toch nog kan toevoegen?

redenering · « **Reactie #8 Gepost op:** 30 oktober 2023, 16:05:00 »

Hallo BlackDevil,

euvel schijnt verholpen te zijn...

groeten,

redenering

BlackDevil · « **Reactie #9 Gepost op:** 30 oktober 2023, 16:16:04 »

@redenering,

Thx voor je berichtje

had ook net gemerkt dat het "onderhoud" afgerond was

...

spijtig genoeg lukt het nog steeds niet

nu krijg ik volgende melding : "De bijlage-upload-directory is niet schrijfbaar. De bijlage of avatar kan niet worden opgeslagen."
(heb er deze keer aan gedacht om de melding te kopieren ;-) )

groetjes,
Bieke

MollyVH · « **Reactie #10 Gepost op:** 30 oktober 2023, 16:44:29 »

@ SoftAid,

Mocht het van enig nut zijn om het probleem te identificeren/oplossen: die 'directory' (zie vorige post van Bieke) is blijkbaar ook niet 'leesbaar'.
Bij het proberen downloaden van een bijlage krijg ik error 404.

Mvg,
Molly

BlackDevil · « **Reactie #11 Gepost op:** 30 oktober 2023, 17:34:14 »

Goedenavond allen,

In afwachting wil ik toch al een volgend vraagje stellen zodat ik ondertussen toch al een beetje verder kan.

Voor het sneller te kunnen invoeren van de datums heb ik iets in gedachten maar weet niet zeker of het überhaupt mogelijk is en
indien wel, hoe ik het moet aanpakken.

Is het mogelijk om via de worksheet_change of worksheet_SelectionChange een codeblokje te schrijven waarbij in een specifieke
kolom bij invoer in een cel de selectie automatisch zakt nadat er 2 karakters werden ingevoerd?
Maw, dat ik de 'enter' door vba zelf laat uitvoeren zodra er 2 karakters zijn ingevoerd...
Ik hoopte die 'enter'-automatisering met volgende codelijntje te kunnen uitvoeren :

Code: [Selecteer]

Application.SendKeys "{ENTER}"maar dit lijkt niet te werken....

Het doel is om sowieso te zorgen dat er altijd exact 2 karakters in elke cel staan en om doorlopend te kunnen invoeren zonder
tussendoor altijd zelf op de "enter"-knop te moeten klikken. Op zich lijkt dit misschien "over-the-top" maar het zou toch redelijk
wat helpen aangezien ik toch achtereenvolgens elke keer zo'n 30 cellen moet invullen.

groetjes,
Bieke

MollyVH · « **Reactie #12 Gepost op:** 30 oktober 2023, 18:09:41 »

Hey Bieke,

Zoals altijd hoop ik dat iemand me zal tegenspreken, maar momenteel denk ik dat een celinhoud niet kan geëvalueerd worden terwijl die geëditeerd wordt.
Maar met een textbox moet dat wél lukken (al zal het in het begin wat wennen zijn

)
Meer zelfs, ik heb snel al zo iets (maar rudimentair) gemaakt. Nog enkel wachten tot wanneer we weer kunnen uploaden

Groetjes,
Molly

MollyVH · « **Reactie #13 Gepost op:** 30 oktober 2023, 18:15:57 »

Anderzijds

Ik kan hier natuurlijk ook de code zetten

(jij mag dan de textbox tekenen, het maakt niet uit waar je ze zet). De code mag bij het bewuste werkblad geplaatst worden.

Wél belangrijk: om te beginnen dien je de cel te selecteren die als eerste moet gevuld worden, en daarna... zal je wel zien

Code: [Selecteer]

Private Sub TextBox1_Change()
If Len(TextBox1) = 2 Then
  Selection.Value = TextBox1.Value
  Cells(Selection.Row + 1, Selection.Column).Select
  With TextBox1
    .Value = ""
    .Activate
    .Top = Selection.Top
    .Left = Selection.Left + Selection.Width
  End With
End If
End Sub

BlackDevil · « **Reactie #14 Gepost op:** 30 oktober 2023, 19:05:50 »

@Molly,

Hartelijk dank voor jouw, weer prachtig, samengesteld codeblokje

Vooral handig dat de textbox gewoon de actieve cel meevolgt... zeker eens er meer dan 35 rijen gevuld zijn.

Deze kan ik alvast gebruiken voor de invoer van enerzijds het dag-getal en anderzijds het maandgetal.
Rest er mij nog enkel een tweede textbox te maken en coderen voor het jaartal.

groetjes,
Bieke

Help!

Menu

Hulp bij posten

Zoeken

Recente topics

Auteur Topic: JPG via OCR-Word naar Excel (gelezen 8340 keer)

BlackDevil

JPG via OCR-Word naar Excel

MollyVH

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel

Pagadder

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel

redenering

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel

MollyVH

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel

MollyVH

Re: JPG via OCR-Word naar Excel

MollyVH

Re: JPG via OCR-Word naar Excel

BlackDevil

Re: JPG via OCR-Word naar Excel