Goedemiddag allen,
Hier ben ik dan met een eerste werkbare versie van mijn excel-bestand.
Wat betreft de OCR-conversie heb ik besloten om me te beperken tot de voornamen omdat hierbij de conversie het hoogste correctheids-percentage heeft en dit sowieso de meest tijdrovende overname is bij handmatig overtypen. De familienamen die telkens tientallen keren dezelfde is kan ik simpelweg doortrekken, de datums zal ik mits een kleine automatiseringscode ook snel kunnen invoeren en de folio-nummers zullen uiteindelijk ook relatief snel ingetypt zijn.
Ik heb dus momenteel de eerste afbeelding verwerkt wat de voornamen betreft, elke afbeelding bevat 2 pagina’s dus elke handeling word 2x gedaan per afbeelding.
Ik heb eerst de betreffende kolom uit de afbeelding gehaald en via een progje de resolutie verhoogd en vervolgens via de ocr-software deze laten converteren naar tekst. Deze drie (dubbele) handelingen nemen ca. 5 minuten in beslag per afbeelding. Vervolgens heb ik dan in de 2 geconverteerde word-bestanden de namen die onterecht naast elkaar stonden onder elkaar gezet door een simpele “enter”, vervolgens alles geselecteerd en via copy/paste dan in de correcte tabel geplaatst in mijn excel-bestand. Ook dit heeft voor de volledige afbeelding minder dan 5 min in beslag genomen.
In mijn excel-bestand heb ik vervolgens een hulp-werkblad aangemaakt “CORR_vrnmn” waar ik dan voor elke “foutief” geconverteerde voornaam een kolom heb voorzien met in de bovenste rij (titel) de naam zoals hij hoort te zijn en daaronder dan elke ‘foutieve’ vorm van die voornaam zoals ik ze ben tegen gekomen in de geconverteerde lijst. Dit zal bij elke afbeeldingsverwerking verder uitgebreid worden. Voor de eerste afbeelding heeft dit ook minder dan 5 minuten in beslag genomen.
Zoals in mijn vorig bericht reeds aangegeven is dit een onderdeel dat enkel in het begin wat extra tijd in beslag zal nemen om er alle mogelijke ‘foute’ vormen van de voornamen in op te nemen maar op de lange termijn zal dit mij gigantisch veel tijd besparen bij de correcties.
Bedoeling is nu dat ik via VBA-code de voornaam-kolom in het werkblad “DOPEN” laat doorlopen en elke vermelde naam laat “opzoeken” in het hulp-werkblad laat vervangen door de correcte schrijfwijze. Bij het zoeken in het hulp-werkblad is het hoofdlettergebruik irrelevant. De waarde die geretourneerd moet worden naar het werkblad “DOPEN” moet altijd deze uit de eerste rij van het hulp-werkblad zijn en deze is altijd met hoofdletter zoals het hoort te zijn.
MAAR alvorens de namen opgezocht en vervangen moeten worden moet er eerst gecontroleerd worden of er in de naam ergens een ‘.’ (punt) is geplaatst en dient dit verwijderd te worden. Ook een eventuele extra spatie achter de laatste naam in een cel moet verwijderd worden. Ik heb gemerkt dat er bij de OCR-conversie soms een punt of extra spatie geplaatst word.
Verder heb ik in het werkblad “DOPEN” ook een controle-kolom voor de correctie toegevoegd waarin, na de naam-correctie, voor elke rij het woordje ‘ok’ geplaatst moet worden zodat dit bij een volgende correctieronde niet opnieuw verwerkt wordt. Gezien er na verloop van tijd talloze rijen gevuld zullen zijn zou dit anders alsmaar meer verwerkingstijd in beslag nemen.
Ik ben reeds gestart met het schrijven van de procedure voor de correctie maar kom vast te zitten bij het formuleren van de zoek-code in het hulp-werkblad. Vooral omdat er soms, ingeval van meerdere voornamen, met een array zal moeten gewerkt worden. Aangezien ik al een tijdje niet meer actief met VBA-code ben bezig geweest kom ik er niet meteen uit hoe dit ‘zoeken’ in een range, die steeds groter zal worden, en vervolgens de gevonden waarde vervangen, door de waarde uit de eerste rij van dezelfde kolom, nu weer allemaal correct in elkaar zit.
In bijlage mijn eerste versie.
Alvast dank op voorhand voor hulp en/of tips.
Groetjes,
Bieke
***EDIT***om één of andere reden kan ik mijn bijlage niet toevoegen... krijg steeds melding dat de schrijfdirectory niet beschikbaar is (of iets in die trant)
@SoftAid : enig advies? zodat ik het bestand toch nog kan toevoegen?