- Berichten: 311
- Bedankjes 95
Importeren MyHeritage GEDCOM
- Alle Metzlar
- Auteur
Importeren MyHeritage GEDCOM
01 apr 2021 19:22
Om verschillende redenen maak ik gebruik van zowel MyHeritage als Aldfaer, o.a. vanwege de zeer belabberde rapporten die met MH kunnen worden gegenereerd. Toch ervaar ik nog steeds als een probleem om een GEDCOM van MH in Aldfaer te importeren. Ik heb het bericht van Han Kortekaas tot op de letter gevolgd, maar dat geeft helaas geen antwoord op alle import problemen.
Notepad++ geeft duidelijk aan dat het GEDCOM bestand een UTF-8-BOM encoding heeft. Verdere instructies gevolgd, maar Aldfaer geeft bij import aan dat het bestand ongeldig is en dus niet kan worden geïmporteerd. Vervolgens heb ik in Notepad++ het bestand eerst geconverteerd naar UTF-8 encoding en vervolgens geconverteerd naar UTF-8-BOM codering, met de expliciete conversie opties. Daarna verloopt de import met succes, maar bijzondere tekens die in UTF-8 zijn gedefinieerd, worden in Aldfaer niet overgenomen, zoals:
ä - ä / é - é / ë - Ä« / ï - ï / ó - ó / ö - ö / ü - ü
Ik ben er een voorstander van om plaatsnamen, provincies e.d. zoveel mogelijk in de oorspronkelijke benaming op te nemen, hoewel ik daar voor de duidelijkheid soms wel een duidelijkere naam aan toevoeg, maar in ieder geval geen Cyrillische, Hebreeuwse, Griekse e.a. karakters gebruik. Maar, ook nu worden standaard UTF-8 karakters niet door Aldfaer overgenomen:
Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL / Sobibór, Biala Podleska, Włodawa, PL
Ook is mij in een aantal gevallen opgevallen dat Aldfaer zonder enige aanwijzing bijzondere karakters toevoegt, zoals bij:
de Vriesâ€â€Žâ€â€Ž / Mullerâ€â€Ž / van der Halâ€â€Ž / van Hessenâ€â€Ž / Venhuizenâ€â€Ž
In geval van "de Vries" komt dit slechts in 3 van de meer dan 100 gevallen voor. Controle in Notepad++ geeft aan dat de naam door niets anders wordt gevolgd dan een carriage-return/line-feed (CRLF).
Verder is het mij opgevallen dat het MH GEDCOM bestand soms niet-afdrukbare tekens bevat, die in Notepad++ te zien zijn in een klein kader met zwarte achtergrond en witte letters, zoals HOP (staat misschien voor Hexadecimal OPerator). Natuurlijk kan ik al die afwijkingen wijzigen, maar naarmate de genealogie groeit, wordt dat ook steeds arbeidsintensiever, zeker nu het aantal records meer dan 25.000 omvat en de regels in het GEDCOM bestand zo'n 700.000 regels.
Bestaat hiervoor een eenvoudige oplossing, die ik over het hoofd zie?
Notepad++ geeft duidelijk aan dat het GEDCOM bestand een UTF-8-BOM encoding heeft. Verdere instructies gevolgd, maar Aldfaer geeft bij import aan dat het bestand ongeldig is en dus niet kan worden geïmporteerd. Vervolgens heb ik in Notepad++ het bestand eerst geconverteerd naar UTF-8 encoding en vervolgens geconverteerd naar UTF-8-BOM codering, met de expliciete conversie opties. Daarna verloopt de import met succes, maar bijzondere tekens die in UTF-8 zijn gedefinieerd, worden in Aldfaer niet overgenomen, zoals:
ä - ä / é - é / ë - Ä« / ï - ï / ó - ó / ö - ö / ü - ü
Ik ben er een voorstander van om plaatsnamen, provincies e.d. zoveel mogelijk in de oorspronkelijke benaming op te nemen, hoewel ik daar voor de duidelijkheid soms wel een duidelijkere naam aan toevoeg, maar in ieder geval geen Cyrillische, Hebreeuwse, Griekse e.a. karakters gebruik. Maar, ook nu worden standaard UTF-8 karakters niet door Aldfaer overgenomen:
Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL / Sobibór, Biala Podleska, Włodawa, PL
Ook is mij in een aantal gevallen opgevallen dat Aldfaer zonder enige aanwijzing bijzondere karakters toevoegt, zoals bij:
de Vriesâ€â€Žâ€â€Ž / Mullerâ€â€Ž / van der Halâ€â€Ž / van Hessenâ€â€Ž / Venhuizenâ€â€Ž
In geval van "de Vries" komt dit slechts in 3 van de meer dan 100 gevallen voor. Controle in Notepad++ geeft aan dat de naam door niets anders wordt gevolgd dan een carriage-return/line-feed (CRLF).
Verder is het mij opgevallen dat het MH GEDCOM bestand soms niet-afdrukbare tekens bevat, die in Notepad++ te zien zijn in een klein kader met zwarte achtergrond en witte letters, zoals HOP (staat misschien voor Hexadecimal OPerator). Natuurlijk kan ik al die afwijkingen wijzigen, maar naarmate de genealogie groeit, wordt dat ook steeds arbeidsintensiever, zeker nu het aantal records meer dan 25.000 omvat en de regels in het GEDCOM bestand zo'n 700.000 regels.
Bestaat hiervoor een eenvoudige oplossing, die ik over het hoofd zie?
- Antoon
- Offline
Lees minder
Lees meer
Re: Importeren MyHeritage GEDCOM
01 apr 2021 22:43
Er speelt duidelijk een ANSI vs UTF-8 probleem. Als je
Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL
kopieert in een leeg ANSI-bestand in Notepad++, en vervolgens de karakterset wijzigt naar UTF-8, dan staat er:
Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL
Als ik Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL in een UTF-8 GEDCOM-bestand zet en dan in Aldfaer importeer, dan wordt het correct geïmporteerd door Aldfaer. Ik heb de indruk dat het MH GEDCOM-bestand niet correct gecodeerd is. Daar wijst de foutenmelding van Aldfaer bij import ook op.
Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL
kopieert in een leeg ANSI-bestand in Notepad++, en vervolgens de karakterset wijzigt naar UTF-8, dan staat er:
Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL
Als ik Auschwitz, Oświęcim, Małopolskie, Oświęcimski, PL in een UTF-8 GEDCOM-bestand zet en dan in Aldfaer importeer, dan wordt het correct geïmporteerd door Aldfaer. Ik heb de indruk dat het MH GEDCOM-bestand niet correct gecodeerd is. Daar wijst de foutenmelding van Aldfaer bij import ook op.
- Alle Metzlar
- Auteur
Re: Importeren MyHeritage GEDCOM
02 apr 2021 00:54 - 02 apr 2021 01:29
Dat zou dan bovendien voor de andere problemen met speciale karakters gelden, en betekent dus dan ik de inhoud van een MH GEDCOM bestand moet kopiëren naar een leeg bestand dat is gedefinieerd met ANSI encoding en daarna naar een leeg bestand met UTF-8 encoding en vervolgens converteer naar UTF-9-BOM. Omslachtig, maar aanzienlijk minder arbeidsintensief dan een volledig doorlopen van het GEDCOM bestand. Benieuwd wat er gebeurd met de andere genoemde problemen, m.n. de niet-afdrukbare tekens.
Alvast bedankt, Antoon. Ik laat eenieder weten wat het resultaat is.
Alvast bedankt, Antoon. Ik laat eenieder weten wat het resultaat is.
Laatst bewerkt 02 apr 2021 01:29 door Alle Metzlar.
- Alle Metzlar
- Auteur
Re: Importeren MyHeritage GEDCOM
02 apr 2021 16:56
Helaas, zonder succes! Een enkele regel converteren werkt wel op die manier, maar een bestand met 700.000 regels helaas niet. Het probleem zit in het MH bestand, waarbij de bijzondere tekens (letters met diakrieten) zoals aangegeven in het GEDCOM bestand worden opgenomen. Bovendien worden allerlei controletekens (in kader, zwarte achtergrond, witte hoofdletter) toegevoegd bij de aangegeven achternamen. Naast de genoemde HOP ook SS3 en OSC.
Ik heb nu het bestand van MH geïmporteerd na de wijzigingen van dhr. Kortekaas te hebben doorgevoerd en de controletekens te hebben verwijderd, maar moest de encoding op UTF-8 instellen, en niet op UTF-8-BOM (deze laatste encoding geeft nu: Fout 2 tijdens inlezen bestand). Onbekende tags heb ik niet laten opnemen. Vervolgens heb ik in Aldfaer de import direct weer geëxporteerd. Het export bestand is half zo groot als het MH bestand, nog geen 350.000 regels. Vervolgens heb ik met zoeken/vervangen (alles vervangen, waar mogelijk) het bestand opgeschoond. Daarna opnieuw geïmporteerd in Aldfaer. Nu werden alle letters met diakrieten normaal weergegeven.
Ik heb nu het bestand van MH geïmporteerd na de wijzigingen van dhr. Kortekaas te hebben doorgevoerd en de controletekens te hebben verwijderd, maar moest de encoding op UTF-8 instellen, en niet op UTF-8-BOM (deze laatste encoding geeft nu: Fout 2 tijdens inlezen bestand). Onbekende tags heb ik niet laten opnemen. Vervolgens heb ik in Aldfaer de import direct weer geëxporteerd. Het export bestand is half zo groot als het MH bestand, nog geen 350.000 regels. Vervolgens heb ik met zoeken/vervangen (alles vervangen, waar mogelijk) het bestand opgeschoond. Daarna opnieuw geïmporteerd in Aldfaer. Nu werden alle letters met diakrieten normaal weergegeven.
- Han Kortekaas
-
- Offline
Re: Importeren MyHeritage GEDCOM
02 apr 2021 17:38
Alle MH gedcombestanden van derden heb ik gerepareerd door eerst de inhoud (behalve de eerste en laatste regel) te kopiëren naar een bestand met een gelijke eerste en laatste regel waarvan ik zeker wist dat de karakterset op UTF-8 stond.
Daarna geen encoding probleem meer.
Daarna geen encoding probleem meer.
- Alle Metzlar
- Auteur
Re: Importeren MyHeritage GEDCOM
02 apr 2021 19:53
Helaas, opnieuw geen succes en dus hetzelfde resultaat, dus geen letters met diakrieten. Ik vraag mij af of dit iets te maken kan hebben met de controletekens die in het GEDCOM bestand worden opgenomen.
Desondanks bedankt voor de hulp. Ik ga hier verder mee aan de slag.
Desondanks bedankt voor de hulp. Ik ga hier verder mee aan de slag.