Jak číst soubory XML přímo z disku v paralelní úloze DataStage
odpověď
vstupní fáze XML musí mít jako vstup jeden sloupec. Je možné nakonfigurovat vstupní fázi XML tak, aby přijímala buď celý obsah dokumentu XML, nebo cestu k souboru ( nebo URL), ze které lze číst skutečný obsah dokumentu. Konfigurace vstupní fáze XML pro přijetí cesty k souboru je nejlepší volbou pro paralelní úlohy. Vstupní fáze XML pak otevře soubor jako vstupní proud a přečte soubor přímo z disku, aniž by jej jakýmkoli způsobem změnila. Tato metoda je rychlejší, spotřebovává méně zdrojů a je mnohem méně náchylná k chybám než při použití fáze sekvenčního souboru.
metoda cesta vyžaduje způsob, jak vygenerovat úplnou cestu k souboru (nebo souborům), který bude poté předán do vstupní fáze XML. Externí zdroj fáze dělá vynikající práci poskytuje tuto schopnost. Fáze externího zdroje vysune a spustí jakýkoli spustitelný program a poté přesměruje standardní výstup tohoto programu do úlohy. Chcete-li získat seznam cest k souborům, můžeme nechat fázi externího zdroje spustit program „najít“, který je běžně součástí operačního systému Unix nebo Linux. Na platformě Windows je tento program poskytován také jako součást sady nástrojů MKS, která je nainstalována automaticky instalací DataStage.
zde je příklad toho, jak program find může vytvořit úplnou cestu k dokumentům XML jako ouput:
find/data / input-name“*.xml “ – print
spuštění programu s těmito argumenty vytvoří seznam úplných cest ke každému souboru končícímu .rozšíření xml v adresáři/data / input nebo v některém z jeho podadresářů. Výstup bude mít jednu cestu k souboru na řádek, ukončenou novým řádkovým znakem.