Slik leser DU XML-filer direkte fra disk i En DataStage parallell jobb

Svar

XML – inndatastadiet må ta en enkelt kolonne som inngang. DET er mulig å konfigurere XML Input scenen for å akseptere enten hele innholdet I ET XML-dokument eller en fil ( ELLER URL) bane der selve dokumentinnholdet kan leses fra. Konfigurere XML – inndatastadiet til å godta filbanen er det beste alternativet for parallelle jobber. XML Input scenen vil da åpne filen som sin input stream, og lese filen direkte fra disk uten å endre det på noen måte. Denne metoden er raskere, bruker mindre ressurser, og er langt mindre utsatt for feil enn å bruke et sekvensielt filstadium.

banemetoden krever en måte å generere hele banen til filen (eller filene) som deretter sendes til XML-inndatastadiet. Den Eksterne Kilden scenen gjør en utmerket jobb å gi denne evnen. Den Eksterne Kildefasen vil skille ut og kjøre et kjørbart program, og deretter omdirigere standardutgangen til det programmet til jobben. For å få en liste over filbanene, kan Vi få Ekstern Kildefase til å kjøre ‘finn’ – programmet som vanligvis følger Med Et Unix-eller Linux-operativsystem. På Windows-plattformen, er dette programmet også gitt som en del AV Mks Toolkit som installeres automatisk Av DataStage installasjon.

Her er et eksempel på hvordan find-programmet kan produsere hele banen TIL XML-dokumenter som ouput:

finn / data /input-name «*.xml » – print

Kjorer programmet med disse argumentene vil produsere en liste over fulle baner til hver fil som slutter med den .xml-utvidelse i/data / input-katalogen eller noen av dens underkataloger. Utgangen vil ha en filbane per linje, avsluttet med et nytt linjetegn.

Leave a Reply

Din e-postadresse vil ikke bli publisert.