Sådan læses filer direkte fra disken i et DataStage parallelt job

svar

Det er muligt at konfigurere Indtastningsfasen til at acceptere enten hele indholdet af et dokument eller en fil ( eller URL) sti, hvor det faktiske dokumentindhold kan læses fra. Det er den bedste mulighed for parallelle job at konfigurere Input-fasen til at acceptere filstien. Derefter åbner filen som dens inputstrøm og læser filen direkte fra disken uden at ændre den på nogen måde. Denne metode er hurtigere, bruger mindre ressourcer og er langt mindre udsat for fejl end at bruge et sekventielt filtrin.

path-metoden kræver en måde at generere den komplette sti til filen (eller filerne), som derefter overføres til input-trinnet. Den eksterne Kildetrin gør et fremragende stykke arbejde med at give denne evne. Den eksterne kilde fase vil skallen ud og køre enhver eksekverbar program, og derefter omdirigere standard output af dette program i jobbet. For at få en liste over filstierne kan vi få den eksterne Kildetrin til at køre ‘find’ – programmet, som ofte er inkluderet i et operativsystem. Dette program leveres også som en del af MKS Toolkit, som installeres automatisk af DataStage-installationen.

her er et eksempel på, hvordan find-programmet kan producere den fulde sti til dokumenter som ouput:

find /data/input-name “*.”- print

kørsel af programmet med disse argumenter vil producere en liste over fulde stier til hver fil, der slutter med .i/data / input-mappen eller en af dens undermapper. Udgangen vil have en filsti per linje, afsluttet med et nyt linjetegn.

Leave a Reply

Din e-mailadresse vil ikke blive publiceret.