Jak odczytać pliki XML bezpośrednio z dysku w równoległym zadaniu DataStage

odpowiedź

etap wprowadzania XML musi przyjmować pojedynczą kolumnę jako wejście. Możliwe jest skonfigurowanie etapu wprowadzania XML tak, aby akceptował całą zawartość dokumentu XML lub ścieżkę pliku ( lub adresu URL), z której można odczytać rzeczywistą zawartość dokumentu. Najlepszym rozwiązaniem dla zadań równoległych jest skonfigurowanie etapu wprowadzania XML tak, aby akceptował ścieżkę do pliku. Etap wprowadzania XML otworzy plik jako jego strumień wejściowy i odczyta plik bezpośrednio z dysku, nie zmieniając go w żaden sposób. Ta metoda jest szybsza, zużywa mniej zasobów i jest znacznie mniej podatna na błędy niż przy użyciu sekwencyjnego etapu plików.

metoda path wymaga sposobu wygenerowania pełnej ścieżki do pliku (lub plików), który zostanie następnie przekazany do etapu wprowadzania XML. Zewnętrzny Stopień źródłowy wykonuje doskonałą pracę, zapewniając tę zdolność. Zewnętrzny Stopień źródłowy zostanie powłoką i uruchomi dowolny program wykonywalny, a następnie przekieruje standardowe wyjście tego programu do zadania. Aby uzyskać listę ścieżek plików, możemy zlecić zewnętrznemu źródłu uruchomienie programu 'find’, który jest powszechnie dołączany do systemu operacyjnego Unix lub Linux. Na platformie Windows program ten jest również dostarczany jako część zestawu narzędzi MKS, który jest instalowany automatycznie przez instalację DataStage.

oto przykład, w jaki sposób program find może wytworzyć pełną ścieżkę do dokumentów XML jako ouput:

find /data/input-name „*.xml ” – print

uruchomienie programu z tymi argumentami spowoduje wytworzenie listy pełnych ścieżek do każdego pliku kończącego się na.rozszerzenie xml w katalogu/data / input lub którymkolwiek z jego podkatalogów. Wyjście będzie miało jedną ścieżkę pliku na linię, zakończoną znakiem nowej linii.

Leave a Reply

Twój adres e-mail nie zostanie opublikowany.