Fase di esempio in DataStage
Lo stage Sample esegue il campionamento di un dataset di input.
Lo stage Sample può avere un singolo link di input e un qualsiasi numero di link di output quando si opera in modalità percentuale oppure un singolo link di input e di output quando si opera in modalità periodo. Si tratta di una delle numerose fasi fornite da IBM DataStage per aiutarti a campionare i dati, vedi anche:
- Fase della testa, Fase della testa in DataStage.
- Fase di coda, Fase di coda in DataStage.
- Fase Peek, Fase Peek in DataStage.
Lo stage Sample è uno stage di debug. Funziona in due modi. In modalità Percentuale, estrae le righe, selezionarle mediante un generatore di numeri casuali e ne scrive una determinata percentuale in ciascun dataset di output. Si specifica il numero di dataset di output, la percentuale scritta in ciascun dataset e un valore di inizializzazione per avviare il generatore di numeri casuali. È possibile riprodurre una determinata distribuzione ripetendo lo stesso numero di output, la stessa percentuale e lo stesso valore iniziale.
In modalità Periodo, estrae ogni Nriga da ogni partizione, dove N è il periodo fornito. In questo caso, tutte le righe verranno emesse in un singolo data set, quindi lo stage utilizzato in questa modalità può avere solo un singolo link di output
Per entrambe le modalità è possibile specificare il numero massimo di righe che si desidera campionare da ciascuna partizione.
- Fase . È sempre presente e viene utilizzato per specificare informazioni generali sullo stage.
- Ingresso. Questo è il punto in cui si specificano i dettagli sul dataset da campionare.
- Uscita. Questo è il punto in cui si specificano i dettagli relativi ai dati di esempio che vengono emessi dallo stage.
Scheda input
La sezione Colonne specifica le definizioni delle colonne dei dati in entrata.
Scheda output
In modalità Percentuale, lo stadio può avere un numero qualsiasi di collegamenti di uscita, mentre in modalità Periodo può avere una sola uscita. Scegliere il link su cui lavorare dall'elenco a discesa Output Link.
La sezione Colonne specifica le definizioni delle colonne dei dati in uscita. Fare clic su Modifica alla fine della sezione Colonne per specificare le informazioni di mappatura. La mappatura specifica la relazione tra le colonne in ingresso allo stage Sample e le colonne in uscita. La sezione Avanzate consente di modificare le impostazioni di buffering predefinite per i collegamenti di uscita.
- Uscita di mappatura
Fare clic su Modifica nella sezione Colonne per mappare le colonne. Visualizzare le colonne dei dati campionati. Questi dati sono di sola lettura e non possono essere modificati in questa scheda. Questo mostra i metadati del link in entrata.
Outputs_Page_row_generator_stage
Il riquadro mostra le colonne di output per il collegamento di output. Questo ha un campo Derivazioni in cui è possibile specificare il modo in cui la colonna è derivata. È possibile riempirlo trascinando le colonne di input o utilizzando la funzione di corrispondenza automatica.