8. [Repositories] オントロジーデータパイプライン8 - オントロジーデータソース準備ガイダンス

注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。

8 - オントロジーデータソース準備ガイダンス

次のいくつかのタスクでは、Foundry のオントロジー管理アプリケーション(OMA)で基本的なオブジェクトタイプとリンクタイプを作成します。オブジェクトタイプは、通常、スケジュールされた、整備されたビルド(このトレーニングのルートで生成したものなど)のターゲット(つまり、出力)である Foundry データセットによって裏打ちされています。

まず、オントロジーのオブジェクトタイプを裏打ちするデータセットを構築するためのベストプラクティスを確認し、パイプラインがこれらをどのように実装しているかをいくつか示します。

まず、元データセットの最適なスキーマに関するガイダンスを確認しましょう。このドキュメンテーションを3-4分間確認し、仕事が頻繁に Foundry オントロジーへのデータの準備と同期を含む場合は、ブックマークを考慮してください。提案されたデータタイプと命名パターンを守ることで、オントロジー全体のパフォーマンスと一貫性が向上します。

次に、パイプラインの実行方法と、その結果、オントロジーの保守性に影響を与えるコード開発のベストプラクティスに戻りましょう。このドキュメンテーションページ(約8分の読み物)で、コードとパイプラインの衛生に関する一般的な推奨事項を確認します。

これらの推奨事項を確認した後、以下のデータセットをオントロジーオブジェクトタイプの元データセットとしてより良く準備するための少なくとも3つの提案を考えることができますか?

最後に、オントロジー開発プロジェクトに取り組む前に、以下のことを知っておくべきです:

  • ユーザーのオブジェクトタイプとリンクで達成しようとするワークフローと必要なデータアーキテクチャ。
  • オブジェクトタイプは1つのデータセットによって裏打ちされ、データセットは1つのオブジェクトタイプしか裏打ちできません。
  • クリーニングとフォーマットは、可能な限りOMAやオントロジー対応アプリケーションではなく、データ変換の上流で行うべきです。
  • プライマリキーは常に一意であるべきですが、オントロジーの元データセットには特に重要です。
  • 元データセットのスキーマが変更された場合、オブジェクトタイプとリンクタイプがネガティブに影響を受けないように、対策を講じる必要があるかもしれません(これについては後ほど詳しく説明します)。