링크세상 링크모음
링크세상 링크모음 링크 애니 웹툰 링크 드라마 영화 링크 세상의모든링크

데이터 플랫폼 요구 사항 및 기대

빅 데이터 플랫폼은 조직이 다양한 소스에서 얻은 대량의 데이터를 저장, 처리 및 분석할 수 있도록 하는 복잡하고 정교한 시스템입니다.

이는 보안되고 관리되는 플랫폼에서 함께 작동하는 여러 구성 요소로 구성됩니다. 따라서 빅 데이터 플랫폼은 조직의 다양하고 진화하는 요구 사항을 처리할 수 있도록 다양한 요구 사항을 충족해야 합니다.

도메인의 광범위한 특성으로 인해 포괄적이고 완전한 요구 사항 목록을 제공하는 것은 불가능합니다. 추가 개선 사항을 공유하려면 당사에 문의해 주시기 바랍니다.

데이터 수집

이 영역에는 다양한 소스의 데이터 수집, 처리 및 적절한 형식으로의 저장이 포함됩니다.

  • 데이터 소스

    데이터베이스, 파일 시스템, API, 데이터 스트림을 포함한 다양한 소스의 데이터를 소비하는 능력.

  • 수집 모드

    일괄 처리와 스트리밍 모두에서 데이터를 소비하는 기능.

  • 데이터 형식

    JSON, CSV, XML, Avro, Parquet, Delta Lake 및 Iceberg와 같은 파일 형식 및 테이블 형식 읽기 및 쓰기를 지원합니다.

  • 데이터 품질

    데이터 완전성, 데이터 정확성, 데이터 일관성 등 데이터에 대한 품질 요구 사항을 정의하고 수집 파이프라인이 필요에 따라 데이터를 검증하고 정리할 수 있는지 확인합니다.

  • 데이터 변환

    데이터를 저장하거나 분석하기 전에 데이터를 변환하거나 강화해야 하는지 여부를 결정합니다.

  • 데이터 가용성

    수집 파이프라인이 데이터 소스 또는 수집 파이프라인 자체의 오류나 중단을 처리할 수 있고 데이터 손실 없이 수집을 복구하고 재개할 수 있는지 확인하세요.

  • 용량

    예상되는 볼륨 및 처리량 변화를 해결할 수 있는 솔루션을 제공합니다.

데이터 저장고

이 영역에는 대용량 데이터의 저장, 관리 및 검색이 포함됩니다.

  • 유효성

    다운타임을 최소화하면서 안정적으로 데이터에 액세스할 수 있어 데이터의 고가용성이 보장됩니다.

  • 내구성

    데이터 복제 및 백업 전략을 마련하여 하드웨어 오류나 기타 오류로 인해 데이터가 손실되지 않도록 보장하는 기능입니다.

  • 성능

    낮은 대기 시간과 높은 처리량으로 데이터를 빠르고 효율적으로 저장하고 검색하는 기능입니다.

  • 탄력

    추가 리소스를 확보하고 해제하여 필요에 따라 확장 및 축소할 수 있는 기능을 통해 점점 증가하는 데이터 볼륨을 저장하고 관리합니다.

  • 데이터 수명주기

    변경 사항을 적용하고 누락된 데이터를 추가하며 이전 버전으로 되돌릴 수 있는 가능성을 통해 데이터 수명주기 관리.

데이터 레이크의 데이터 처리

이 영역에는 추가 분석을 위해 데이터를 준비하고 공개하는 프로세스가 포함됩니다.

  • 유연성

    다양한 데이터 유형과 형식을 지원하는 능력, 다양한 분산 데이터 처리 및 분석 도구와 통합하는 능력.

  • 데이터 정리

    데이터를 정리하여 오류, 불일치 및 누락된 값을 제거하거나 수정합니다.

  • 데이터 통합

    여러 데이터 소스를 단일 데이터 세트로 결합 및 통합하여 스키마 또는 형식 차이를 해결합니다.

  • 데이터 변환

    집계, 필터링, 정렬, 피벗 등 다운스트림 처리 또는 분석을 위해 데이터를 변환하여 준비합니다.

  • 데이터 강화

    추가 정보로 데이터를 강화하여 더 많은 맥락과 통찰력을 제공하세요.

  • 데이터 감소

    필수 특성과 통찰력을 유지하면서 데이터를 요약하거나 샘플링하여 데이터의 양을 줄입니다.

  • 데이터 정규화 및 비정규화

    데이터를 정규화하여 중복성과 불일치를 제거하고, 데이터가 일관된 형식으로 저장되고 비정규화되어 성능이 향상되도록 합니다.

데이터 관찰 가능성

이 영역은 플랫폼을 통해 흐르는 데이터의 품질, 무결성 및 성능을 모니터링하고 관리하는 관행입니다.

  • 데이터 유효성 검사

    데이터가 유효하고 정확하며 일관성이 있고 예상 형식과 스키마를 충족하는지 확인합니다.

  • 데이터 계보

    문제나 이상 현상을 식별하기 위해 시스템을 통해 흐르는 데이터 경로를 추적합니다.

  • 데이터 품질 모니터링

    데이터 품질을 지속적으로 모니터링하고 이상이나 오류가 감지되면 경고를 보냅니다.

  • 성능 모니터링

    대기 시간, 처리량, 리소스 활용도 등 시스템 성능을 모니터링하여 시스템이 최적으로 작동하는지 확인합니다.

  • 메타데이터 관리

    데이터 스키마, 데이터 사전, 데이터 카탈로그 등 데이터와 관련된 메타데이터를 관리하여 정확하고 최신 상태인지 확인합니다.

데이터 사용량

이 영역에는 통찰력과 실행 가능한 정보를 추출하기 위해 데이터에 액세스, 전송, 분석 및 시각화하기 위한 요구 사항이 포함됩니다.

  • 사용자 인터페이스

    데이터 처리 및 시각화를 위해 사용자가 사용할 수 있는 CLI 환경 및 그래픽 인터페이스.

  • 통신 인터페이스

    REST, RPC 및 JDBC/ODBC 통신 프로토콜을 통한 데이터 액세스 제공.

  • 데이터 수집

    탐색적 데이터 분석을 수행하여 데이터 특성과 품질을 이해하고, 통계 또는 기계 학습 알고리즘을 사용하여 데이터에서 패턴, 관계 또는 통찰력을 추출합니다.

  • 데이터 접근

    적절한 보안 제어 및 프로토콜을 구현하여 데이터가 무단 액세스 또는 침해로부터 안전하고 보호되는지 확인하십시오.

  • 데이터 시각화

    차트, 그래프 또는 기타 시각화를 사용하여 데이터를 시각화하여 이해관계자에게 통찰력과 결과를 전달합니다.

플랫폼 보안 및 운영

빅데이터 플랫폼의 보안과 관리를 다루는 영역입니다.

  • 데이터 규제 및 규정 준수

    데이터 개인정보 보호법, 데이터 사용 관행, 데이터 보존 정책, 데이터 액세스 제어 등 데이터 거버넌스 정책 및 규정을 준수할 수 있는 능력.

  • 세분화된 액세스 제어

    각 서비스의 특성과 특수성을 고려한 관리 정책을 통해 제안된 모든 서비스에 대한 액세스 및 데이터 공유를 제어할 수 있습니다.

  • 데이터 필터링 및 마스킹

    행 및 열 기준으로 데이터 필터링, 민감한 데이터에 마스크 적용.

  • 암호화

    SSL/TLS를 사용하여 저장 및 전송 중 암호화.

  • 정보 시스템에 통합

    사용자 및 사용자 그룹을 회사 디렉터리와 통합합니다.

  • 보안 경계

    네트워크에서 플랫폼을 격리하고 단일 진입점을 통해 액세스를 중앙 집중화합니다.

  • 관리 인터페이스

    서비스 구성 및 모니터링, 데이터 액세스 제어 관리, 플랫폼 거버넌스를 위한 그래픽 인터페이스 제공.

  • 모니터링 및 경고

    다양한 서비스와 애플리케이션의 상태와 성능을 모니터링하고 확인하는 측정항목과 경고를 노출합니다.

하드웨어 및 유지 관리

이 영역에서는 유지 관리 요구 사항은 물론 새로운 리소스 획득을 다룹니다.

  • 타겟 인프라

    클라우드와 온프레미스 인프라 중 하나를 선택하려면 클라우드가 유연하고 확장 가능한 저장 및 대규모 데이터 세트 처리를 비용 효율성과 함께 제공하는 반면, 온프레미스 배포는 데이터에 대한 더 강력한 제어, 보안 및 규정 준수를 제공하지만 상당한 사전 투자가 필요하다는 점을 고려합니다. 지속적인 유지관리 비용.

  • 비대칭 아키텍처

    저장 및 처리 전용 리소스 간의 분리 및 경우에 따라 처리 및 데이터의 배치.

  • 저장

    표현된 볼륨에 맞춰 스토리지 인프라를 제공합니다.

  • 컴퓨팅

    데이터 엔지니어링, 데이터 분석 및 데이터 과학 분야의 프로젝트 및 사용자가 가져오는 미래 용도에 맞춰 진화할 수 있는 컴퓨팅 인프라를 제공합니다.

  • 비용 효율성

    스토리지 비용과 스토리지 솔루션 관리 및 운영 비용을 고려하여 데이터를 비용 효율적으로 저장하고 관리할 수 있는 능력입니다.

  • 비용 관리 및 총 소유 비용(TCP)

    인프라, 직원, 라이센스 취득, 기한, 사용, 팀 교체, 기술 부채 등과 같은 플랫폼의 모든 요소와 특수성을 고려하여 솔루션의 총 비용을 제어하고 계산합니다.

  • 사용자 지원

    팀을 위한 새로운 기술 습득, 아키텍처 선택 검증, 패치 및 기능 배포, 사용 가능한 리소스의 적절한 사용을 보장하는 것을 목표로 플랫폼 사용자를 지원합니다.

결론

전반적으로 빅 데이터 플랫폼은 조직의 다양하고 진화하는 요구 사항을 처리할 수 있어야 하며, 솔루션의 유연성, 복원력, 성능이 뛰어나고 데이터가 안전하고 규정을 준수하며 고품질이어야 하며 통찰력과 발견이 가능해야 합니다. 다양한 이해관계자들에게 효과적으로 전달되며, 시간이 지나도 운영 비용 효율성이 유지됩니다.