데이터 큐브

Data cube

컴퓨터 프로그래밍 컨텍스트에서 데이터 큐브(또는 데이터큐브)는 다차원("n-D") 값의 배열이다.일반적으로 데이터큐브라는 용어는 이러한 어레이가 호스팅 컴퓨터의 메인 메모리보다 훨씬 큰 상황에 적용된다. 예로는 수 테라바이트/페타바이트 데이터 웨어하우스와 이미지 데이터의 시계열 데이터 등이 있다.null

데이터 큐브는 관심의 일부 차원을 따라 데이터(때로는 사실이라고도 함)를 나타내기 위해 사용된다.예를 들어, OLAP에서 그러한 차원은 기업이 보유한 자회사, 기업이 제공하는 제품 및 시간일 수 있다. 이 설정에서 사실은 특정 제품이 특정 시간에 특정 종속기업에서 판매된 판매 이벤트일 수 있다.위성 이미지 타임리스의 치수는 위도와 경도 좌표와 시간일 것이다. 사실(때로는 측정이라고도 함)은 위성이 취한 특정 공간과 시간에 픽셀일 것이다(여기서는 중요하지 않은 일부 처리에 따름).큐브(그리고 위에서 제시한 예들은 간결함을 위해 3차원이라고 한다)라고 불리지만, 데이터 큐브는 일반적으로 1차원, 2차원, 3차원 또는 고차원일 수 있는 다차원 개념이다.어떤 경우든, 큐브 안의 각 셀은 관심의 단일 척도를 나타내는 반면, 모든 차원은 데이터를 셀 그룹으로 나눈다.때로는 정육면체에는 값이 거의 없고 나머지는 비어 있을 때도 있다. 즉, 정의되지 않은 경우, 때로는 대부분 또는 모든 정육면체 좌표가 셀 값을 가진다.첫 번째 경우에는 그러한 데이터를 희소성이라고 하고, 두 번째 경우에는 밀도라고 부르지만, 두 번째 경우에는 둘 사이에 딱딱한 표현이 없다.null

역사

다차원 배열은 오랫동안 프로그래밍 언어에 익숙했다.포트란은 임의로 인덱싱된 1-D 어레이와 어레이 어레이를 제공하며, 이를 통해 최대 15차원까지 고차원 어레이를 구축할 수 있다.APL은 풍부한 작업 세트로 n-D 어레이를 지원한다.이 모든 것은 어레이가 메인 메모리에 맞아야 한다는 공통점을 가지고 있으며 어레이를 유지하는 특정 프로그램(예: 이미지 처리 소프트웨어)이 실행되는 동안에만 사용할 수 있다.null

일련의 데이터 교환 형식은 데이터큐브와 유사한 데이터의 저장과 전송을 지원하며, 종종 특정 애플리케이션 도메인에 맞게 조정된다.예를 들어, 통계(특히, 비즈니스) 데이터의 경우 MDX, 일반 과학 데이터의 경우 계층적 데이터 형식, 이미지의 경우 TIFF를 들 수 있다.null

1992년 피터 바우만은 효율적인 소프트웨어 아키텍처와 결합된 고도의 사용자 기능을 갖춘 대규모 데이터큐브 관리를 도입했다.[1]데이터큐브 운영은 SQL과 같은 데이터 조작 언어의 정신에서 부분집합 추출, 처리, 퓨전 및 일반 쿼리를 포함한다.

몇 년 후, 데이터큐브 개념은 Jim Gray, et al. [2]그리고 25년 동안 가장 많이 인용된 컴퓨터 과학 기사 500위 안에 드는 Venky Harinarayan, Anand Raharman, Jeff Ulman에 의해 데이터큐브에 의해 데이터큐브라고 기술하는 데 적용되었다.[4]null

그 무렵, 독일 게셀샤프트 퓌르 Informatik에 다차원 데이터베이스("Arbeitskreis Multi-Dimensionale Datenbanken")에 대한 워킹그룹(이하 "Albeitskreis Multi-Dimensionale Datenbanken")이 설립되었다.[5][6]null

데이타큐브는 1996년 PC 시장위한 하드웨어와 소프트웨어 응용프로그램을 판매하는 이미지 처리 회사였지만, 데이터큐브는 이와 같이 다루지 않았다.null

EarthServer 이니셔티브는 지리 데이터 큐브 서비스 요구사항을 설정했다.[7]null

표준화

2018년에는 "SQL -- Part 15: 다차원 어레이(SQL/MDA)"[8]로서 데이터큐브 기능을 갖춘 ISO SQL 데이터베이스 언어가 확장되었다.null

Web Coverage Processing Service는 2008년 Open Geospatial Consortium에서 발행한 지역 데이터큐브 분석 언어다.공통 데이터 큐브 연산 외에도 언어는 공간과 시간의 의미론에 대해 알고 있으며 커버리지 데이터의 개념에 기초하여 정규 및 불규칙한 그리드 데이터큐브 모두를 지원한다.null

마이크로소프트가 원래 개발한 비즈니스 데이터큐브 쿼리를 위한 산업 표준은 MultiDimension eXpression이다.null

실행

많은 고급 컴퓨터 언어는 데이터 큐브와 다른 큰 배열을 그 내용과 구별되는 단일 개체로 취급한다.Fortran, APL, IDL, NumPy, PDL, S-Lang이 예시하는 이들 언어들은 프로그래머선형대수학과 벡터수학에서 파생된 간단한 표현으로 전체 필름 클립과 기타 데이터를 일괄적으로 조작할 수 있게 한다.일부 언어(예: PDL)는 이미지 목록과 데이터 큐브를 구별하지만, 많은 언어(예: IDL)는 그렇지 않다.null

어레이 DBMS(Database Management Systems)는 n차원 데이터 큐브의 정의, 관리, 검색 및 조작을 일반적으로 지원하는 데이터 모델을 제공한다.이 데이터베이스 범주는 1994년부터 라스다만 시스템에 의해 개척되었다.[9]null

적용들

다차원 배열은 주피오-임시 센서, 이미지 및 시뮬레이션 데이터를 의미 있게 나타낼 수 있지만, 차원의 의미론이 반드시 공간적 또는 시간적 성질의 것이 아닌 통계 데이터도 나타낼 수 있다.일반적으로 어떤 종류의 축도 다른 축과 결합하여 데이터큐브에 넣을 수 있다.null

수학

수학에서 1차원 배열은 벡터에 해당하고, 2차원 배열은 행렬을 닮았다. 더 일반적으로 텐서는 n차원 데이터 입방체로 나타낼 수 있다.null

이공계

색상 이미지의 시간 시퀀스의 경우 배열은 일반적으로 4차원이며, 치수는 이미지 X 및 Y 좌표, 시간 및 RGB(또는 기타 색상 공간) 색상 평면을 나타낸다.예를 들어, EarthServer 이니셔티브는[10] 오픈 지리공간 컨소시엄 WCPS 지오 데이터큐브 언어 표준을 통해 검색 및 서버측 처리를 위한 3-D x/y/t 위성 이미지 타임세리와 4-D x/y/z/t 날씨 데이터를 제공하는 여러 대륙의 데이터 센터를 통합한다.null

분광 분해된 영상이 3차원 볼륨으로 표현되기 때문에 영상 분광학 분야에서도 데이터 큐브가 사용된다.지구 관측 데이터 큐브는 Landsat_8Sentinel-2와 같은 위성 이미지를 지리 정보 시스템 분석과 결합한다.[11]null

비즈니스 인텔리전스

온라인 분석 처리(OLAP)에서 데이터 큐브는 슬라이싱, 다이싱, 피벗, 집계 등의 운영을 통해 다양한 관점에서 분석에 적합한 비즈니스 데이터의 공통 배열이다.null

참고 항목

참조

  1. ^ Baumann, Peter (April 1992). "Language Support for Raster Image Manipulation in Databases". Graphics Modeling and Visualization in Science and Technology. Int. Workshop on Graphics Modeling, Visualization in Science & Technology. Darmstadt, Germany: Springer (published 1993). pp. 236–245. doi:10.1007/978-3-642-77811-7_19.
  2. ^ Gray, Jim; Chaudhuri, Surajit; Bosworth, Adam; Layman, Andrew; Reichart, Don; Venkatrao, Murali; Pellow, Frank; Pirahesh, Hamid (January 1997). "Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals". Data Mining and Knowledge Discovery. 1 (1): 29–53. doi:10.1023/A:1009726021843. S2CID 12502175.
  3. ^ Harinarayan, Venky; Rajaraman, Anand; Ullman, Jeffrey D. (1996). "Implementing data cubes efficiently". Implementing Data Cubes Efficiently. pp. 205–216. CiteSeerX 10.1.1.41.1205. doi:10.1145/233269.233333. ISBN 978-0897917940. S2CID 3104453.
  4. ^ 500 가장 많이 인용된 컴퓨터 과학 기사(501–600), CiteSeer. 2009년 6월 12일.2017년 3월 21일 회수
  5. ^ "dblp: Datenbank Rundbrief, Ausgabe 19, Mai 1997". dblp.uni-trier.de.
  6. ^ "dblp: Datenbank Rundbrief, Ausgabe 23, Mai 1999". dblp.uni-trier.de.
  7. ^ "The Database Manifesto". www.earthserver.eu. Retrieved 2017-09-21.
  8. ^ "ISO/IEC DIS 9075-15 Information technology -- Database languages -- SQL -- Part 15: Multi-dimensional arrays (SQL/MDA)". Retrieved 2018-05-27.
  9. ^ "Management of Multidimensional Discrete Data" (PDF). www.vldb.org. Retrieved 2017-09-21.
  10. ^ "EarthServer - Big Datacube Analytics at Your Fingertips". www.earthserver.eu. Retrieved 2017-03-31.
  11. ^ Kopp, Steve; Becker, Peter; Doshi, Abhijit; Wright, Dawn J.; Zhang, Kaixi; Xu, Hong (2019). "Achieving the Full Vision of Earth Observation Data Cubes". Data. 4 (3): 94. doi:10.3390/data4030094.