집약 데이터
Aggregate data집약 데이터는 개인 수준의 데이터를 조합하여 취득하는 상위 수준의 데이터입니다.예를 들어, 산업의 산출물은 그 산업 [1]내 기업의 개별 산출물의 집합이다.집계 데이터는 통계, 데이터 웨어하우스 및 경제 분야에 적용됩니다.
집계 데이터와 개별 데이터 사이에는 차이가 있습니다.집계 데이터는 지리적 영역, 연도, 서비스 기관 또는 기타 [2]방법으로 평균화된 개별 데이터를 말합니다.개별 데이터는 분할된 개별 결과이며 부분군 [2]차이를 추정하기 위한 분석을 수행하는 데 사용됩니다.
집계 데이터는 주로 여러 가지 이유로 연구원 및 분석가, 정책 입안자, 은행 및 관리자에 의해 사용됩니다.정책 평가, 프로세스 동향 및 패턴 인식, 관련 통찰력 획득 및 전략적 계획 수립을 위한 현재 조치 평가에 사용됩니다.다양한 출처에서 수집된 집계 데이터는 비교 정치 분석 및 APD 과학적 분석과 같은 다양한 연구 영역에서 추가 분석을 위해 사용된다.집계 데이터는 의료 및 교육 목적으로도 사용됩니다.집계 데이터는 널리 사용되지만, 부정확한 추론을 도출하고 잘못된 결론을 내리는 등 몇 가지 한계가 있으며, 이를 '생태학적 오류'[3]라고도 한다.'생태적 오류'는 사용자가 두 정량적 변수 간의 생태적 관계에 대해 개별 [3]수준에서 결론을 도출하는 것이 무효라는 것을 의미한다.
적용들
통계학에서 집계 데이터는 여러 측정값에서 결합된 데이터입니다.데이터가 집계되면 관측치 그룹이 해당 [4]관측치를 기반으로 하는 요약 통계량으로 대체됩니다.
데이터 웨어하우스에서는 집약 데이터를 사용하면 대량의 데이터 세트를 쿼리하는 시간이 크게 단축됩니다.개발자는 정기적으로 사용되는 질의(예: 항목 계층별 또는 지리적 계층별)를 미리 요약합니다.
경제학에서 집약 데이터 또는 데이터 집약이란 다음과 같은 다양한 개별 데이터의 조합 또는 조합으로 구성된 상위 수준의 데이터를 말합니다.
- 거시경제학에서 전반적인 물가 수준 또는 전반적인 인플레이션율과 같은 데이터
- 미시경제학에서, 많은 기업들로 구성된 경제의 전체 부문 또는 도시나 지역의 모든 가구의 데이터.
주요 사용자
연구자 및 분석가
연구자들은 널리 퍼진 정신을 이해하고, 사회 현실과 사회 조직의 본질을 평가하고, 연구의 주요 관심사를 규정하고, 사회 [5]문제의 본질과 관련된 예측을 제공하기 위해 집계 데이터를 사용한다.집계 데이터는 연구자가 집계 수준에서 서로 다른 두 변수 간의 관계와 개별 [2]수준에서 집계 변수와 특성 간의 관계에 대한 조사에 관심이 있을 때 유용하다.연구자들은 또한 집계 데이터의 도움을 받아 시스템의 정책, 관행 및 원칙을 비판적으로 평가하여 해당 관련성과 [5]유효성을 조사하기 위해 노력했다.
정책 입안자
집계 데이터는 정부가 시민의 요구와 요구를 얼마나 잘 인지하고 정부가 [5]사회 질서를 효과적으로 유지하는 방법에 대한 척도가 되기 때문에 정부가 보다 효과적인 정책을 개발하기 위해 사용됩니다.예를 들어, 전 세계 정부는 Covid-19에 대응하여 분석을 위해 집계 모바일 위치 데이터를 사용한다.모바일 로케이션 데이터를 종합하면 정부가 시작한 사회적 거리두기 조치의 효과에 대한 통찰력을 얻을 수 있습니다.또한 정부에서는 집계 데이터를 사용하여 가능한 "핫 스폿"과 [6]전송 가능성을 식별합니다.
정부 정책의 예측 효과뿐만 아니라, 전략을 고안하고, 단기 또는 장기 정책을 마련하고, 효율적이고 적절한 통제 절차를 취하기 위해 총 데이터 분석을 취한다.또는 [5]예방책입니다.정책 입안자들은 또한 기업과 가계의 경제 및 금융 활동을 평가할 때 데이터를 활용한다. 이러한 데이터는 금융 안정성과 관련된 위험을 식별하는 데 도움이 되기 때문이다.정책 입안자는 한 국가의 경제 및 재정 [7]상황의 발전을 더 잘 이해하기 위해 집계 데이터를 사용할 수 있다.
은행
은행은 상당수의 고객으로부터 집계된 데이터를 수집한 후 개인정보를 삭제하여 익명화합니다.은행이 집계 데이터를 사용하는 주된 이유는 경제 동향을 예측하고 고객 클러스터에 대한 통찰력을 얻기 위해서입니다.은행은 고객의 개인 데이터를 공유할 수 없지만, 집계 데이터를 은행의 비즈니스 고객과 공유할 수 있으며, 다른 파트너도 동일한 플랫폼을 사용하여 집계 [8]데이터에 대한 정보를 얻을 수 있습니다.
호주에서는 커먼웰스 은행이 카드 거래에서 파생된 고객 관련 익명화된 데이터를 비즈니스 고객에게 제공합니다.또한 ANZ는 수백만 건의 가맹점 단말기 거래와 ANZ 카드 [8]거래에서 수집된 익명의 데이터를 비즈니스 고객에게 제공합니다.
영국에서는 IUC ADC(Integrated Emergency Care Aggregate Data Collection)가 IUC 활동, 성과 및 서비스 수요에 대한 포괄적인 정보를 제공합니다.이 데이터는 영국에서 [9]통합 응급 치료 서비스를 제공하는 주요 데이터 제공업체에서 조달했습니다.영국 보건사회관리부(Department of Health and Social Care, DHS) 산하 국립보건서비스(NHS)는 이 집계 데이터 수집이 NHS 111 최소 데이터 세트를 대체할 것이라고 밝혔다.또한 IUC 통계의 공식 소스로 사용되며 IUC ADC의 [10]핵심 성과 지표(KPI)를 감독한다.
관리자
사용 가능한 경험적 데이터의 국가 또는 지역 수준은 행정가와 지식인뿐만 아니라 지역 또는 사회의 복지에 대해 우려하는 사람들에 의해 [5]참조 자료로 사용된다.특히, 관리자는 시간과 공간과 관련된 사회적 반응의 차이를 추적하고 행동의 우선순위를 지시하기 위해 현재 정치, 종교, 사회 또는 기타 국가의 분위기에 대한 평가에 집계 데이터를 사용한다.이러한 평가는 관리자가 미래의 전략적 계획에 유용한 현재 조치를 평가하고 효과적인 시정 조치에 대한 [5]지표를 제공하는 데 도움이 됩니다.
소스 및 수집 방법
집계 데이터는 전기, 자서전, 설명 설명, 서신 [5]등 다양한 유형의 글과 기록으로 구성될 수 있습니다.예를 들어, 연구자는 인벤토리, 인터뷰, 의견조사, 설문지 또는 일정을 포함한 사회조사의 여러 메커니즘을 활용하여 집계 데이터를 수집, 수집 또는 컴파일한다.공식 기관 또는 비공식 기관은 현장 [5]수준에서 부서 내에서 사용할 수 있는 인프라를 활용하여 지속적으로 집계 데이터를 수집하고 컴파일합니다.
집약 데이터의 소스는 데이터를 검출하기 위한 툴로도 간주할 수 있습니다.미국에서는 일부 US 데이터가 표 형식으로 제공됩니다.이러한 미국 집계 데이터의 출처로는 미국 인구조사국, 미국의 통계 추상화, 소셜 탐색기가 있다.국제통화기금(IMF) 데이터, 세계데이터뱅크, 펜월드테이블 등이 트랜잭션 및 국제 집계 데이터 [11]소스의 예입니다.
집약 데이터 사용
비교정치분석
분석가들이 개인의 행동에만 초점을 맞추는 것이 아니기 때문에 집계 데이터는 비교 정치 분석에 사용됩니다.그들은 또한 선거구 [12]및 국가를 포함한 지역 단위의 행동에 초점을 맞추고 있다.정치 활동 분석에서 산업화, 도시화 및 대중 통신 네트워크와 관련된 중요한 데이터는 개별 수준에서 쉽게 표현되지 않는다.이들은 면적 단위의 인구 [12]크기 변화를 통제하기 위해 1인당 단위로 표현된다.인구통계학적, 사회경제적, 정치적 데이터는 국가에 의해 수집되고 발행되기 때문에 집계 데이터를 널리 이용할 수 있다.이를 통해 연구자와 분석가는 보다 긴 트렌드 연구를 수행할 수 있으며,[12] 보다 깊은 초점을 맞춰 변화와 발전을 가져올 수 있습니다.
APD 과학 메타 분석
시간, 상당한 자원 및 광범위한 국제 협력을 포함한 요인들로 인해 개별 환자 데이터(IPD) 메타 분석의 사용이 지연되었고, 이로 인해 대부분의 공개된 메타 분석은 집계 환자 데이터(APD)[13]에 의존하게 되었다.모든 환자에 대한 모든 시험에서 데이터를 획득하기 위해, 종합 환자 데이터는 전문 회의에서 발표되거나 의학 문헌에 발표되거나 개별 조사자가 직접 제공한 완료된 연구에서 수집된다.집계된 환자 데이터는 Cochrane Collaboration, 미국 예방 서비스 태스크 포스 및 여러 전문 협회를 포함한 사용자가 임상 실무 지침을 지원하는 데 활용됩니다.집계 환자 데이터는 메타 분석의 시간-사건 연구에도 사용된다. 그 결과는 투자자들에게 자원 집약적인 개별 환자 [13]데이터를 기반으로 한 더 많은 메타 분석을 진행하는 것의 가치에 대해 알려줄 수 있기 때문이다.
기타 용도
헬스케어
건강정보시스템에서 집계데이터는 다수의 환자에 관한 데이터의 통합이다.집계 데이터를 기준으로 특정 환자를 추적할 수 없습니다.이러한 집계된 데이터는 결핵, 말라리아 또는 기타 질병을 포함한 숫자일 뿐입니다.보건 시설은 이러한 유형의 집계 통계를 사용하여 보고서와 지표를 생성하고 의료 [14]시스템에서 전략적 계획을 수립한다.집계된 데이터와 비교하여 환자 데이터는 이름, 나이, 진단, 병력 등 한 명의 환자와 관련된 개별 데이터이다.환자 기반 데이터는 주로 특정 치료에 대한 환자의 반응 방식 등 시간 [14]경과에 따른 환자의 진행 상황을 추적하는지)을 추적하는 데 사용됩니다.
COVID-ARC라고도 불리는 COVID-19 데이터 보관소는 전 세계 연구 데이터를 집계한다.연구자들은 국제적인 동료들의 발견에 접근할 수 있고 [15]질병과 싸우는 과정을 촉진하기 위해 협력할 수 있다.특히, 집계된 의료 데이터를 사용하면 의료 서비스 제공자는 임상 데이터나 지속적인 환자 기록에 대한 철저한 보기가 [15]가능할 때 실행 가능한 임상 통찰력을 확보할 수 있습니다.
교육
집계된 학교 수준의 인구 통계 데이터와 집계된 학교 수준의 성취도 데이터와 같은 집계 데이터는 학생들의 성취도와 학교 수준의 [16]개입 사이의 관계를 평가하기 위해 실험 분석에 사용된다.집계 데이터는 회귀 불연속 분석 및 중단 시계열 분석과 같은 비실험 분석에도 사용할 수 있습니다.이러한 비실험 분석에서는 개인 수준의 데이터가 필요하지 않습니다.예를 들어 중단된 시계열 분석은 개인 수준의 데이터가 필요하지 [16]않은 프로그램 시작 전후의 학교 성과를 비교하여 학교 수준의 프로그램이 가져오는 영향을 추정합니다.
제한 사항
일부 군집 내 또는 국가 내에서 단위를 평균화하는 과정에서 정보가 손실되어 부정확한 [17]추론을 도출할 가능성이 높아집니다.데이터 집계가 개별 변동을 마치 통계 노이즈 또는 측정 [18]오류의 한 유형인 것처럼 무시하기 때문에 정보 손실이 발생합니다.또한 개별 기업 데이터 또는 집계된 데이터를 분석에 사용할 때 추론은 서로 다르다.예를 들어, 국가 평균의 계산은 기업 규모, 기업 연령 또는 기업 소유의 집중과 같은 기업 고유의 변수를 고려하지 않지만, 개별 평균의 계산은 그러하다.집계 데이터와 개별 [17]데이터 간에 차이가 있습니다.
'생태학적 오류'의 문제도 있다.이 개념은 로빈슨(1950)에 의해 만들어졌다.이 용어의 의미는 개인 수준 평균 주위의 변동성이 집계 [18]평균을 포함하는 변동성과 유의하게 다르다는 것입니다.집계 개념에서는 집계 데이터의 개별 등가물 이외의 것이 표현되므로 개인 차원의 결론을 [3]도출할 수 없다.집계 데이터는 개인 수준의 데이터보다 적용 범위가 넓지만, 집계 데이터를 사용할 때 하위 그룹 결과에 대한 분석으로 해결하기가 더 어렵습니다.결국 개인 정보도 필요할 수 있습니다.변수가 [2]시간에 따라 달라질 수 있기 때문에 집계 데이터에 기초한 성장 모델링과 세로 모델링도 어렵다.
기타 집계 데이터 유형
재무 집계 데이터
재무 집계 데이터는 호주의 신용과 통화 공급에 관한 집계 데이터의 일종으로, 정책 입안자가 가계와 기업의 경제 및 금융 [7]활동을 평가하는 데 사용된다.
크레디트 집계
신용집계는 가계와 기업이 금융중개업체에서 차입한 금액이다.프로젝트 투자, 자산 매입, 현금 흐름 관리 등의 목적으로 기업이 차입한 자금의 액수도 신용 [7]집계를 사용하여 측정합니다.
화폐집계
통화 집계는 기업 및 가계에 빚진 은행 시스템의 화폐 또는 '돈과 유사한' 수단의 측정값입니다.'돈 같은' 상품의 한 예는 은행 [7]계좌의 예금이다.
인구 조사 집계 데이터
영국에서 인구조사 집계 데이터는 영국 인구조사 결과에서 생성된 데이터이다.그들은 그 나라 인구의 사회경제적, 인구통계학적 특성에 대한 정보를 제공한다.인구와 장소, 인구, 가족, 건강, 민족성과 종교, 주거와 [19]직업의 주제에서 추출한 특정 지리적 특징 또는 복합 특성을 가진 특정 지역의 개인, 가구 거주자 또는 가족 수를 집계하거나 요약한 계산이다.
집계 데이터는 영국 통계청 산출물의 구성요소로 사용된다.그것들은 [19]인구조사보고서에 주어진 정보에 대한 분석에서 얻어진다.인구총조사 데이터는 영국 전역의 다양한 지리적 수준에서 유사한 정보를 제공할 수 있기 때문에 영국의 다양한 위치에 걸쳐 인구 특성을 비교 및 기술하는 데 사용된다.인구조사 집계 데이터는 교육 및 연구 목적뿐만 아니라 민간 [19]부문의 현장 위치 및 마케팅 목적으로도 활용된다.
레퍼런스
- ^ Hashimzade, Nigar; Myles, Gareth; Black, John (2017-01-19). A Dictionary of Economics. Oxford University Press. p. 4. doi:10.1093/acref/9780198759430.001.0001. ISBN 978-0-19-875943-0.
- ^ a b c d Jacob, Robin (2016). "Using Aggregate Administrative Data in Social Policy Research". Office of Planning, Research & Evaluation ACF. p. 1-6. Retrieved 2020-10-30.
- ^ a b c Starrin, Bengt; Hagquist, Curt; Larsson, Gerry; Svensson, Per-Gunnar (1993-06-01). "Community types, socio-economic structure and IHD mortality—A contextual analysis based on Swedish aggregate data". Social Science & Medicine. 36 (12): 1569–1578. doi:10.1016/0277-9536(93)90345-5. ISSN 0277-9536.
- ^ 데이터의 집약과 재구축(매닝 출판물 "R in Action"의 5.6장)
- ^ a b c d e f g h Shukla, K. S. (1982). "ANALYSIS OF AGGREGATE DATA". Journal of the Indian Law Institute. 24 (4): 756–762. ISSN 0019-5731.
- ^ "Mobile Location Data and Covid-19: Q&A". Human Rights Watch. 2020-05-13. Retrieved 2020-10-30.
- ^ a b c d Bank, Joel; Durrani, Kassim; Hatzvi, Eden (21 March 2019). "Updates to Australia's financial aggregates". Reserve Bank of Australia. Reserve Bank of Australia.
- ^ a b Stewart, Emily (2019-03-22). "Banks have lots of information about you — and they don't keep it all to themselves - ABC Life". ABC News. Retrieved 2020-10-30.
- ^ "Statistics » Integrated Urgent Care Aggregate Data Collection (IUC ADC) Experimental Statistics 2019-20". www.england.nhs.uk. NHS England. Retrieved 2020-10-30.
- ^ "Integrated Urgent Care Aggregate Data Collection (IUC ADC) for March 2020 (Experimental)". GOV.UK. England, United Kingdom. 14 May 2020. Retrieved 2020-10-30.
- ^ Pencek, Bruce. "Research Guides: Data resources for social science: Aggregate data". guides.lib.vt.edu. Virginia Tech. Retrieved 2020-10-30.
- ^ a b c Retzlaff, Ralph H. (1965). "The Use of Aggregate Data in Comparative Political Analysis". The Journal of Politics. 27 (4): 797–817. doi:10.2307/2128120. ISSN 0022-3816.
- ^ a b Lyman, Gary H.; Kuderer, Nicole M. (2005-04-25). "The strengths and limitations of meta-analyses based on aggregate data". BMC Medical Research Methodology. 5 (1): 14. doi:10.1186/1471-2288-5-14. ISSN 1471-2288. PMC 1097735. PMID 15850485.
- ^ a b "3.5 Difference between Aggregated and Patient data in a HIS". docs.dhis2.org. Retrieved 2020-11-15.
- ^ a b Greenbaum, Zara (19 August 2020). "Scientists launch data archive to bolster research on COVID-19". HSC News. Retrieved 2020-10-31.
- ^ a b Jacob, Robin T.; Goddard, Roger D.; Kim, Eun Sook (2014-03-01). "Assessing the Use of Aggregate Data in the Evaluation of School-Based Interventions: Implications for Evaluation Research and State Policy Regarding Public-Use Data". Educational Evaluation and Policy Analysis. 36: 44–66. doi:10.3102/0162373713485814.
- ^ a b Holderness, Clifford G. (2016-05-12). "Problems Using Aggregate Data to Infer Individual Behavior: Evidence from Law, Finance, and Ownership Concentration". Critical Finance Review. 5 (1): 1–40. doi:10.1561/104.00000028.
- ^ a b Pollet, Thomas V.; Stulp, Gert; Henzi, S. Peter; Barrett, Louise (2015). "Taking the aggravation out of data aggregation: A conceptual guide to dealing with statistical issues related to the pooling of individual-level observational data". American Journal of Primatology. 77 (7): 727–740. doi:10.1002/ajp.22405. ISSN 1098-2345.
- ^ a b c "Census aggregate data guide". census.ukdataservice.ac.uk. Retrieved 2020-10-31.