데이터 경합

Data wrangling

데이터 분쟁(데이터 뭉킹이라고도 함)은 분석과 같은 다양한 다운스트림 목적에 보다 적합하고 가치 있게 만들기 위해 하나의 "원시" 데이터 형식에서 다른 형식으로 데이터를 변환하고 매핑하는 프로세스입니다.데이터 논쟁의 목적은 품질과 유용한 데이터를 보장하는 것입니다.데이터 분석가는 일반적으로 실제 데이터 분석과 비교하여 데이터 논쟁 과정에서 대부분의 시간을 소비합니다.

데이터 논쟁의 과정에는 추가적인 멍킹, 데이터 시각화, 데이터 집계, 통계 모델 교육 및 기타 많은 잠재적 용도가 포함될 수 있다.데이터 논쟁은 일반적으로 데이터 원본에서 원시 형식으로 데이터를 추출하고, 원시 데이터를 "머징"하거나(예: 정렬), 데이터를 사전 정의된 데이터 구조로 해석하고, 최종적으로 그 컨텐츠를 저장 및 향후 [1]사용을 위해 데이터 싱크에 저장하는 일련의 일반적인 단계를 따릅니다.

배경

"잘못된" 비기술 용어는 종종 미국 의회 도서관National Digital Information Infrastructure and Conservation Program(NDIPP)과 그 프로그램 파트너인 Emory University Librarys based MetaArchive Partnership이 수행한 작업에서 파생되었다고 한다."멍"이라는 용어는 전문용어 [2]파일에 기술된 것처럼 멍잉에 뿌리를 두고 있습니다.또한 "데이터 랭글러"라는 용어는 데이터를 [3]다루는 사람을 가장 잘 비유하는 용어로서 제안되었다.

과학적 맥락에서 데이터 논쟁에 대한 첫 언급 중 하나는 NASA/NOAA 콜드 랜드 프로세스 실험 [4]중 도널드 클라인에 의해 언급되었다.Cline은 데이터 논쟁자들이 "실험 데이터의 전체 수집을 조정한다"고 말했다.또한 Cline은 스토리지 관리자가 대량의 데이터를 처리할 때 일반적으로 처리하는 업무도 지정합니다.이는 대규모 연구 프로젝트나 복잡한 컴퓨터 생성 이미지가 많은 영화 제작과 같은 분야에서 발생할 수 있습니다.연구에서는 연구 기구에서 스토리지 그리드 또는 스토리지 시설로의 데이터 전송과 고성능 컴퓨팅 기구를 통한 재분석 또는 사이버 인프라 기반 디지털 라이브러리를 통한 액세스를 위한 데이터 조작이 모두 포함됩니다.

데이터 과학에서 인공지능이 등장함에 따라 데이터 논쟁의 자동화가 매우 엄격한 견제와 균형을 갖는 것이 점점 더 중요해지고 있으며, 이것이 바로 데이터 뭉킹 프로세스가 기계 학습에 의해 자동화되지 않은 이유이다.데이터 뭉킹은 단순한 자동화 솔루션 이상의 것을 필요로 하며, 어떤 정보를 제거해야 하는지 알아야 하며, 인공지능은 이러한 [5]정보를 이해할 수 있는 수준이 아닙니다.

데이터 마이닝과의 접속

데이터 논쟁은 데이터 마이닝의 슈퍼셋이며 일부 데이터 마이닝에서 사용하는 프로세스가 필요합니다.데이터 마이닝 프로세스는 대규모 데이터 집합 내에서 패턴을 찾아내는 것입니다. 여기서 데이터 논쟁은 데이터에 대한 통찰력을 제공하기 위해 데이터를 변환합니다.데이터 경합이 데이터 마이닝의 슈퍼셋이라고 해서 데이터 마이닝이 사용되지 않는 것은 아니지만 데이터 마이닝에서 데이터 경합에 대한 많은 사용 사례가 있습니다.데이터 경합은 전체 세트에 도움이 되지 않거나 형식이 올바르지 않은 데이터를 삭제함으로써 데이터 마이닝에 도움이 될 수 있으며, 이로 인해 전체 데이터 마이닝 프로세스에서 더 나은 결과를 얻을 수 있습니다.

데이터 논쟁과 밀접하게 관련된 데이터 마이닝의 예로는 목표와 관련되지 않은 집합의 데이터를 무시하는 것이 있습니다.예를 들어 텍사스 주에 관련된 데이터 집합이 있으며, 목표는 휴스턴 거주자에 대한 통계를 얻는 것입니다. 댈러스 거주자와 관련된 집합의 데이터는 전체 집합에는 유용하지 않고 기억될 수 있습니다.데이터 마이닝 프로세스의 효율성을 개선하기 위해 처리 전에 작업을 수행해야 합니다.

혜택들

원시 데이터의 증가에 따라 본질적으로 유용하지 않은 데이터 양이 증가하므로 데이터를 분석하기 전에 데이터를 정리하고 정리하는 데 소요되는 시간이 늘어 데이터 분쟁이 발생합니다.데이터 경합 결과는 데이터에 대한 추가 통찰력을 위해 중요한 메타데이터 통계를 제공할 수 있습니다. 메타데이터가 일관성이 있는지 확인하는 것이 중요합니다. 그렇지 않으면 장애물이 발생할 수 있습니다.데이터 논쟁을 통해 분석가는 보다 복잡한 데이터를 보다 신속하게 분석하고 보다 정확한 결과를 얻을 수 있으며, 이를 통해 보다 나은 결정을 내릴 수 있습니다.많은 기업이 데이터 논쟁으로 전환하고 있습니다.이것이 성공을 가져왔습니다.

핵심 아이디어

복잡한 데이터를 유용한 통계로 변환

데이터 논쟁의 주요 단계는 다음과 같습니다.

  1. 데이터 검출

    이 포괄적인 용어는 데이터를 이해하는 방법을 설명합니다.이것은 데이터에 익숙해지는 첫 번째 단계입니다.

  2. 구조화
    다음 단계는 데이터를 정리하는 것입니다.미가공 데이터는 일반적으로 체계화되어 있지 않으며, 대부분의 데이터는 최종 제품에 유용하지 않을 수 있습니다.이 단계는 이후의 단계에서 계산과 분석을 쉽게 하기 위해 중요합니다.
  3. 청소
    클리닝 데이터에는 여러 가지 형태가 있습니다.예를 들어 클리닝 데이터의 한 가지 형태는 다른 방식으로 포맷된 날짜를 캡처하는 것이고, 다른 형태는 결과가 왜곡되는 특이치를 제거하고 null 값을 포맷하는 것입니다.이 단계는 데이터의 전반적인 품질을 보장하는 데 중요합니다.
  4. 풍부하게 하다
    이 단계에서 추가 데이터가 쉽게 추가할 수 있는 데이터 세트에 도움이 되는지 여부를 판단합니다.
  5. 검증 중
    이 단계는 구조 및 청소와 유사합니다.검증 규칙의 반복 시퀀스를 사용하여 데이터의 일관성과 품질 및 보안을 보장할 수 있습니다.검증 규칙의 예로는 데이터 교차 확인을 통해 필드의 정확성을 확인하는 것이 있습니다.
  6. 출판
    데이터 세트를 다운스트림에 사용할 수 있도록 준비합니다.데이터 세트에는 사용자 또는 소프트웨어 사용이 포함될 수 있습니다.논쟁 중에는 반드시 모든 단계와 논리를 기록하십시오.

이러한 단계는 분석에 사용할 수 있는 깨끗하고 사용 가능한 데이터 세트를 생성하는 반복 프로세스입니다.이 프로세스는 지루하지만 분석가가 그렇지 않으면 읽을 수 없는 대량의 데이터 집합에서 필요한 정보를 얻을 수 있기 때문에 보람이 있습니다.

시작 데이터
이름. 전화 생년월일
존, 스미스 445-881-4478 1989년 8월 12일 메인 주
제니퍼 탈 +1-189-456-4513 11/12/1965 Tx
빌 게이츠 (876)546-8165 72년 6월 15일 캔자스.
앨런 피치 5493156648 2-6-1985 오호
제이콥 앨런 156-4896 1월 3일 앨라배마 주
결과
이름. 전화 생년월일
존 스미스 445-881-4478 1989-08-12 메인 주
제니퍼 탈 189-456-4513 1965-11-12 텍사스
빌 게이츠 876-546-8165 1972-06-15 캔자스.
앨런 피치 549-315-6648 1985-02-06 오하이오 주

이 작은 데이터 집합에서 데이터 경합 프로세스를 사용한 결과, 읽기 훨씬 쉬운 데이터 집합을 볼 수 있습니다.이제 모든 이름의 형식이 같습니다. {first name name}, 전화번호의 형식도 {area code-XXX-XXXXX}, 날짜의 형식은 {YYY-mm-dd}이며 상태는 더 이상 생략되지 않습니다.Jacob Alan의 엔트리에 완전한 데이터가 없기 때문에(전화번호의 지역번호가 누락되어 있고 생년월일이 없기 때문에) 데이터 세트에서 폐기되었습니다.이제 결과 데이터 세트를 정리하고 읽을 수 있으므로 배포하거나 평가할 수 있습니다.

일반적인 용도

데이터 변환은 일반적으로 데이터 세트 내의 개별 엔티티(필드, 행, 열, 데이터 값 등)에 적용되며 추출, 구문 분석, 결합, 표준화, 증강, 정리, 통합 및 필터링과 같은 작업을 포함하여 다운스트림에서 활용할 수 있는 바람직한 논쟁 출력을 생성할 수 있습니다.

수신자는 데이터를 더 조사하는 데이터 설계자데이터 과학자, 보고서에서 직접 데이터를 소비하는 비즈니스 사용자, 데이터를 더 처리하여 데이터 웨어하우스, 데이터 호수 또는 다운스트림 애플리케이션 등의 타깃에 쓰는 시스템 등 개인일 수 있습니다.

모드스 오퍼란디

수신 데이터의 양과 형식에 따라 데이터 경합은 전통적으로 수동(Excel과 같은 스프레드시트, KNIME과 같은 도구 또는 Python이나 SQL같은 언어로 된 스크립트를 통해 수행되었습니다. 데이터 마이닝 및 통계 데이터 분석에 자주 사용되는 언어인 R도 데이터 [6]경합에 사용됩니다.데이터 랭글러는 일반적으로 R 또는 Python, SQL, PHP, Scala 및 데이터 분석에 사용되는 더 많은 언어에 대한 스킬 세트를 가지고 있습니다.

비주얼 데이터 논쟁 시스템은 비프로그래머가 데이터 논쟁에 접근할 수 있도록 하고 프로그래머가 쉽게 하기 위해 개발되었습니다.이들 중 일부는 임베디드 AI 추천자 및 사용자 지원을 제공하는 예제 설비에 의한 프로그래밍, 확장 가능한 데이터 흐름 코드를 자동 생성하기 위한 프로그램 합성 기술도 포함한다.시각 데이터 논쟁 툴의 초기 프로토타입에는 OpenRefine과 Stanford/Berkeley [7]Wrangler 연구 시스템이 있으며, 후자는 Tripacta로 발전했습니다.

이러한 프로세스에 대한 다른 용어로는 데이터 프랜차이즈화,[8] 데이터 준비 및 데이터 멍킹이 있습니다.

의료 환자에 대한 정보가 포함된 데이터 집합을 지정하면 질병과의 상관 관계를 찾는 것이 목표입니다.데이터를 통해 반복을 시작하기 전에 결과를 이해해야 합니다. 질병에 걸린 환자를 찾고 계십니까?그 밖에 원인이 될 수 있는 질병이 있습니까?결과에 대한 이해가 이루어지면 데이터 논쟁 프로세스를 시작할 수 있습니다.

우선 결과의 구조와 질병 진단을 이해하기 위해 무엇이 중요한지를 결정하는 것부터 시작합니다.

최종 구조가 결정되면 도움이 되지 않거나 잘못된 형식의 데이터 지점을 제거하여 데이터를 삭제합니다. 여기에는 질병이 진단되지 않은 환자가 포함될 수 있습니다.

데이터를 다시 살펴본 후 이미 알려진 데이터 세트에 추가할 수 있는 것이 있습니까?예를 들어, 이 지역에서 가장 흔한 질병일 수 있는데, 미국과 인도는 대부분의 흔한 질병에 관해 매우 다르다.

이제 검증 단계를 수행하여 데이터 포인트의 유효성을 확인해야 하는 검증 규칙을 결정합니다. 여기에는 생년월일이나 특정 질병이 있는지 확인하는 것이 포함될 수 있습니다.

검증 단계 후 데이터를 정리하고 도입 또는 평가를 위해 준비해야 합니다.이 과정은 방대한 양의 데이터를 정확한 결과를 위해 쉽게 분석할 수 있는 것으로 줄여주기 때문에 질병 진단에 대한 상관관계를 결정하는 데 도움이 될 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ "What Is Data Munging?". Archived from the original on 2013-08-18. Retrieved 2022-01-21.
  2. ^ "mung". Jargon File. Archived from the original on 2012-09-18. Retrieved 2012-10-10.
  3. ^ 코더의 경우 X는 Wayback Machine, Open Knowledge Foundation 블로그 투고에서 아카이브된 데이터용입니다.
  4. ^ Parsons, M. A.; Brodzik, M. J.; Rutter, N. J. (2004). "Data management for the Cold Land Processes Experiment: improving hydrological science". Hydrological Processes. 18 (18): 3637–3653. Bibcode:2004HyPr...18.3637P. doi:10.1002/hyp.5801.
  5. ^ "What Is Data Wrangling? What are the steps in data wrangling?". Express Analytics. 2020-04-22. Archived from the original on 2020-11-01. Retrieved 2020-12-06.
  6. ^ Wickham, Hadley; Grolemund, Garrett (2016). "Chapter 9: Data Wrangling Introduction". R for data science : import, tidy, transform, visualize, and model data (First ed.). Sebastopol, CA. ISBN 978-1491910399. Archived from the original on 2021-10-11. Retrieved 2022-01-12.
  7. ^ Kandel, Sean; Paepcke, Andreas (May 2011). "Wrangler: Interactive Visual Specification of Data Transformation Scripts". SIGCHI. doi:10.1145/1978942.1979444. S2CID 11133756.
  8. ^ 데이터 프랜차이즈란?(2003년2017년 IRI) 2021-04-15 Wayback Machine에 보관

외부 링크