구글 독감 동향
Google Flu Trends구글 플루 트렌드(GFT)는 구글이 운영하는 웹 서비스이다.그것은 25개국 이상의 인플루엔자 활동 추정치를 제공했다.구글 검색 쿼리를 취합함으로써 독감 활동에 대한 정확한 예측을 시도했다.이 프로젝트는 [1]독감 발생을 예측하기 위해 Google.org에 의해 2008년에 처음 시작되었습니다.
구글 플루 트렌드는 2015년 8월 9일 현재 추정치 발표를 중단했다.과거 추정치는 아직 다운로드 가능하며, 현재 데이터는 선언된 연구 [2]목적으로 제공됩니다.
역사
Google Flu Trends의 발상은 수백만 명의 사용자의 온라인 건강 추적 행동을 감시함으로써 수집된 많은 구글 검색 쿼리를 분석하여 인구에 독감과 유사한 질병이 있는지 여부를 밝힐 수 있다는 것이었다.구글 플루 트렌드는 이러한 발견을 해당 지역의 과거 인플루엔자 활동 수준과 비교한 후 활동 수준을 최소, 낮음, 보통, 높음 또는 강도로 보고한다.이러한 추정치는 일반적으로 국가 및 지역 모두에서 보건 기관이 수집한 기존 감시 데이터와 일치한다.
Roni Zeiger는 구글 독감 [3]트렌드를 개발하는 데 도움을 주었다.
방법들
Google 독감 경향은 독감 [4][5]경향에 대한 정보를 수집하기 위해 다음과 같은 방법을 사용하는 것으로 설명되었습니다.
첫째, 시계열은 2003년부터 2008년까지 미국 내에서 매주 입력된 약 5000만 개의 공통 쿼리에 대해 계산된다.쿼리의 시계열은 각 상태에 대해 별도로 계산되며 각 쿼리의 수를 해당 상태에 있는 모든 쿼리의 수로 나눗셈함으로써 분수로 정규화된다.각 검색과 관련된 IP 주소를 식별함으로써 이 쿼리가 입력된 상태를 확인할 수 있습니다.
선형 모델을 사용하여 인플루엔자 유사 질병(ILI) 내과의사 방문 기록과 ILI 관련 검색 질의 기록 기록을 계산합니다.
P는 ILI 의사의 방문 비율이고 Q는 이전 단계에서 계산된 ILI 관련 쿼리 비율입니다.β는0 절편이고1 β는 계수이며 β는 오차항이다.
5000만개의 쿼리는 각각 Q로 테스트되며 단일 쿼리에서 계산된 결과가 미국 질병통제예방센터(CDC)에서 얻은 실제 이력 ILI 데이터와 일치하는지 여부를 확인합니다.이 프로세스는 선형 모델을 사용할 때 CDC ILI 데이터를 가장 정확하게 예측하는 상위 쿼리 목록을 생성합니다.다음으로 상위 45개의 쿼리가 선택됩니다.이러한 쿼리는 함께 집약하면 이력 데이터에 가장 정확하게 맞기 때문입니다.ILI 관련 상위 45개의 쿼리 합계를 사용하여 계수를 얻을 수 있도록 2003년부터 2007년 사이의 주간 ILI 데이터에 선형 모델을 적합시킵니다.마지막으로, 이 훈련 모델은 미국의 모든 지역에서 독감의 발생을 예측하는 데 사용된다.
이 알고리즘은 정확성에 대한 우려에 따라 구글에 의해 일부 수정되었으며, 그 결과를 복제하려는 시도는 알고리즘 개발자들이 "실제 검색어를 숨길 필요가 있다고 느꼈다"[6]고 시사했다.
프라이버시 문제
Google 독감 경향은 [1][7]검색을 수행한 개인을 식별하지 않고 수백만 개의 익명 검색 쿼리만 집계하여 개인 정보 침해를 방지하려고 합니다.검색 로그에는 사용자의 IP 주소가 포함되어 있습니다.이 주소를 사용하여 검색 쿼리를 처음 제출한 지역을 추적할 수 있습니다.구글은 그 데이터에 접근하고 계산하기 위해 컴퓨터에서 프로그램을 실행하므로 그 과정에 사람이 관여하지 않는다.구글은 또한 [8]9개월 후 검색 로그에 IP 주소를 익명화하는 정책을 시행했다.
그러나 구글 플루 트렌드는 일부 사생활 보호 단체들 사이에서 사생활에 대한 우려를 제기하고 있다.Electronic Privacy Information Center and Patient Privacy Rights는 2008년 당시 [9]구글의 CEO였던 에릭 슈미트에게 편지를 보냈다.그들은 사용자가 생성한 데이터를 사용하는 것이 공중 보건 활동을 상당한 방식으로 지원할 수 있다는 것을 인정했지만, "구글의 반대에도 불구하고 법원 명령이나 대통령 권한에 의해 사용자별 조사가 강제될 수 있다"고 우려했다.
영향
GFT의 초기 동기는 질병 활동을 조기에 식별하고 신속하게 대응할 수 있으면 계절적 및 유행성 인플루엔자의 영향을 줄일 수 있다는 것이었다.한 보도는 구글 독감 트렌드가 질병통제예방센터(CDC)[10]에 의해 보고되기 10일 전까지 지역별 독감 발생을 예측할 수 있었다는 것이다.
2009년 독감 대유행에서 구글 플루 트렌드는 미국 [11]독감에 대한 정보를 추적했다.2010년 2월 CDC는 미국 대서양 중부 지역에서 급증하는 인플루엔자 사례를 확인했다.그러나 구글의 독감 증상에 대한 검색 질의 데이터는 CDC 보고서가 발표되기 2주 전에 동일한 급증세를 보일 수 있었다.
CDC 인플루엔자 부서의 감시를 책임지고 있는 린 피넬리 박사는 "경보가 빨리 내려질수록 예방과 통제 조치가 조기에 시행될 수 있고, 이는 인플루엔자 사례를 예방할 수 있다"며 "미국 인구의 520%가 매년 독감에 걸리며, 평균 36,000명이 사망한다"고 말했다.[10]
구글 플루 트렌드는 트렌드를 식별하고 예측을 계산하는 데 사용할 수 있는 집단 지능의 한 예입니다.검색 쿼리가 필터링되지 않은 사람들의 욕구와 요구를 나타내기 때문에 검색 엔진에 의해 축적된 데이터는 매우 통찰력 있습니다.MIT 슬론 경영대학원의 토마스 W. 말론 교수는 "이는 구글 사용자들이 의도하지 않게 만든 데이터를 이용해 보이지 않는 세상의 패턴을 보는 정말 영리한 방법인 것 같다"며 "우리는 단지 집단 지능으로 가능한 것의 겉만 긁고 있을 뿐이라고 생각한다"고 말했다.[10]
정확성.
초기 구글 페이퍼에서는 CDC 데이터와 [4]비교하여 구글 플루 트렌드 예측이 97% 정확하다고 언급했습니다.그러나 후속 보고서에 따르면 Google 독감 경향의 예측은 특히 지속적으로 상대 독감 발생률을 [6]과대평가한 2011-2013년 기간 동안 매우 부정확한 경우가 있었으며, 2012-2013년 독감 시즌의 한 기간 동안 [6][12]CDC가 기록한 것보다 두 배 더 많은 의사의 방문을 예측했다고 한다.
한 가지 문제점은 독감과 관련된 구글 검색을 하는 사람들이 독감을 진단하는 방법에 대해 아는 것이 거의 없다는 것이다; 독감과 독감 증상의 검색은 독감과 비슷하지만 실제로는 [13]독감이 아닌 질병 증상들을 연구하는 것일 수 있다.또 구글이 추적한 것으로 알려진 '열'과 '커프' 등 검색어 분석과 검색 알고리즘의 시간 경과에 따른 변화에 따른 영향도 [6]예측의 의미에 대한 우려를 낳고 있다.2013년 가을, 구글은 뉴스에서 독감이 두드러지면서 검색 수가 증가한 것을 보상하기 위해 시도하기 시작했는데,[14] 이전에 결과가 왜곡된 것으로 밝혀졌다.그러나 한 분석에서는 "GFT와 지연된 CDC 데이터를 결합하고 GFT를 동적으로 재보정함으로써 GFT 또는 CDC의 성능만 [6]크게 개선할 수 있다"고 결론지었다.또, 최신의 연구에서는, Google 검색 데이터를 실제로 사용해 추정치를 향상시켜, CDC 데이터만을 사용하는 모델에서 볼 수 있는 에러를 최대 [15]52.7%삭감할 수 있는 것을 나타내고 있습니다.
원래의 GFT 모델을 재평가함으로써, 연구진은 모델이 다양한 건강 상태에 대한 쿼리를 취합하고 있다는 것을 밝혀냈다. ILI 비율의 과잉 예측을 초래할 수 있는 어떤 것이다. 같은 연구에서, ILI 모델링에 대한 일련의 더 진보된 선형 및 비선형 더 나은 성능 접근법이 [16]제안되었다.
관련 시스템
인지과학 오스나브뤼크[17] 연구소의 독감 예측 프로젝트와 같은 유사한 프로젝트는 소셜 미디어 데이터를 결합함으로써 기본 아이디어를 발전시킨다.CDC 데이터와 질병의 공간적 및 시간적 확산을 유추하는 구조 모델이 포함된 트위터.
레퍼런스
- ^ a b "Google Flu Trends How". Archived from the original on 22 October 2012. Retrieved 10 November 2012.
- ^ Fred O'Connor (20 August 2015). "Google Flu Trends calls out sick, indefinitely". PCWorld. Archived from the original on 23 August 2015. Retrieved 23 August 2015.
- ^ Zeiger, Roni (6 October 2009). "Google Flu Trends Overview". youtube.com. YouTube. Archived from the original on 6 June 2013. Retrieved 6 June 2013.
- ^ a b Ginsberg, Jeremy. "Detecting influenza epidemics using search engine query data" (PDF). Archived (PDF) from the original on 4 September 2012. Retrieved 10 November 2012.
- ^ Ginsberg, Jeremy; Mohebbi, Matthew H.; Patel, Rajan S.; Brammer, Lynnette; Smolinski, Mark S.; Brilliant, Larry (19 February 2009). "Detecting influenza epidemics using search engine query data". Nature. 457 (7232): 1012–1014. Bibcode:2009Natur.457.1012G. doi:10.1038/nature07634. PMID 19020500. S2CID 125775.
- ^ a b c d e Lazer, David; Kennedy, Ryan; King, Gary; Vespignani, Alessandro (14 March 2014). "The Parable of Google Flu: Traps in Big Data Analysis" (PDF). Science. 343 (6176): 1203–1205. Bibcode:2014Sci...343.1203L. doi:10.1126/science.1248506. PMID 24626916. S2CID 206553739. Archived (PDF) from the original on 19 November 2019. Retrieved 19 December 2019.
- ^ Helft, Miguel (13 November 2008). "Is There a Privacy Risk in Google Flu Trends?". The New York Times. Archived from the original on 6 November 2012. Retrieved 10 November 2012.
- ^ "Privacy Policy – Policies & Principles – Google". Archived from the original on 3 November 2012. Retrieved 10 November 2012.
- ^ Peel, Deborah. "EPIC's November 12, 2008 Letter to Google Concerning Google Flu Trends" (PDF). Archived (PDF) from the original on 15 November 2012. Retrieved 10 November 2012.
- ^ a b c "Google Uses Searches to Track Flu's Spread" (PDF). Archived (PDF) from the original on 15 November 2012. Retrieved 10 November 2012.
- ^ Cook, S.; Conrad, C.; Fowlkes, A. L.; Mohebbi, M. H. (2011). Cowling, Benjamin J (ed.). "Assessing Google Flu Trends Performance in the United States during the 2009 Influenza Virus A (H1N1) Pandemic". PLOS ONE. 6 (8): e23610. Bibcode:2011PLoSO...623610C. doi:10.1371/journal.pone.0023610. PMC 3158788. PMID 21886802.
- ^ Butler, Declan (13 February 2013). "When Google got flu wrong". Nature. 494 (7436): 155–156. Bibcode:2013Natur.494..155B. doi:10.1038/494155a. PMID 23407515.
- ^ "Google Flu Trends: A case of Big Data gone bad?". SiliconANGLE. 24 March 2014.
- ^ Richard Harris (2014-03-13). "Google's Flu Tracker Suffers From Sniffles". NPR. Archived from the original on 2019-03-19. Retrieved 2019-12-19.
- ^ Preis, Tobias; Moat, Helen Susannah (29 October 2014). "Adaptive nowcasting of influenza outbreaks using Google searches". Royal Society Open Science. 1 (2): 140095. Bibcode:2014RSOS....140095P. doi:10.1098/rsos.140095. PMC 4448892. PMID 26064532.
- ^ Lampos, Vasileios; Miller, Andrew C.; Crossan, Steve; Stefansen, Christian (3 Aug 2015). "Advances in nowcasting influenza-like illness rates using search query logs". Scientific Reports. 5 (12760): 12760. Bibcode:2015NatSR...512760L. doi:10.1038/srep12760. PMC 4522652. PMID 26234783.
- ^ "Flu prediction project by the University Osnabrück and IBM WATSON". Archived from the original on 2019-05-27. Retrieved 2019-12-19.
- ^ Schumacher Johannes (2015). "A statistical framework to infer delay and direction of information flow from measurements of complex systems". Neural Computation. 27 (8): 1555–1608. doi:10.1162/NECO_a_00756. PMID 26079751. S2CID 25156368. Archived from the original on 2019-02-12. Retrieved 2016-03-20.