A 2
A 2
A 2
Realmente disfruto la regresión. Diría que la regresión fue quizás uno de los primeros
conceptos que realmente me ayudó a comprender los datos, así que disfruto de
una regresión.
El algoritmo del vecino más cercano es el más simple, pero solo obtiene los mejores
resultados muchas veces más que un algoritmo exagerado y con exceso de
trabajo.
Por lo tanto, los datos estructurados se parecen más a datos tabulares con los que
está familiarizado en el formato de Microsoft Excel, tiene filas y columnas y eso se
llama datos estructurados. Los datos no estructurados son básicamente datos que
provienen principalmente de la web, donde no es tabular, no es en filas y columnas,
es texto, a veces es video y audio, por lo que tendría que implementar algoritmos
más sofisticados para extraer datos y, de hecho, muchas veces tomamos datos no
estructurados y dedicamos una gran cantidad de tiempo y esfuerzo para obtener
cierta estructura y luego analizarlos. Entonces, si tiene algo que encaja bien en
tablas, columnas y filas, ¡adelante! esos son sus datos estructurados, pero si ve si es
un registro web o si está tratando de obtener información de las páginas web y
tiene miles de millones de páginas web, eso es datos no estructurados que
requerirían un poco más de esfuerzo para obtener información. Permítanme
explicar la regresión en los términos más simples posibles. Si alguna vez ha tomado
un taxi, comprende la regresión.
Así es como funciona. En el momento en que se sienta en un taxi, ve que hay una
cantidad fija allí, la cual es $ 2.50, aunque el taxi se mueva poco y luego se baje,
esto es lo que le debe al conductor en el momento en que se sube a un taxi, es una
constante tiene que pagar esa cantidad si se ha subido a un taxi.
Luego, a medida que comienza a moverse por cada metro o cien metros, la tarifa
aumenta en cierta cantidad, por lo que hay una fracción, hay una relación entre
la distancia y la cantidad que pagaría más allá de esa constante y si no se está
moviendo y está atrapado en el tráfico, entonces cada minuto adicional tiene que
pagar más, a medida que los minutos aumentan, su tarifa aumenta a medida que
aumenta la distancia, y mientras todo esto sucede, ya ha pagado una tarifa base,
que es la constante, esto es la regresión.
La regresión que le dice cuál es la tarifa base y cuál es la relación entre el tiempo y
la tarifa que ha pagado, y la distancia que ha viajado y la tarifa que ha pagado,
porque sin conocer esas relaciones y simplemente saber cuánto viajaron las
personas y cuánto pagaron, la regresión le permite calcular esa constante que no
sabía que era 2.50 y calcularía la relación entre la tarifa y la distancia y la tarifa y el
tiempo. Eso es regresión.
Ahora que sabe de qué se trata el curso, es hora de poner algunas definiciones. A
pesar de su uso ubicuo, el consenso evade las nociones de big data y data science.
La pregunta, “¿quién es un científico de datos?” Está muy viva y es cuestionada
por individuos, algunos de los cuales simplemente están interesados en proteger su
disciplina o territorio académico. En esta sección de la lección, intento abordar
estas controversias y explicar por qué una definición estrechamente interpretada
de big data o data science dará como resultado la exclusión de cientos de miles
de personas que recientemente se han volcado al campo emergente.
"Todo el mundo ama a un científico de datos", escribió Simon Rogers (2012) en The
Guardian. El sr. Rogers también rastreó el nuevo amor por el cálculo de números a
una cita de Hal Varian de Google, quien declaró que "el trabajo sexy en los
próximos diez años serán los estadísticos".
Mientras que Hal Varian nombró a los estadísticos “sexy”, se cree ampliamente que
lo que realmente quiso decir eran científicos de datos. Esto plantea varias
preguntas importantes:
En tiempos de big data, una pregunta tan simple como “¿qué es la ciencia de
datos?” puede dar lugar a muchas respuestas. En algunos casos, la diversidad de
opiniones sobre estas respuestas raya en la hostilidad.
Defino ciencia de datos como algo que hacen los científicos de datos. Hace años,
como estudiante de ingeniería en la Universidad de Toronto, me quedé atrapado
con la pregunta: ¿Qué es la ingeniería? Escribí mi tesis de maestría sobre el
pronóstico de los precios de la vivienda y mi tesis doctoral sobre el pronóstico de
las elecciones de los constructores de viviendas relacionadas con lo que
construyen, cuándo construyen y dónde construyen nuevas viviendas. En el
departamento de ingeniería civil, otros trabajaban en el diseño de edificios,
puentes, túneles y se preocupaban por la estabilidad de las pendientes. Mi trabajo,
y el de mi supervisor no era su ingeniería tradicional de variedades de jardín.
Obviamente, otros me preguntaron repetidamente si mi investigación era
realmente ingeniería.
El profesor Raghuram Rajan realizó su primer título en ingeniería eléctrica del Instituto
Indio de Tecnología. Se dedicó a la economía en estudios de posgrado, más tarde
se convirtió en profesor en una prestigiosa universidad y finalmente aterrizó en el
FMI. Actualmente se desempeña como el 23er Gobernador del Banco de la
Reserva de la India. ¿Podría alguien argumentar que su destreza intelectual se basa
solo en su formación como economista y que los fundamentos que aprendió como
estudiante de ingeniería no desempeñaron ningún papel en el desarrollo de sus
habilidades para resolver problemas?
El profesor Rajan es ingeniero. También lo son Xi Jinping, presidente de la República
Popular de China, y primer ministro griego que está obligando al mundo a repensar
los fundamentos de la economía global. Es posible que no estén diseñando nuevos
circuitos, equipos de destilación o puentes, pero están ayudando a construir
mejores sociedades y economías y no puede haber una mejor definición de
ingeniería e ingenieros, es decir, individuos dedicados a construir mejores
economías y sociedades.
Brevemente, diría que la ciencia de datos es lo que hacen los científicos de datos.
El Dr. Vincent Granville (2014), autor de ciencia de datos, ofrece ciertos umbrales
que cumplir para ser un científico de datos. En las páginas 8 y 9 en Developing
Analytic Talent, el Dr. Granville describe al nuevo profesor de ciencias de datos
como un instructor no titular en una universidad no tradicional, que publica
resultados de investigación en blogs en línea, no pierde el tiempo escribiendo
subvenciones, trabaja desde casa y gana más dinero que los profesores
tradicionales. Basta decir que, la próspera comunidad académica de científicos
de datos podría estar en desacuerdo con el Dr. Granville.
El Dr. Granville utiliza restricciones en el tamaño y los métodos de datos para definir
qué es la ciencia de datos. Define a un científico de datos como alguien que
puede "procesar fácilmente un conjunto de datos de 50 millones de filas en un par
de horas: y que desconfía de los modelos (estadísticos). Distingue la ciencia de
datos de las estadísticas. Sin embargo, enumera álgebra, cálculo y capacitación,
en probabilidad y estadística como antecedentes necesarios para comprender la
ciencia de datos" (página 4).
Algunos creen que big data se trata simplemente de cruzar un cierto umbral en el
tamaño de los datos o el número de observaciones, o se trata del uso de una
herramienta en particular, como Hadoop. Dichos umbrales arbitrarios en el tamaño
de los datos son problemáticos porque con la innovación, incluso las computadoras
normales y el software comercial han comenzado a manipular conjuntos de datos
muy grandes. Stata, un software comúnmente utilizado por científicos de datos y
estadísticos, anunció que ahora se pueden procesar entre 2 y 24,4 mil millones de
filas utilizando sus soluciones de escritorio. Si Hadoop es la contraseña para el club
de big data, la capacidad de Stata para procesar 24.4 mil millones de filas, bajo
ciertas limitaciones, acaba de colarse en esa fiesta de big data.
https://www.kdnuggets.com/2014/04/vincent-granville-data-science-book.html
En resumen, en esta lección has debido aclarar lo que hace un Científico de Datos
en una jornada de trabajo típica y que varía según el tipo de proyecto en el que
esté trabajando.