PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram

PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram
Author: MEENACHISUNDARAM.M
Publisher: MEENACHI SUNDARAM
Total Pages: 277
Release: 2024-09-05
Genre: Computers
ISBN:

PYTHON CON CIENCIA DE DATOS Por M. Meenachi Sundaram TABLA DE CONTENIDO PYTHON CON CIENCIA DE DATOS.. 13 CAPÍTULO 1: CONCEPTOS ESTADÍSTICOS.. 13 1. Población y muestra. 13 2. Distribución normal 14 3. Medidas de tendencia central 16 4. Varianza y desviación estándar 16 5. Covarianza y correlación. 17 6. Teorema del límite central 19 7. Valor p. 20 8. Valor esperado de variables aleatorias. 22 9. Probabilidad condicional 24 10. Teorema de Bayes. 25 5 CONCEPTOS ESTADÍSTICOS IMPORTANTES PARA CADA CIENTÍFICO DE DATOS 26 1. Estadísticas descriptivas. 26 2. Distribuciones de probabilidad. 28 3. Reducción de la dimensionalidad. 30 4. Submuestreo y sobremuestreo. 32 5. Estadísticas bayesianas. 34 MÓDULO DE ESTADÍSTICAS DE PYTHON.. 35 Métodos estadísticos. 35 CAPÍTULO 2: PROBABILIDAD.. 36 Python, números aleatorios y probabilidad. 36 Números aleatorios con Python. 37 Números aleatorios que satisfacen la condición de suma a uno. 41 Generación de cadenas o contraseñas aleatorias con Python. 42 Números enteros aleatorios. 43 Elecciones aleatorias con Python. 47 Muestras aleatorias con Python. 50 Números verdaderamente aleatorios. 52 Opciones aleatorias ponderadas. 55 CAPÍTULO 3: DESVIACIÓN ESTÁNDAR.. 62 Método statistical.stdev() de Python. 62 Definición y uso. 62 Sintaxis. 62 Valores de los parámetros. 63 Parámetro. 63 Descripción. 63 Datos. 63 Obligatorio. Los valores de datos que se utilizarán (pueden ser cualquier secuencia, lista o iterador) 63 Barra X.. 63 Opcional. La media de los datos proporcionados. Si se omite (o se establece en Ninguno), la media se calcula automáticamente. 63 Detalles técnicos. 63 Valor de retorno: 63 CAPÍTULO 4: SESGO Y VARIANZA.. 64 ¿Qué son el sesgo y la varianza?. 64 Sesgo y varianza usando Python. 64 CAPÍTULO 5: MÉTRICAS DE DISTANCIA.. 68 Comprensión de las métricas de distancia utilizadas en el aprendizaje automático. 68 Estudiaremos: 68 ¿Qué son las métricas de distancia?. 68 Tipos de métricas de distancia en el aprendizaje automático. 69 Distancia euclidiana. 71 Fórmula para la distancia euclidiana. 72 Distancia de Manhattan. 74 Fórmula para la distancia de Manhattan. 74 Distancia de Minkowski 76 Fórmula para la distancia de Minkowski 76 Distancia de Hamming. 78 Conclusión. 80 Agujas. 80 CAPÍTULO 6: ANÁLISIS DE VALORES ATRÍPICOS.. 82 La detección de valores atípicos es el proceso de identificar puntos de datos que tienen valores extremos en comparación con el resto de la distribución. Conozca tres métodos de detección de valores atípicos en Python. 82 ¿Qué es la detección de valores atípicos?. 82 Beneficios de la detección de valores atípicos. 82 Métodos para la detección de valores atípicos en Python. 83 Prerrequisito para la detección de valores atípicos: lectura de datos. 84 Uso de diagramas de caja para la detección de valores atípicos. 84 Uso de bosques de aislamiento para la detección de valores atípicos. 88 Uso de OneClassSVM para la detección de valores atípicos. 90 Dominando la detección de valores atípicos. 90 Parte aislada. 91 ¿Qué son los valores atípicos?. 92 ¿Cuándo son peligrosos los valores atípicos?. 93 ¿Qué estadísticas se ven afectadas por los valores atípicos?. 97 ¿Cuándo eliminar o mantener los valores atípicos?. 98 Tabla de contenido. 100 ¿Cómo tratar los valores atípicos?. 100 Guarnición. 100 Tapado. 100 Discretización. 102 Para distribuciones normales. 102 Para distribuciones sesgadas. 102 Para otras distribuciones. 102 Cómo detectar y eliminar esquemas en Python. 103 Tratamiento de la puntuación Z.. 103 Filtrado basado en IQR.. 106 Método de percentiles. 109 Conclusión. 113 Preguntas frecuentes. 114 CAPÍTULO 7: TRATAMIENTOS DE VALORES FALTANTES.. 116 Cómo manejar los datos faltantes. 116 ¿Por qué completar los datos faltantes?. 116 ¿Cómo saber si los datos tienen valores faltantes?. 118 Diferentes métodos para tratar los datos faltantes. 120 1. Eliminar la columna con datos faltantes. 121 2. Eliminar la fila con datos faltantes. 123 3. Completar los valores faltantes – Imputación. 125 4. Otros métodos de imputación. 128 5. Imputación con una columna adicional 129 6. Relleno con un modelo de regresión. 131 Conclusión. 135 Preguntas frecuentes. 135 Pandas: Reemplazar valores NaN por cero en una columna. 136 1. Ejemplo de sustitución de NaN por cero. 136 2. Reemplace los valores NaN por cero en el DataFrame de pandas. 138 3. Reemplace los valores NaN por cero en una o varias columnas. 138 4. Reemplace los valores NaN por ceros usando replace() 139 5. Uso de DataFrame.replace() en todas las columnas. 140 6. Ejemplo completo para reemplazar valores NaN por ceros en una columna. 141 CAPÍTULO 8: CORRELACIÓN.. 143 NumPy, SciPy y pandas: correlación con Python. 143 Correlación. 143 Ejemplo: Cálculo de correlación de NumPy. 147 Ejemplo: Cálculo de correlación de SciPy. 149 Ejemplo: Cálculo de correlación de pandas. 151 Esta página y la siguiente son sólo de referencia. 153 Correlación lineal 153 Coeficiente de correlación de Pearson. 153 Regresión lineal: implementación de SciPy. 155 Correlación de Pearson: implementación de NumPy y SciPy. 159 Correlación de Pearson: implementación de pandas. 162 Correlación de rangos. 167 Rango: Implementación de SciPy. 169 Correlación de rangos: implementación de NumPy y SciPy. 170 Correlación de rangos: implementación de pandas. 173 Visualización de la correlación. 175 Gráficos XY con una línea de regresión. 176 Mapas de calor de matrices de correlación. 178 Conclusión. 180 CAPÍTULO 9: MÉTRICAS DE ERROR (MEDIDAS DE ERROR) 181 Error cuadrático medio. 181 Error absoluto medio. 181 Error porcentual absoluto medio. 181 Medición de errores de regresión con Python. 182 Medición de errores de regresión. 182 Seis métricas de error para medir errores de regresión. 184 Error absoluto medio (EMA) 184 Error porcentual absoluto medio (MAPE) 185 Error cuadrático medio (MSE) 186 Error absoluto medio (MedAE) 186 Error cuadrático medio (RMSE) 187 Error porcentual absoluto medio (MdAPE) 187 Implementación de métricas de error de regresión en Python: predicción de series temporales 188 Paso n.° 1: Generar datos de series temporales sintéticas. 189 CAPÍTULO 10: REGRESIÓN.. 196 Regresión lineal 197 Regresión logística. 197 Regresión polinómica. 198 Regresión de cresta. 198 Regresión de lazo. 200 Aplicaciones de regresión. 200 Diferencia entre regresión y clasificación en minería de datos. 200 Regresión. 202 CAPÍTULO 11: APRENDIZAJE AUTOMÁTICO.. 203 Aprendizaje automático, aprendizaje profundo y redes neuronales. 203 Métodos de aprendizaje automático. 205 Aprendizaje automático supervisado. 206 Aprendizaje automático no supervisado. 206 Aprendizaje semisupervisado. 208 Algoritmos comunes de aprendizaje automático. 208 Casos de uso de aprendizaje automático en el mundo real 209 Estructura de datos para el aprendizaje automático. 210 ¿Qué es la estructura de datos?. 211 Tipos de estructura de datos. 211 1. Estructura de datos lineal: 212 2. Estructuras de datos no lineales. 215 Estructura de datos de matriz dinámica: 218 ¿Cómo se utiliza la estructura de datos en el aprendizaje automático?. 218 Conclusión. 219 APRENDIZAJE SUPERVISADO.. 220 Aprendizaje automático supervisado. 220 ¿Cómo funciona el aprendizaje supervisado?. 220 Pasos involucrados en el aprendizaje supervisado: 222 Tipos de algoritmos de aprendizaje automático supervisados: 222 1. Regresión. 223 2. Clasificación. 223 Ventajas del aprendizaje supervisado: 225 Desventajas del aprendizaje supervisado: 225 Regresión lineal 225 ¿Cómo funciona?. 226 R de Relación. 235 Predecir valores futuros. 236 ¿Mal ajuste?. 237 Regresión logística. 241 ¿Cómo funciona?. 242 Probabilidad. 244 Función explicada. 244 Resultados explicados. 247 Cómo guardar un modelo de aprendizaje automático. 247 Dos formas de guardar un modelo desde scikit-learn: 248 APRENDIZAJE NO SUPERVISADO.. 255 Aprendizaje automático no supervisado. 255 ¿Por qué utilizar el aprendizaje no supervisado?. 256 Funcionamiento del aprendizaje no supervisado. 256 Tipos de algoritmos de aprendizaje no supervisado: 257 Algoritmos de aprendizaje no supervisado: 258 Ventajas del aprendizaje no supervisado. 259 Desventajas del aprendizaje no supervisado. 259 Aprendizaje supervisado vs. no supervisado. 260 Preparación de datos para el aprendizaje no supervisado. 261 Agrupamiento. 263 Agrupamiento jerárquico. 266 Diferencia entre K-Means y agrupamiento jerárquico. 270 Agrupamiento de t-SNE.. 270 Agrupamiento DBSCAN.. 272 OTROS ALGORITMOS DE APRENDIZAJE AUTOMÁTICO (ML) 275 ACERCA DEL AUTOR.. 276

PYTHON COM CIÊNCIA DE DADOS Por M. Meenachi Sundaram

PYTHON COM CIÊNCIA DE DADOS Por M. Meenachi Sundaram
Author: MEENACHISUNDARAM.M
Publisher: MEENACHI SUNDARAM
Total Pages: 270
Release: 2024-09-05
Genre: Computers
ISBN:

PYTHON COM CIÊNCIA DE DADOS Por M. Meenachi Sundaram ÍNDICE PYTHON COM CIÊNCIA DE DADOS.. 13 CAPÍTULO 1: CONCEITOS DE ESTATÍSTICA.. 13 1. População e amostra. 13 2. Distribuição normal 14 3. Medidas de tendência central 16 4. Variância e desvio padrão. 16 5. Covariância e correlação. 17 6. Teorema do limite central 19 7. Valor P.. 20 8. Valor esperado de variáveis ​​aleatórias. 22 9. Probabilidade condicional 25 10. Teorema de Bayes. 26 5 CONCEITOS ESTATÍSTICOS IMPORTANTES PARA TODO CIENTISTA DE DADOS 27 1. Estatística descritiva. 27 2. Distribuições de probabilidade. 29 3. Redução da dimensionalidade. 31 4. Subamostragem e superamostragem.. 33 5. Estatística bayesiana. 35 MÓDULO DE ESTATÍSTICAS PYTHON.. 36 Métodos estatísticos. 36 CAPÍTULO 2: PROBABILIDADE.. 37 Python, Números Aleatórios e Probabilidade. 37 Números aleatórios com Python. 38 Números aleatórios que satisfazem a condição de soma para um.. 42 Gerando strings aleatórias ou senhas com Python. 43 Números Inteiros Aleatórios. 44 Escolhas aleatórias com Python. 48 Amostras aleatórias com Python. 51 Números aleatórios verdadeiros. 53 Escolhas aleatórias ponderadas. 55 CAPÍTULO 3: DESVIO PADRÃO.. 62 Método Python statistics.stdev() 62 Definição e uso. 62 Sintaxe. 62 Valores de Parâmetros. 63 Parâmetro. 63 Descrição. 63 Dados. 63 Obrigatório. Os valores de dados a serem usados ​​(podem ser qualquer sequência, lista ou iterador) 63 Barra X.. 63 Opcional. A média dos dados fornecidos. Se omitido (ou definido como Nenhum), a média é calculada automaticamente. 63 Detalhes técnicos. 63 Valor de retorno: 63 CAPÍTULO 4: VIÉS E VARIÂNCIA.. 64 O que são viés e variância?. 64 Viés e Variância usando Python. 64 CAPÍTULO 5: MÉTRICAS DE DISTÂNCIA.. 68 Compreendendo as métricas de distância usadas no aprendizado de máquina. 68 Estudaremos: 68 O que são métricas de distância?. 68 Tipos de métricas de distância em aprendizado de máquina. 69 Distância Euclidiana. 71 Fórmula para Distância Euclidiana. 72 Distância de Manhattan. 74 Fórmula para a distância de Manhattan. 74 Distância de Minkowski 76 Fórmula para a Distância de Minkowski 76 Distância de Hamming. 78 Conclusão. 80 Pontos. 80 CAPÍTULO 6: ANÁLISE DE OUTLIER.. 82 Detecção de outliers é o processo de identificar pontos de dados que têm valores extremos em comparação ao resto da distribuição. Aprenda três métodos de detecção de outliers em Python. 82 O que é detecção de outliers?. 82 Benefícios da detecção de outliers. 82 Métodos para detecção de outliers em Python. 83 Pré-requisito para detecção de outliers: leitura de dados. 83 Usando Box Plots para Detecção de Outliers. 84 Usando florestas de isolamento para detecção de outliers. 87 Usando OneClassSVM para detecção de outliers. 89 Dominando a detecção de outliers. 90 Atípico. 91 O que são valores atípicos?. 92 Quando os valores atípicos são perigosos?. 93 Quais estatísticas são afetadas pelos valores discrepantes?. 96 Quando descartar ou manter valores discrepantes?. 97 Índice. 99 Como tratar valores discrepantes?. 99 Aparar 99 Tampando. 99 Discretização. 101 Para distribuições normais. 101 Para distribuições distorcidas. 101 Para outras distribuições. 101 Como detectar e remover Outliners em Python. 102 Tratamento de pontuação Z.. 102 Filtragem baseada em IQR.. 105 Método do Percentil 108 Conclusão. 112 Perguntas frequentes. 113 CAPÍTULO 7: TRATAMENTOS DE VALOR PERDIDO.. 115 Como lidar com dados ausentes. 115 Por que preencher os dados ausentes?. 115 Como saber se os dados têm valores ausentes?. 117 Diferentes métodos para lidar com dados ausentes. 119 1. Excluindo a coluna com dados ausentes. 120 2. Excluindo a linha com dados ausentes. 121 3. Preenchendo os valores ausentes – Imputação. 123 4. Outros métodos de imputação. 126 5. Imputação com uma coluna adicional 127 6. Preenchimento com um modelo de regressão. 129 Conclusão. 132 Perguntas frequentes. 132 Pandas – Substituir valores NaN por zero em uma coluna. 133 1. Exemplo de substituição de NaN por zero. 133 2. Substitua os valores NaN por zero no DataFrame do pandas. 135 3. Substitua os valores NaN por zero em uma ou várias colunas. 135 4. Substitua os valores NaN por zeros usando replace() 136 5. Usando DataFrame.replace() em todas as colunas. 137 6. Exemplo completo para substituir valores NaN por zeros em uma coluna. 138 CAPÍTULO 8: CORRELAÇÃO.. 140 NumPy, SciPy e pandas: Correlação com Python. 140 Correlação. 140 Exemplo: Cálculo de correlação NumPy. 144 Exemplo: Cálculo de correlação SciPy. 146 Exemplo: Cálculo de correlação de pandas. 148 Esta página e a próxima página são apenas para referência. 150 Correlação Linear 150 Coeficiente de correlação de Pearson. 150 Regressão Linear: Implementação SciPy. 152 Correlação de Pearson: Implementação NumPy e SciPy. 155 Correlação de Pearson: Implementação de pandas. 158 Correlação de classificação. 163 Classificação: Implementação SciPy. 165 Correlação de classificação: implementação NumPy e SciPy. 166 Correlação de classificação: implementação de pandas. 169 Visualização da Correlação. 171 Gráficos XY com uma linha de regressão. 172 Mapas de calor de matrizes de correlação. 174 Conclusão. 176 CAPÍTULO 9: Métricas de erro (medidas de erro) 177 Erro Quadrático Médio. 177 Erro Absoluto Médio. 177 Erro percentual absoluto médio. 177 Medindo erros de regressão com Python. 178 Medindo Erros de Regressão. 178 Seis métricas de erro para medir erros de regressão. 179 Erro Absoluto Médio (MAE) 180 Erro percentual médio absoluto (MAPE) 181 Erro Quadrático Médio (MSE) 181 Erro Absoluto Mediano (MedAE) 182 Erro Quadrático Médio (RMSE) 183 Erro percentual absoluto mediano (MdAPE) 183 Implementando Métricas de Erro de Regressão em Python: Previsão de Séries Temporais 184 Etapa 1: Gerar dados de séries temporais sintéticas. 184 CAPÍTULO 10: REGRESSÃO.. 191 Regressão Linear 192 Regressão Logística. 192 Regressão Polinomial 193 Regressão de Ridge. 193 Regressão Lasso. 195 Aplicações de Regressão. 195 Diferença entre regressão e classificação em mineração de dados. 195 Regressão. 197 CAPÍTULO 11: APRENDIZAGEM DE MÁQUINA.. 198 Aprendizado de Máquina vs. Aprendizado Profundo vs. Redes Neurais. 198 Métodos de aprendizagem de máquina. 200 Aprendizado de máquina supervisionado. 201 Aprendizado de máquina não supervisionado. 201 Aprendizagem semi-supervisionada. 203 Algoritmos comuns de aprendizado de máquina. 203 Casos de uso de aprendizado de máquina no mundo real 204 Estrutura de dados para aprendizado de máquina. 205 O que é estrutura de dados?. 206 Tipos de Estrutura de Dados. 206 1. Estrutura de dados linear: 207 2. Estruturas de dados não lineares. 210 Estrutura de dados de matriz dinâmica: 213 Como a estrutura de dados é usada no aprendizado de máquina?. 213 Conclusão. 214 APRENDIZAGEM SUPERVISIONADA.. 215 Aprendizado de Máquina Supervisionado. 215 Como funciona o aprendizado supervisionado?. 215 Etapas envolvidas no aprendizado supervisionado: 217 Tipos de algoritmos de aprendizado de máquina supervisionados: 217 1. Regressão. 218 2. Classificação. 218 Vantagens do aprendizado supervisionado: 219 Desvantagens do aprendizado supervisionado: 219 Regressão Linear 219 Como funciona?. 220 R para Relacionamento. 229 Prever valores futuros. 230 Ajuste ruim?. 231 Regressão Logística. 235 Como funciona?. 236 Probabilidade. 238 Função explicada. 238 Resultados explicados. 241 Como salvar um modelo de aprendizado de máquina. 241 Duas maneiras de salvar um modelo do scikit-learn: 242 APRENDIZAGEM NÃO SUPERVISIONADA.. 249 Aprendizado de máquina não supervisionado. 249 Por que usar o aprendizado não supervisionado?. 250 Funcionamento da aprendizagem não supervisionada. 250 Tipos de algoritmo de aprendizagem não supervisionado: 251 Algoritmos de aprendizagem não supervisionada: 252 Vantagens da aprendizagem não supervisionada. 253 Desvantagens da aprendizagem não supervisionada. 253 Aprendizagem supervisionada vs. não supervisionada. 254 Preparando dados para aprendizagem não supervisionada. 255 Agrupamento. 257 Agrupamento hierárquico. 259 Diferença entre K-Means e agrupamento hierárquico. 263 Agrupamento t-SNE.. 263 Agrupamento DBSCAN.. 265 OUTROS ALGORITMOS DE APRENDIZAGEM DE MÁQUINA (ML) 268 SOBRE O AUTOR.. 269

ADVANCED PYTHON WITH STATISTICAL CONCEPTS

ADVANCED PYTHON WITH STATISTICAL CONCEPTS
Author: MEENACHISUNDARAM.M
Publisher: MEENACHI SUNDARAM
Total Pages: 242
Release: 2024-09-04
Genre: Computers
ISBN:

PYTHON WITH DATA SCIENCE By M.Meenachi Sundaram TABLE OF CONTENTS PYTHON WITH DATA SCIENCE.. 13 CHAPTER 1: STATISTICS CONCEPTS.. 13 1. Population and sample. 13 2. Normal distribution. 14 3. Measures of central tendency. 15 4. Variance and standard deviation. 16 5. Covariance and correlation. 16 6. Central limit theorem.. 18 7. P-value. 19 8. Expected value of random variables. 21 9. Conditional probability. 23 10. Bayes’ theorem.. 24 IMPORTANT 5 STATISTICAL CONCEPTS FOR EVERY DATA SCIENTIST.. 25 1. Descriptive statistics. 25 2. Probability distributions. 28 3. Dimensionality reduction. 31 4. Under-sampling and Over-sampling. 32 5. Bayesian statistics. 33 PYTHON STATISTICS MODULE.. 34 Statistics Methods. 34 CHAPTER 2: PROBABILITY.. 35 Python, Random Numbers and Probability. 35 Random Numbers with Python. 36 Random Numbers Satisfying sum-to-one Condition. 40 Generating Random Strings or Passwords with Python. 41 Random Integer Numbers. 42 Random Choices with Python. 45 Random Samples with Python. 48 True Random Numbers. 50 Weighted Random Choices. 52 CHAPTER 3: STANDARD DEVIATION.. 58 Python statistics.stdev() Method. 58 Definition and Usage. 58 Syntax. 59 Parameter Values. 59 Parameter 59 Description. 59 Data. 59 Required. The data values to be used (can be any sequence, list or iterator) 59 Xbar. 59 Optional. The mean of the given data. If omitted (or set to None), the mean is automatically calculated 59 Technical Details. 59 Return Value: 59 CHAPTER 4: BIAS AND VARIANCE.. 60 What are Bias and Variance?. 60 Bias and Variance using Python. 60 CHAPTER 5: DISTANCE METRICS.. 63 Understanding Distance Metrics Used in Machine Learning. 63 We will study: 63 What Are Distance Metrics?. 63 Types of Distance Metrics in Machine Learning. 64 Euclidean Distance. 65 Formula for Euclidean Distance. 66 Manhattan Distance. 68 Formula for Manhattan Distance. 68 Minkowski Distance. 70 Formula for Minkowski Distance. 70 Hamming Distance. 72 Conclusion. 74 Points. 74 CHAPTER 6: OUTLIER ANALYSIS.. 76 Outlier detection is the process of identifying data points that have extreme values compared to the rest of the distribution. Learn three methods of outlier detection in Python. 76 What Is Outlier Detection?. 76 Benefits of Outlier Detection. 76 Methods for Outlier Detection in Python. 77 Prerequisite to Outlier Detection: Reading in Data. 77 Using Box Plots for Outlier Detection. 78 Using Isolation Forests for Outlier Detection. 81 Using OneClassSVM for Outlier Detection. 83 Mastering Outlier Detection. 84 Outlier 85 What are Outliers?. 86 When are outliers dangerous?. 87 Which statistics are affected by the outliers?. 90 When to drop or keep outliers?. 91 Table of Contents. 94 How to Treat Outliers?. 94 Trimming. 94 Capping. 94 Discretization. 94 How to Detect Outliers?. 96 For Normal Distributions. 96 For Skewed Distributions. 96 For Other Distributions. 96 How to Detect and Remove Outliners in Python. 97 Z-score Treatment 97 IQR Based Filtering. 99 Percentile Method. 102 Conclusion. 105 Frequently Asked Questions. 106 CHAPTER 7: MISSNG VALUE TREATMENTS.. 107 How to Handle Missing Data. 107 Why Fill in the Missing Data?. 107 How to Know If the Data Has Missing Values?. 109 Different Methods of Dealing with Missing Data. 111 1. Deleting the column with missing data. 111 2. Deleting the row with missing data. 112 3. Filling the Missing Values – Imputation. 114 4. Other imputation methods. 116 5. Imputation with an additional column. 116 6. Filling with a Regression Model 119 Conclusion. 122 Frequently Asked Questions. 122 Pandas – Replace NaN Values with Zero in a Column. 123 1. Example of Replace NaN with Zero. 123 2. Replace NaN Values with Zero on pandas DataFrame. 124 3. Replace NaN Values with Zero on a Single or Multiple Columns. 125 4. Replace NaN Values with Zeroes Using replace() 126 5. Using DataFrame.replace() on All Columns. 126 6. Complete Example For Replace NaN Values with Zeroes in a Column. 128 CHAPTER 8: CORRELATION.. 130 NumPy, SciPy, and pandas: Correlation With Python. 130 Correlation. 130 Example: NumPy Correlation Calculation. 133 Example: SciPy Correlation Calculation. 135 Example: pandas Correlation Calculation. 136 This page and Next page just for reference. 139 Linear Correlation. 139 Pearson Correlation Coefficient 139 Linear Regression: SciPy Implementation. 142 Pearson Correlation: NumPy and SciPy Implementation. 145 Pearson Correlation: pandas Implementation. 147 Rank Correlation. 152 Rank: SciPy Implementation. 153 Rank Correlation: NumPy and SciPy Implementation. 155 Rank Correlation: pandas Implementation. 157 Visualization of Correlation. 158 X-Y Plots with a Regression Line. 159 Heatmaps of Correlation Matrices. 161 Conclusion. 162 CHAPTER 9: ERROR METRICS (ERROR MEASURES) 164 Mean Squared Error 164 Mean Absolute Error 164 Mean Absolute Percent Error 164 Measuring Regression Errors with Python. 165 Measuring Regression Errors. 165 Six Error Metrics for Measuring Regression Errors. 166 Mean Absolute Error (MAE) 167 Mean Absolute Percentage Error (MAPE) 168 Mean Squared Error (MSE) 168 Median Absolute Error (MedAE) 169 Root Mean Squared Error (RMSE) 170 Median Absolute Percentage Error (MdAPE) 170 Implementing Regression Error Metrics in Python: Time Series Prediction. 171 Step #1 Generate Synthetic Time Series Data. 171 Step #2 Preparing the Data. 172 Step #3 Training a Time Series Regression Model 174 Step #4 Making Test Predictions. 174 Step #5 Calculating the Regression Error Metrics: Implementation and Evaluation. 175 CHAPTER 10: REGRESSION.. 177 Linear Regression. 178 Logistic Regression. 178 Polynomial Regression. 179 Ridge Regression. 179 Lasso Regression. 179 Regression Applications. 180 Difference between Regression and Classification in data mining. 180 Regression. 181 CHAPTER 11: MACHINE LEARNING.. 183 Machine Learning vs. Deep Learning vs. Neural Networks. 183 Machine learning methods. 184 Supervised machine learning. 184 Unsupervised machine learning. 185 Semi-supervised learning. 185 Common machine learning algorithms. 186 Real-world machine learning use cases. 187 Data Structure for Machine Learning. 188 What is Data Structure?. 190 Types of Data Structure. 190 1. Linear Data structure: 191 2. Non-linear Data Structures. 193 Dynamic array data structure: 196 How is Data Structure used in Machine Learning?. 197 Conclusion. 197 SUPERVISED LEARNING.. 198 Supervised Machine Learning. 198 How Supervised Learning Works?. 198 Steps Involved in Supervised Learning: 200 Types of supervised Machine learning Algorithms: 200 1. Regression. 201 2. Classification. 201 Advantages of Supervised learning: 202 Disadvantages of supervised learning: 202 Linear Regression. 202 How does it Work?. 204 R for Relationship. 208 Predict Future Values. 210 Bad Fit?. 211 Logistic Regression. 215 How does it work?. 215 Probability. 217 Function Explained. 217 Results Explained. 219 How to Save a Machine Learning Model 219 Two Ways to Save a Model from scikit-learn: 219 UNSUPERVISED LEARNING.. 225 Unsupervised Machine Learning. 225 Why use Unsupervised Learning?. 227 Working of Unsupervised Learning. 227 Types of Unsupervised Learning Algorithm: 228 Unsupervised Learning algorithms: 229 Advantages of Unsupervised Learning. 229 Disadvantages of Unsupervised Learning. 229 Supervised vs. Unsupervised Learning. 230 Preparing Data for Unsupervised Learning. 231 Clustering. 232 Hierarchical Clustering. 234 Difference between K-Means and Hierarchical clustering. 236 t-SNE Clustering. 237 DBSCAN Clustering. 238 OTHER MACHINE LEARNING (ML) ALGORITHMS.. 240 ABOUT THE AUTHOR.. 241 PYTHON WITH DATA SCIENCE CHAPTER 1: STATISTICS CONCEPTS Data science is an interdisciplinary field. One of the building blocks of data science is statistics. Without a decent level of statistics knowledge, it would be highly difficult to understand or interpret the data. Statistics helps us explain the data. Statistics is used to infer results about a population based on a sample drawn from that population. Furthermore, machine learning and statistics have plenty of overlaps. Statistics concepts helps us to become a data scientist.

PYTHON CU DATA SCIENCE De M.Meenachi Sundaram

PYTHON CU DATA SCIENCE De M.Meenachi Sundaram
Author: MEENACHISUNDARAM.M
Publisher: MEENACHI SUNDARAM
Total Pages: 266
Release: 2024-09-05
Genre: Computers
ISBN:

PYTHON CU DATA SCIENCE De M.Meenachi Sundaram CUPRINS PYTHON CU DATA SCIENCE.. 13 CAPITOLUL 1: CONCEPTE DE STATISTICĂ.. 13 1. Populație și eșantion. 13 2. Distributie normala. 14 3. Măsuri de tendință centrală. 15 4. Varianta si abaterea standard. 16 5. Covarianța și corelația. 16 6. Teorema limitei centrale. 18 7. P-valoarea. 19 8. Valoarea așteptată a variabilelor aleatoare. 21 9. Probabilitate condiționată. 23 10. Teorema lui Bayes. 24 5 CONCEPTE STATISTICE IMPORTANTE PENTRU FIECARE SCIENTIFIC DE DATE 25 1. Statistica descriptivă. 25 2. Distribuții de probabilitate. 27 3. Reducerea dimensionalității 29 4. Sub-eșantionare și Supra-eșantionare. 30 5. Statistica bayesiană. 32 MODUL DE STATISTICA PYTHON.. 33 Metode statistice. 33 CAPITOLUL 2: PROBABILITATE.. 34 Python, numere aleatoare și probabilitate. 34 Numere aleatorii cu Python. 35 Numere aleatorii care satisfac condiția suma la unu. 39 Generarea de șiruri aleatoare sau parole cu Python. 40 Numere întregi aleatorii 41 Alegeri aleatorii cu Python. 45 Mostre aleatorii cu Python. 48 Numere aleatoare adevărate. 50 Alegeri aleatorii ponderate. 53 CAPITOLUL 3: DEVIAREA STANDARD.. 60 Python statistics.stdev() Metoda. 60 Definiție și utilizare. 60 Sintaxă. 60 Valorile parametrilor 61 Parametru. 61 Descriere. 61 Date. 61 Necesar. Valorile datelor care trebuie utilizate (pot fi orice secvență, listă sau iterator) 61 Xbar 61 Opțional. Media datelor date. Dacă este omisă (sau setată la Niciunul), media este calculată automat 61 Detalii tehnice. 61 Valoare returnată: 61 CAPITOLUL 4: PUNEREA ȘI VARIANȚA.. 62 Ce sunt prejudecățile și variațiile?. 62 Prejudecăți și variații folosind Python. 62 CAPITOLUL 5: METRICA DISTANȚEI 66 Înțelegerea valorilor de distanță utilizate în învățarea automată. 66 Vom studia: 66 Ce sunt valorile distanței?. 66 Tipuri de metrici la distanță în învățarea automată. 67 Distanța euclidiană. 68 Formula pentru distanța euclidiană. 69 Distanța Manhattan. 71 Formula pentru distanța Manhattan. 71 Distanța Minkowski 73 Formula pentru Distanța Minkowski 73 Distanța Hamming. 75 Concluzie. 77 Puncte. 77 CAPITOLUL 6: ANALIZA EXTERINĂ.. 79 Detectarea outlierului este procesul de identificare a punctelor de date care au valori extreme în comparație cu restul distribuției. Aflați trei metode de detectare a valorii aberante în Python. 79 Ce este detectarea valorii aberante?. 79 Beneficiile detectării valorii aberante. 79 Metode pentru detectarea valorii aberante în Python. 80 Condiție preliminară pentru detectarea valorii aberante: citirea datelor 80 Utilizarea diagramelor cu case pentru detectarea valorii aberante. 81 Utilizarea pădurilor de izolare pentru detectarea valorii aberante. 84 Utilizarea OneClassSVM pentru detectarea valorii aberante. 86 Stăpânirea detectării valorii aberante. 87 Outlier 88 Ce sunt Outliers?. 89 Când sunt periculoase valorile aberante?. 90 Ce statistici sunt afectate de valori aberante?. 93 Când să renunțați sau să păstrați valorile aberante?. 94 Cuprins. 96 Cum să tratăm valorile aberante?. 96 Tunderea. 96 Plafonare. 96 Discretizarea. 98 Pentru distribuții normale. 98 Pentru distribuții înclinate. 98 Pentru alte distribuții 98 Cum să detectați și să eliminați contururile în Python. 99 Tratament cu scorul Z.. 99 Filtrare bazată pe IQR.. 102 Metoda percentilei 105 Concluzie. 109 Întrebări frecvente. 110 CAPITOLUL 7: TRATAMENTE DE VALOARE LIPSĂ.. 112 Cum să gestionați datele lipsă. 112 De ce completați datele lipsă?. 112 Cum să știți dacă datele au valori lipsă?. 114 Diferite metode de tratare a datelor lipsă. 116 1. Ștergerea coloanei cu date lipsă. 117 2. Ștergerea rândului cu date lipsă. 119 3. Completarea valorilor lipsă – Imputare. 121 4. Alte metode de imputare. 124 5. Imputarea cu o coloană suplimentară. 125 6. Completarea cu un model de regresie. 127 Concluzie. 130 Întrebări frecvente. 130 Pandas – Înlocuiți valorile NaN cu zero într-o coloană. 131 1. Exemplu de înlocuire NaN cu zero. 131 2. Înlocuiți valorile NaN cu zero pe panda DataFrame. 133 3. Înlocuiți valorile NaN cu zero pe o singură sau mai multe coloane. 133 4. Înlocuiți valorile NaN cu zerouri utilizând replace() 134 5. Folosind DataFrame.replace() pe Toate Coloanele. 135 6. Exemplu complet de înlocuire a valorilor NaN cu zerouri într-o coloană. 136 CAPITOLUL 8: CORELARE.. 138 NumPy, SciPy și panda: corelație cu Python. 138 Corelaţie. 138 Exemplu: calculul corelației NumPy. 141 Exemplu: calculul corelației SciPy. 144 Exemplu: calculul corelației panda. 146 Această pagină și Pagina următoare sunt doar pentru referință. 148 Corelație liniară. 148 Coeficientul de corelație Pearson. 148 Regresia liniară: Implementarea SciPy. 150 Corelația Pearson: Implementarea NumPy și SciPy. 154 Corelația Pearson: implementarea panda. 156 Corelația rangului 161 Rang: Implementare SciPy. 163 Corelație de rang: Implementarea NumPy și SciPy. 164 Corelația rangului: implementarea panda. 168 Vizualizarea corelației 170 Grafice XY cu o linie de regresie. 171 Hărți termice ale matricelor de corelație. 173 Concluzie. 175 CAPITOLUL 9: METRICA DE EROARE (MĂSURI DE EROARE) 176 Eroare medie pătratică. 176 Eroare absolută medie. 176 Eroare procentuală medie absolută. 176 Măsurarea erorilor de regresie cu Python. 177 Măsurarea erorilor de regresie. 177 Șase valori de eroare pentru măsurarea erorilor de regresie. 179 Eroare absolută medie (MAE) 179 Eroare procentuală medie absolută (MAPE) 180 Eroare medie pătratică (MSE) 180 Eroare absolută mediană (MedAE) 181 Root Mean Squared Error (RMSE) 182 Eroare procentuală absolută mediană (MdAPE) 182 Implementarea parametrilor de eroare de regresie în Python: Predicția seriei temporale. 183 Pasul #1 Generați date sintetice din seria temporală. 183 CAPITOLUL 10: REGRESIE.. 190 Regresia liniară. 191 Regresia logistică. 191 Regresia polinomială. 192 Regresia crestei 192 Regresia Lasso. 194 Aplicații de regresie. 194 Diferența dintre regresie și clasificare în data mining. 194 Regresia. 196 CAPITOLUL 11: ÎNVĂȚAREA MAȘINĂ.. 197 Machine Learning vs. Deep Learning vs. Neural Networks. 197 Metode de învățare automată. 198 Învățare automată supravegheată. 199 Învățare automată nesupravegheată. 199 Învățare semi-supravegheată. 200 Algoritmi comuni de învățare automată. 200 Cazuri de utilizare a învățării automate din lumea reală. 201 Structura de date pentru învățarea automată. 202 Ce este structura datelor?. 202 Tipuri de structură de date. 203 1. Structura liniară a datelor: 203 2. Structuri de date neliniare. 206 Structura de date matrice dinamică: 209 Cum este utilizată structura de date în Machine Learning?. 210 Concluzie. 210 ÎNVĂȚARE SUPRAVEGHATĂ.. 212 Învățare automată supravegheată. 212 Cum funcționează învățarea supravegheată?. 212 Pași implicați în învățarea supravegheată: 213 Tipuri de algoritmi de învățare automată supravegheați: 214 1. Regresia. 214 2. Clasificare. 215 Avantajele învățării supravegheate: 216 Dezavantajele învățării supravegheate: 216 Regresia liniară. 216 Cum funcționează?. 217 R pentru Relație. 226 Preziceți valorile viitoare. 227 Potrivire proastă?. 228 Regresia logistică. 232 Cum funcționează?. 233 Probabilitate. 236 Funcția explicată. 236 Rezultate explicate. 239 Cum să salvați un model de învățare automată. 239 Două moduri de a salva un model din scikit-learn: 240 ÎNVĂȚARE NESUPRAVEGHATĂ.. 246 Învățare automată nesupravegheată. 246 De ce să folosiți învățarea nesupravegheată?. 247 Funcționarea învățării nesupravegheate. 247 Tipuri de algoritm de învățare nesupravegheat: 248 Algoritmi de învățare nesupravegheată: 249 Avantajele învățării nesupravegheate. 250 Dezavantajele învățării nesupravegheate. 250 Învățare supravegheată vs. nesupravegheată. 251 Pregătirea datelor pentru învățarea nesupravegheată. 252 Clustering. 254 Clustering ierarhic. 256 Diferența dintre K-Means și clustering ierarhic. 259 Clustering t-SNE.. 259 Clustering DBSCAN.. 261 ALȚI ALGORITMI DE ÎNVĂȚAREA MAȘINĂ (ML). 264 DESPRE AUTOR.. 265 PYTHON CU DATA SCIENCE CAPITOLUL 1: CONCEPTE DE STATISTICĂ Știința datelor este un domeniu interdisciplinar. Unul dintre elementele de bază ale științei datelor este statistica. Fără un nivel decent de cunoștințe statistice, ar fi foarte dificil de înțeles sau interpretat datele. Statisticile ne ajută să explicăm datele. Statistica este utilizată pentru a deduce rezultate despre o populație pe baza unui eșantion extras din acea populație. În plus, învățarea automată și statisticile au o mulțime de suprapuneri. Conceptele statistice ne ajută să devenim un om de știință a datelor. Capitolul de mai jos prezintă 10 concepte statistice fundamentale. 1. Populație și eșantion Populația reprezintă toate elementele dintr-un grup. De exemplu, i) studenții din India sunt o populație care include toți studenții din India. ii) Oamenii de 30 de ani din India sunt o populație care include toate persoanele care se potrivesc descrierii. Nu este întotdeauna fezabil sau posibil să se facă analize asupra populației deoarece nu se pot colecta toate datele unei populații. Prin urmare, se folosesc mostre. Eșantionul este un subset al unei populații. De exemplu, 1000 de studenți din India reprezintă un subset al populației „studenti din India”.