Description
The second edition of Deep Learning Interviews is home to hundreds of fully-solved problems, from a wide range of key topics in AI. It is designed to both rehearse interview or exam specific topics and provide machine learning MSc / PhD. students, and those awaiting an interview a well-organized overview of the field. The problems it poses are tough enough to cut your teeth on and to dramatically improve your skills-but they’re framed within thought-provoking questions and engaging stories. That is what makes the volume so specifically valuable to students and job seekers: it provides them with the ability to speak confidently and quickly on any relevant topic, to answer technical questions clearly and correctly, and to fully understand the purpose and meaning of interview questions and answers. Those are powerful, indispensable advantages to have when walking into the interview room. The book’s contents is a large inventory of numerous topics relevant to DL job interviews and graduate level exams. That places this work at the forefront of the growing trend in science to teach a core set of practical mathematical and computational skills. It is widely accepted that the training of every computer scientist must include the fundamental theorems of ML, and AI appears in the curriculum of nearly every university. This volume is designed as an excellent reference for graduates of such programs.
Contents
I Rusty Nail 1
HOW-TO USE THIS BOOK 3
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
What makes this book so valuable . . . . . . . . . . . . . . . . . . . . . . 3
What will I learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
How to Work Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Types of Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
II Kindergarten 9
LOGISTIC REGRESSION 11
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
General Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Odds, Log-odds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
The Sigmoid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Truly Understanding Logistic Regression . . . . . . . . . . . . . . . . . . 16
The Logit Function and Entropy . . . . . . . . . . . . . . . . . . . . . . . 22
Python/PyTorch/CPP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
PROBABILISTIC PROGRAMMING & BAYESIAN DL 41
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Expectation and Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Conditional Probability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Bayes Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Maximum Likelihood Estimation . . . . . . . . . . . . . . . . . . . . . . . 51
Fisher Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Posterior & prior predictive distributions . . . . . . . . . . . . . . . . . . 54
Conjugate priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Bayesian Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
III High School 83
INFORMATION THEORY 85
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Logarithms in Information Theory . . . . . . . . . . . . . . . . . . . . . . 87
Shannon’s Entropy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Kullback-Leibler Divergence (KLD) . . . . . . . . . . . . . . . . . . . . . . 93
Classification and Information Gain . . . . . . . . . . . . . . . . . . . . . 94
Mutual Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Mechanical Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Jensen’s inequality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
DEEP LEARNING: CALCULUS, ALGORITHMIC DIFFERENTIATION 121
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
AD, Gradient descent & Backpropagation . . . . . . . . . . . . . . . . . . 124
Numerical differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Directed Acyclic Graphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
The chain rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Taylor series expansion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Limits and continuity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Partial derivatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
The Gradient descent algorithm . . . . . . . . . . . . . . . . . . . . . . . . 132
The Backpropagation algorithm . . . . . . . . . . . . . . . . . . . . . . . . 134
Feed forward neural networks . . . . . . . . . . . . . . . . . . . . . . . . 135
Activation functions, Autograd/JAX . . . . . . . . . . . . . . . . . . . . . 136
Dual numbers in AD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Forward mode AD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Forward mode AD table construction . . . . . . . . . . . . . . . . . . . . 142
Symbolic differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Simple differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
The Beta-Binomial model . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
DEEP LEARNING: NN ENSEMBLES 185
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Bagging, Boosting and Stacking . . . . . . . . . . . . . . . . . . . . . . . . 186
Approaches for Combining Predictors . . . . . . . . . . . . . . . . . . . . 190
Monolithic and Heterogeneous Ensembling . . . . . . . . . . . . . . . . . 191
Ensemble Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Snapshot Ensembling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Multi-model Ensembling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Learning-rate Schedules in Ensembling . . . . . . . . . . . . . . . . . . . 197
Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
DEEP LEARNING: CNN FEATURE EXTRACTION 205
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
CNN as Fixed Feature Extractor . . . . . . . . . . . . . . . . . . . . . . . . 206
Fine-tuning CNNs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Neural style transfer, NST . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
DEEP LEARNING 227
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Cross Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Convolution and correlation . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Similarity measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
Activation functions (rectification) . . . . . . . . . . . . . . . . . . . . . . 253
Performance Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
NN Layers, topologies, blocks . . . . . . . . . . . . . . . . . . . . . . . . . 263
Training, hyperparameters . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
Optimization, Loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
Solutions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
V Practice Exam 339
JOB INTERVIEW MOCK EXAM 341
Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
Perceptrons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
CNN layers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
Classification, Logistic regression . . . . . . . . . . . . . . . . . . . . . . . 345
Information theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
Feature extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
Bayesian deep learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
VI Volume two 357
VOLUME TWO – PLAN 359
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
AI system design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Advanced CNN topologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
1D CNN’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
3D CNN’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Data augmentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Object detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Object segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Semantic segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Instance segmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Image classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Image captioning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
GANs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Adversarial attacks and defences . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Variational auto encoders . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
FCN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Seq2Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Monte carlo, ELBO, Re-parametrization . . . . . . . . . . . . . . . . . . . . . . 361
Text to speech . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Speech to text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
CRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Quantum computing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
RL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
xvi
Reviews
There are no reviews yet.