Full Download Introduction To Algorithms For Data Mining and Machine Learning Yang PDF

Download as pdf or txt
Download as pdf or txt
You are on page 1of 64

Full download test bank at ebook ebookmass.

com

Introduction to algorithms for data


mining and machine learning Yang

CLICK LINK TO DOWLOAD

https://ebookmass.com/product/introduction-
to-algorithms-for-data-mining-and-machine-
learning-yang/

ebookmass.com
More products digital (pdf, epub, mobi) instant
download maybe you interests ...

Introduction to Algorithms for Data Mining and Machine


Learning Xin-She Yang

https://ebookmass.com/product/introduction-to-algorithms-for-
data-mining-and-machine-learning-xin-she-yang/

Fundamentals of Machine Learning for Predictive Data


Analytics: Algorithms,

https://ebookmass.com/product/fundamentals-of-machine-learning-
for-predictive-data-analytics-algorithms/

Machine Learning for Signal Processing: Data Science,


Algorithms, and Computational Statistics Max A. Little

https://ebookmass.com/product/machine-learning-for-signal-
processing-data-science-algorithms-and-computational-statistics-
max-a-little/

BIG DATA ANALYTICS: Introduction to Hadoop, Spark, and


Machine-Learning Raj Kamal

https://ebookmass.com/product/big-data-analytics-introduction-to-
hadoop-spark-and-machine-learning-raj-kamal/
Machine Learning for Biometrics: Concepts, Algorithms
and Applications (Cognitive Data Science in Sustainable
Computing) Partha Pratim Sarangi

https://ebookmass.com/product/machine-learning-for-biometrics-
concepts-algorithms-and-applications-cognitive-data-science-in-
sustainable-computing-partha-pratim-sarangi/

Machine Learning Algorithms for Signal and Image


Processing Suman Lata Tripathi

https://ebookmass.com/product/machine-learning-algorithms-for-
signal-and-image-processing-suman-lata-tripathi/

Learn Data Mining Through Excel: A Step-by-Step


Approach for Understanding Machine Learning Methods,
2nd Edition Hong Zhou

https://ebookmass.com/product/learn-data-mining-through-excel-a-
step-by-step-approach-for-understanding-machine-learning-
methods-2nd-edition-hong-zhou/

Absolute Beginner’s Guide to Algorithms: A Practical


Introduction to Data Structures and Algorithms in
JavaScript (for True Epub) Kirupa Chinnathambi

https://ebookmass.com/product/absolute-beginners-guide-to-
algorithms-a-practical-introduction-to-data-structures-and-
algorithms-in-javascript-for-true-epub-kirupa-chinnathambi/

Absolute Beginner's Guide to Algorithms: A Practical


Introduction to Data Structures and Algorithms in
JavaScript Kirupa Chinnathambi

https://ebookmass.com/product/absolute-beginners-guide-to-
algorithms-a-practical-introduction-to-data-structures-and-
algorithms-in-javascript-kirupa-chinnathambi/
Introduction to Algorithms for Data Mining and
Machine Learning
Introduction to
Algorithms for Data
Mining and Machine
Learning

Xin-She Yang
Middlesex University
School of Science and Technology
London, United Kingdom
Academic Press is an imprint of Elsevier
125 London Wall, London EC2Y 5AS, United Kingdom
525 B Street, Suite 1650, San Diego, CA 92101, United States
50 Hampshire Street, 5th Floor, Cambridge, MA 02139, United States
The Boulevard, Langford Lane, Kidlington, Oxford OX5 1GB, United Kingdom
Copyright © 2019 Elsevier Inc. All rights reserved.
No part of this publication may be reproduced or transmitted in any form or by any means, electronic or
mechanical, including photocopying, recording, or any information storage and retrieval system, without
permission in writing from the publisher. Details on how to seek permission, further information about the
Publisher’s permissions policies and our arrangements with organizations such as the Copyright Clearance Center
and the Copyright Licensing Agency, can be found at our website: www.elsevier.com/permissions.
This book and the individual contributions contained in it are protected under copyright by the Publisher (other
than as may be noted herein).
Notices
Knowledge and best practice in this field are constantly changing. As new research and experience broaden our
understanding, changes in research methods, professional practices, or medical treatment may become necessary.
Practitioners and researchers must always rely on their own experience and knowledge in evaluating and using
any information, methods, compounds, or experiments described herein. In using such information or methods
they should be mindful of their own safety and the safety of others, including parties for whom they have a
professional responsibility.
To the fullest extent of the law, neither the Publisher nor the authors, contributors, or editors, assume any liability
for any injury and/or damage to persons or property as a matter of products liability, negligence or otherwise, or
from any use or operation of any methods, products, instructions, or ideas contained in the material herein.

Library of Congress Cataloging-in-Publication Data


A catalog record for this book is available from the Library of Congress

British Library Cataloguing-in-Publication Data


A catalogue record for this book is available from the British Library

ISBN: 978-0-12-817216-2

For information on all Academic Press publications


visit our website at https://www.elsevier.com/books-and-journals

Publisher: Candice Janco


Acquisition Editor: J. Scott Bentley
Editorial Project Manager: Michael Lutz
Production Project Manager: Nilesh Kumar Shah
Designer: Miles Hitchen
Typeset by VTeX
About the author

Xin-She Yang obtained his PhD in Applied Mathematics from the University of Ox-
ford. He then worked at Cambridge University and National Physical Laboratory (UK)
as a Senior Research Scientist. Now he is Reader at Middlesex University London, and
an elected Bye-Fellow at Cambridge University.
He is also the IEEE Computer Intelligence Society (CIS) Chair for the Task Force
on Business Intelligence and Knowledge Management, Director of the International
Consortium for Optimization and Modelling in Science and Industry (iCOMSI), and
an Editor of Springer’s Book Series Springer Tracts in Nature-Inspired Computing
(STNIC).
With more than 20 years of research and teaching experience, he has authored
10 books and edited more than 15 books. He published more than 200 research pa-
pers in international peer-reviewed journals and conference proceedings with more
than 36 800 citations. He has been on the prestigious lists of Clarivate Analytics and
Web of Science highly cited researchers in 2016, 2017, and 2018. He serves on the
Editorial Boards of many international journals including International Journal of
Bio-Inspired Computation, Elsevier’s Journal of Computational Science (JoCS), In-
ternational Journal of Parallel, Emergent and Distributed Systems, and International
Journal of Computer Mathematics. He is also the Editor-in-Chief of the International
Journal of Mathematical Modelling and Numerical Optimisation.
Preface

Both data mining and machine learning are becoming popular subjects for university
courses and industrial applications. This popularity is partly driven by the Internet and
social media because they generate a huge amount of data every day, and the under-
standing of such big data requires sophisticated data mining techniques. In addition,
many applications such as facial recognition and robotics have extensively used ma-
chine learning algorithms, leading to the increasing popularity of artificial intelligence.
From a more general perspective, both data mining and machine learning are closely
related to optimization. After all, in many applications, we have to minimize costs,
errors, energy consumption, and environment impact and to maximize sustainabil-
ity, productivity, and efficiency. Many problems in data mining and machine learning
are usually formulated as optimization problems so that they can be solved by opti-
mization algorithms. Therefore, optimization techniques are closely related to many
techniques in data mining and machine learning.
Courses on data mining, machine learning, and optimization are often compulsory
for students, studying computer science, management science, engineering design, op-
erations research, data science, finance, and economics. All students have to develop
a certain level of data modeling skills so that they can process and interpret data for
classification, clustering, curve-fitting, and predictions. They should also be familiar
with machine learning techniques that are closely related to data mining so as to carry
out problem solving in many real-world applications. This book provides an introduc-
tion to all the major topics for such courses, covering the essential ideas of all key
algorithms and techniques for data mining, machine learning, and optimization.
Though there are over a dozen good books on such topics, most of these books are
either too specialized with specific readership or too lengthy (often over 500 pages).
This book fills in the gap with a compact and concise approach by focusing on the key
concepts, algorithms, and techniques at an introductory level. The main approach of
this book is informal, theorem-free, and practical. By using an informal approach all
fundamental topics required for data mining and machine learning are covered, and
the readers can gain such basic knowledge of all important algorithms with a focus
on their key ideas, without worrying about any tedious, rigorous mathematical proofs.
In addition, the practical approach provides about 30 worked examples in this book
so that the readers can see how each step of the algorithms and techniques works.
Thus, the readers can build their understanding and confidence gradually and in a
step-by-step manner. Furthermore, with the minimal requirements of basic high school
mathematics and some basic calculus, such an informal and practical style can also
enable the readers to learn the contents by self-study and at their own pace.
This book is suitable for undergraduates and graduates to rapidly develop all the
fundamental knowledge of data mining, machine learning, and optimization. It can
xii Preface

also be used by students and researchers as a reference to review and refresh their
knowledge in data mining, machine learning, optimization, computer science, and data
science.

Xin-She Yang
January 2019 in London
Acknowledgments

I would like to thank all my students and colleagues who have given valuable feedback
and comments on some of the contents and examples of this book. I also would like to
thank my editors, J. Scott Bentley and Michael Lutz, and the staff at Elsevier for their
professionalism. Last but not least, I thank my family for all the help and support.

Xin-She Yang
January 2019
Introduction to optimization
Contents
1.1 Algorithms
1 1
1.1.1 Essence of an algorithm 1
1.1.2 Issues with algorithms 3
1.1.3 Types of algorithms 3
1.2 Optimization 4
1.2.1 A simple example 4
1.2.2 General formulation of optimization 7
1.2.3 Feasible solution 9
1.2.4 Optimality criteria 10
1.3 Unconstrained optimization 10
1.3.1 Univariate functions 11
1.3.2 Multivariate functions 12
1.4 Nonlinear constrained optimization 14
1.4.1 Penalty method 15
1.4.2 Lagrange multipliers 16
1.4.3 Karush–Kuhn–Tucker conditions 17
1.5 Notes on software 18

This book introduces the most fundamentals and algorithms related to optimization,
data mining, and machine learning. The main requirement is some understanding of
high-school mathematics and basic calculus; however, we will review and introduce
some of the mathematical foundations in the first two chapters.

1.1 Algorithms
An algorithm is an iterative, step-by-step procedure for computation. The detailed
procedure can be a simple description, an equation, or a series of descriptions in
combination with equations. Finding the roots of a polynomial, checking if a natu-
ral number is a prime number, and generating random numbers are all algorithms.

1.1.1 Essence of an algorithm


In essence, an algorithm can be written as an iterative equation or a set of iterative
equations. For example, to find a square root of a > 0, we can use the following
iterative equation:
1 a
xk+1 = xk + , (1.1)
2 xk
where k is the iteration counter (k = 0, 1, 2, . . . ) starting with a random guess x0 = 1.
Introduction to Algorithms for Data Mining and Machine Learning. https://doi.org/10.1016/B978-0-12-817216-2.00008-9
Copyright © 2019 Elsevier Inc. All rights reserved.
2 Introduction to Algorithms for Data Mining and Machine Learning

Example 1
As an example, if x0 = 1 and a = 4, then we have

1 4
x1 = (1 + ) = 2.5. (1.2)
2 1

Similarly, we have

1 4 1 4
x2 = (2.5 + ) = 2.05, x3 = (2.05 + ) ≈ 2.0061, (1.3)
2 2.5 2 2.05
x4 ≈ 2.00000927, (1.4)

which is very close to the true value of 4 = 2. The accuracy of this iterative formula or algorithm
is high because it achieves the accuracy of five decimal places after four iterations.

The convergence is very quick if we start from different initial values such as
x0 = 10 and even x0 = 100. However, for an obvious reason, we cannot start with
x0 = 0 due to division by
√zero.
Find the root of x = a is equivalent to solving the equation

f (x) = x 2 − a = 0, (1.5)

which is again equivalent to finding the roots of a polynomial f (x). We know that
Newton’s root-finding algorithm can be written as

f (xk )
xk+1 = xk − , (1.6)
f  (xk )

where f  (x) is the first derivative or gradient of f (x). In this case, we have
f  (x) = 2x. Thus, Newton’s formula becomes

(xk2 − a)
xk+1 = xk − , (1.7)
2xk

which can be written as


xk a 1 a
xk+1 = (xk − )+ = xk + ). (1.8)
2 2xk 2 xk

This is exactly what we have in Eq. (1.1).


Newton’s method has rigorous mathematical foundations, which has a guaranteed
convergence under certain conditions. However, in general, Eq. (1.6) is more general,
and the gradient information f  (x) is needed. In addition, for the formula to be valid,
we must have f  (x) = 0.
Introduction to optimization 3

1.1.2 Issues with algorithms


The advantage of the algorithm given in Eq. (1.1) is that√it converges very quickly.
However, careful readers may have asked: we know that 4 = ±2, how can we find
the other root −2 in addition to +2?
Even if we use different initial value x0 = 10 or x0 = 0.5, we can only reach x∗ = 2,
not −2.
What happens if we start with x0 < 0? From x0 = −1, we have
1 4 1 4
x1 = (−1 + ) = −2.5, x 2 = (−2.5 + ) = −2.05, (1.9)
2 −1 2 −2.5
x3 ≈ −2.0061, x4 ≈ −2.00000927, (1.10)
which is approaching −2 very quickly. If we start from x0 = −10 or x0 = −0.5, then
we can always get x∗ = −2, not +2.
This highlights a key issue here: the final solution seems to depend on the initial
starting point for this algorithm, which is true for many algorithms.
Now the relevant question is: how do we know where to start to get a particular
solution? The general short answer is “we do not know”. Thus, some knowledge of
the problem under consideration or an educated guess may be useful to find the final
solution.
In fact, most algorithms may depend on the initial configuration, and such algo-
rithms are often carrying out search moves locally. Thus, this type of algorithm is
often referred to as local search. A good algorithm should be able to “forget” its initial
configuration though such algorithms may not exist at all for most types of problems.
What we need in general is the global search, which attempts to find final solutions
that are less sensitive to the initial starting point(s).
Another important issue in our discussions is that the gradient information f  (x) is
necessary for some algorithms such as Newton’s method given in Eq. (1.6). This poses
certain requirements on the smoothness of the function f (x). For example, we know
that |x| is not differentiable at x = 0. Thus, we cannot directly use Newton’s method
to find the roots of f (x) = |x|x 2 − a = 0 for a > 0. Some modifications are needed.
There are other issues related to algorithms such as the setting of parameters, the
slow rate of convergence, condition numbers, and iteration structures. All these make
algorithm designs and usage somehow challenging, and we will discuss these issues
in more detail later in this book.

1.1.3 Types of algorithms


An algorithm can only do a specific computation task (at most a class of computational
tasks), and no algorithms can do all the tasks. Thus, algorithms can be classified due
to their purposes. An algorithm to find roots of a polynomial belongs to root-finding
algorithms, whereas an algorithm for ranking a set of numbers belongs to sorting
algorithms. There are many classes of algorithms for different purposes. Even for the
same purpose such as sorting, there are many different algorithms such as the merge
sort, bubble sort, quicksort, and others.
4 Introduction to Algorithms for Data Mining and Machine Learning

We can also categorize algorithms in terms of their characteristics. The root-finding


algorithms we just introduced are deterministic algorithms because the final solutions
are exactly the same if we start from the same initial guess. We obtain the same set of
solutions every time we run the algorithm. On the other hand, we may introduce some
randomization into the algorithm, for example, using purely random initial points.
Every time we run the algorithm, we use a new random initial guess. In this case, the
algorithm can have some nondeterministic nature, and such algorithms are referred
to as stochastic.√Sometimes, using randomness may be advantageous. For example, in
the example of 4 = ±2 using Eq. (1.1), random initial values (both positive and neg-
ative) can allow the algorithm to find both roots. In fact, a major trend in the modern
metaheuristics is using some randomization to suit different purposes.
For algorithms to be introduced in this book, we are mainly concerned with al-
gorithms for data mining, optimization, and machine learning. We use a relatively
unified approach to link algorithms in data mining and machine learning to algorithms
for optimization.

1.2 Optimization

Optimization is everywhere, from engineering design to business planning. After all,


time and resources are limited, and optimal use of such valuable resources is crucial.
In addition, designs of products have to maximize the performance, sustainability, and
energy efficiency and to minimize the costs. Therefore, optimization is important for
many applications.

1.2.1 A simple example


Let us start with a very simple example to design a container with volume capacity
V0 = 10 m3 . As the main cost is related to the cost of materials, the main aim is to
minimize the total surface area S.
The first thing we have to decide is the shape of the container (cylinder, cubic,
sphere or ellipsoid, or more complex geometry). For simplicity, let us start with a
cylindrical shape with radius r and height h (see Fig. 1.1).
The total surface area of a cylinder is

S = 2(πr 2 ) + 2πrh, (1.11)

and the volume is

V = πr 2 h. (1.12)

There are only two design variables r and h and one objective function S to be min-
imized. Obviously, if there is no capacity constraint, then we can choose not to build
the container, and then the cost of materials is zero for r = 0 and h = 0. However,
Introduction to optimization 5

Figure 1.1 Design of a cylindric container.

the constraint requirement means that we have to build a container with fixed volume
V0 = πr 2 h = 10 m3 . Therefore, this optimization problem can be written as

minimize S = 2πr 2 + 2πrh, (1.13)

subject to the equality constraint

πr 2 h = V0 = 10. (1.14)

To solve this problem, we can first try to use the equality constraint to reduce the
number of design variables by solving h. So we have
V0
h= . (1.15)
πr 2
Substituting it into (1.13), we get

S = 2πr 2 + 2πrh
V0 2V0
= 2πr 2 + 2πr 2 = 2πr 2 + . (1.16)
πr r
This is a univariate function. From basic calculus we know that the minimum or max-
imum can occur at the stationary point, where the first derivative is zero, that is,
dS 2V0
= 4πr − 2 = 0, (1.17)
dr r
which gives

V0 3 V0
r3 = , or r = . (1.18)
2π 2π
Thus, the height is

h V0 /(πr 2 ) V0
= = 3 = 2. (1.19)
r r πr
6 Introduction to Algorithms for Data Mining and Machine Learning

This means that the height is twice the radius: h = 2r. Thus, the minimum surface is

S∗ = 2πr 2 + 2πrh = 2πr 2 + 2πr(2r) = 6πr 2


 V 2/3 6π
0 2/3
= 6π =√3
V0 . (1.20)
2π 4π 2

For V0 = 10, we have


 
3 V0 3 10
r= = ≈ 1.1675, h = 2r = 2.335,
(2π) 2π

and the total surface area

S∗ = 2πr 2 + 2πrh ≈ 25.69.

It is worth pointing out that this optimal solution is based on the assumption or re-
quirement to design a cylindrical container. If we decide to use a sphere with radius R,
we know that its volume and surface area is
4π 3
V0 = R , S = 4πR 2 . (1.21)
3
We can solve R directly

3V0 3 3V0
R =
3
, or R = , (1.22)
4π 4π
which gives the surface area
 3V 2/3 √
0 4π 3 9 2/3
S = 4π =√ 3
V0 . (1.23)
4π 16π 2
√3 √ √ 3
Since 6π/ 4π 2 ≈ 5.5358 and 4π 3 9/ 16π 2 ≈ 4.83598, we have S < S∗ , that is, the
surface area of a sphere is smaller than the minimum surface area of a cylinder with
the same volume. In fact, for the same V0 = 10, we have

4π 3 9 2/3
S(sphere) = √ 3
V0 ≈ 22.47, (1.24)
16π 2
which is smaller than S∗ = 25.69 for a cylinder.
This highlights the importance of the choice of design type (here in terms of shape)
before we can do any truly useful optimization. Obviously, there are many other fac-
tors that can influence the choice of design, including the manufacturability of the
design, stability of the structure, ease of installation, space availability, and so on. For
a container, in most applications, a cylinder may be much easier to produce than a
sphere, and thus the overall cost may be lower in practice. Though there are so many
factors to be considered in engineering design, for the purpose of optimization, here
we will only focus on the improvement and optimization of a design with well-posed
mathematical formulations.
Introduction to optimization 7

1.2.2 General formulation of optimization


Whatever the real-world applications may be, it is usually possible to formulate an
optimization problem in a generic form [49,53,160]. All optimization problems with
explicit objectives can in general be expressed as a nonlinearly constrained optimiza-
tion problem

maximize/minimize f (x), x = (x1 , x2 , . . . , xD )T ∈ RD ,


subject to φj (x) = 0 (j = 1, 2, . . . , M),
ψk (x) ≤ 0 (k = 1, . . . , N), (1.25)

where f (x), φj (x), and ψk (x) are scalar functions of the design vector x. Here the
components xi of x = (x1 , . . . , xD )T are called design or decision variables, and they
can be either continuous, discrete, or a mixture of these two. The vector x is often
called the decision vector, which varies in a D-dimensional space RD .
It is worth pointing out that we use a column vector here for x (thus with trans-
pose T ). We can also use a row vector x = (x1 , . . . , xD ) and the results will be the
same. Different textbooks may use slightly different formulations. Once we are aware
of such minor variations, it should cause no difficulty or confusion.
In addition, the function f (x) is called the objective function or cost function,
φj (x) are constraints in terms of M equalities, and ψk (x) are constraints written as
N inequalities. So there are M + N constraints in total. The optimization problem
formulated here is a nonlinear constrained problem. Here the inequalities ψk (x) ≤ 0
are written as “less than”, and they can also be written as “greater than” via a simple
transformation by multiplying both sides by −1.
The space spanned by the decision variables is called the search space RD , whereas
the space formed by the values of the objective function is called the objective or
response space, and sometimes the landscape. The optimization problem essentially
maps the domain RD or the space of decision variables into the solution space R (or
the real axis in general).
The objective function f (x) can be either linear or nonlinear. If the constraints φj
and ψk are all linear, it becomes a linearly constrained problem. Furthermore, when
φj , ψk , and the objective function f (x) are all linear, then it becomes a linear pro-
gramming problem [35]. If the objective is at most quadratic with linear constraints,
then it is called a quadratic programming problem. If all the values of the decision
variables can be only integers, then this type of linear programming is called integer
programming or integer linear programming.
On the other hand, if no constraints are specified and thus xi can take any values
in the real axis (or any integers), then the optimization problem is referred to as an
unconstrained optimization problem.
As a very simple example of optimization problems without any constraints, we
discuss the search of the maxima or minima of a univariate function.
8 Introduction to Algorithms for Data Mining and Machine Learning

2
Figure 1.2 A simple multimodal function f (x) = x 2 e−x .

Example 2
For example, to find the maximum of a univariate function f (x)

f (x) = x 2 e−x ,
2
−∞ < x < ∞, (1.26)

is a simple unconstrained problem, whereas the following problem is a simple constrained mini-
mization problem:

f (x1 , x2 ) = x12 + x1 x2 + x22 , (x1 , x2 ) ∈ R2 , (1.27)

subject to

x1 ≥ 1, x2 − 2 = 0. (1.28)

It is worth pointing out that the objectives are explicitly known in all the optimiza-
tion problems to be discussed in this book. However, in reality, it is often difficult to
quantify what we want to achieve, but we still try to optimize certain things such as the
degree of enjoyment or service quality on holiday. In other cases, it may be impossible
to write the objective function in any explicit form mathematically.
From basic calculus we know that, for a given curve described by f (x), its gradient
f  (x) describes the rate of change. When f  (x) = 0, the curve has a horizontal tangent
at that particular point. This means that it becomes a point of special interest. In fact,
the maximum or minimum of a curve occurs at
f  (x∗ ) = 0, (1.29)

which is a critical condition or stationary condition. The solution x∗ to this equation


corresponds to a stationary point, and there may be multiple stationary points for a
given curve.
To see if it is a maximum or minimum at x = x∗ , we have to use the information of
its second derivative f  (x). In fact, f  (x∗ ) > 0 corresponds to a minimum, whereas
f  (x∗ ) < 0 corresponds to a maximum. Let us see a concrete example.

Example 3
To find the minimum of f (x) = x 2 e−x (see Fig. 1.2), we have the stationary condition
2

f  (x) = 0 or

f  (x) = 2x × e−x + x 2 × (−2x)e−x = 2(x − x 3 )e−x = 0.


2 2 2
Introduction to optimization 9

Figure 1.3 (a) Feasible domain with nonlinear inequality constraints ψ1 (x) and ψ2 (x) (left) and linear
inequality constraint ψ3 (x). (b) An example with an objective of f (x) = x 2 subject to x ≥ 2 (right).

As e−x > 0, we have


2

x(1 − x 2 ) = 0, or x = 0 and x = ±1.

The second derivative is given by

f  (x) = 2e−x (1 − 5x 2 + 2x 4 ),
2

which is an even function with respect to x.


So at x = ±1, f  (±1) = 2[1 − 5(±1)2 + 2(±1)4 ]e−(±1) = −4e−1 < 0. Thus, there are
2

two maxima that occur at x∗ = ±1 with fmax = e−1 . At x = 0, we have f  (0) = 2 > 0, thus
the minimum of f (x) occurs at x∗ = 0 with fmin (0) = 0.

Whatever the objective is, we have to evaluate it many times. In most cases, the
evaluations of the objective functions consume a substantial amount of computational
power (which costs money) and design time. Any efficient algorithm that can reduce
the number of objective evaluations saves both time and money.
In mathematical programming, there are many important concepts, and we will
first introduce a few related concepts: feasible solutions, optimality criteria, the strong
local optimum, and weak local optimum.

1.2.3 Feasible solution


A point x that satisfies all the constraints is called a feasible point and thus is a feasible
solution to the problem. The set of all feasible points is called the feasible region (see
Fig. 1.3).
For example, we know that the domain f (x) = x 2 consists of all real numbers. If
we want to minimize f (x) without any constraint, all solutions such as x = −1, x = 1,
and x = 0 are feasible. In fact, the feasible region is the whole real axis. Obviously,
x = 0 corresponds to f (0) = 0 as the true minimum.
However, if we want to find the minimum of f (x) = x 2 subject to x ≥ 2, then it
becomes a constrained optimization problem. The points such as x = 1 and x = 0 are
no longer feasible because they do not satisfy x ≥ 2. In this case the feasible solutions
are all the points that satisfy x ≥ 2. So x = 2, x = 100, and x = 108 are all feasible. It
is obvious that the minimum occurs at x = 2 with f (2) = 22 = 4, that is, the optimal
solution for this problem occurs at the boundary point x = 2 (see Fig. 1.3).
10 Introduction to Algorithms for Data Mining and Machine Learning

Figure 1.4 Local optima, weak optima, and global optimality.

1.2.4 Optimality criteria


A point x ∗ is called a strong local maximum of the nonlinearly constrained op-
timization problem if f (x) is defined in a δ-neighborhood N (x ∗ , δ) and satisfies
f (x ∗ ) > f (u) for u ∈ N (x ∗ , δ), where δ > 0 and u = x ∗ . If x ∗ is not a strong lo-
cal maximum, then the inclusion of equality in the condition f (x ∗ ) ≥ f (u) for all
u ∈ N (x ∗ , δ) defines the point x ∗ as a weak local maximum (see Fig. 1.4). The local
minima can be defined in a similar manner when > and ≥ are replaced by < and ≤,
respectively.
Fig. 1.4 shows various local maxima and minima. Point A is a strong local max-
imum, whereas point B is a weak local maximum because there are many (in fact,
infinite) different values of x that will lead to the same value of f (x ∗ ). Point D is the
global maximum, and point E is the global minimum. In addition, point F is a strong
local minimum. However, point C is a strong local minimum, but it has a discontinuity
in f  (x ∗ ). So the stationary condition for this point f  (x ∗ ) = 0 is not valid. We will
not deal with these types of minima or maxima in detail.
As we briefly mentioned before, for a smooth curve f (x), optimal solutions usu-
ally occur at stationary points where f  (x) = 0. This is not always the case because
optimal solutions can also occur at the boundary, as we have seen in the previous ex-
ample of minimizing f (x) = x 2 subject to x ≥ 2. In our present discussion, we will
assume that both f (x) and f  (x) are always continuous or f (x) is everywhere twice
continuously differentiable. Obviously, the information of f  (x) is not sufficient to
determine whether a stationary point is a local maximum or minimum. Thus, higher-
order derivatives such as f  (x) are needed, but we do not make any assumption at this
stage. We will further discuss this in detail in the next section.

1.3 Unconstrained optimization

Optimization problems can be classified as either unconstrained or constrained. Un-


constrained optimization problems can in turn be subdivided into univariate and mul-
tivariate problems.
Introduction to optimization 11

1.3.1 Univariate functions


The simplest optimization problem without any constraints is probably the search for
the maxima or minima of a univariate function f (x). For unconstrained optimization
problems, the optimality occurs at the critical points given by the stationary condition
f  (x) = 0.
However, this stationary condition is just a necessary condition, but it is not a suf-
ficient condition. If f  (x∗ ) = 0 and f  (x∗ ) > 0, it is a local minimum. Conversely, if
f  (x∗ ) = 0 and f  (x∗ ) < 0, then it is a local maximum. However, if f  (x∗ ) = 0 and
f  (x∗ ) = 0, care should be taken because f  (x) may be indefinite (both positive and
negative) when x → x∗ , then x∗ corresponds to a saddle point.
For example, for f (x) = x 3 , we have

f  (x) = 3x 2 , f  (x) = 6x. (1.30)

The stationary condition f  (x) = 3x 2 = 0 gives x∗ = 0. However, we also have

f  (x∗ ) = f  (0) = 0.

In fact, f (x) = x 3 has a saddle point x∗ = 0 because f  (0) = 0 but f  changes sign
from f  (0+) > 0 to f  (0−) < 0 as x moves from positive to negative.

Example 4
For example, to find the maximum or minimum of a univariate function

f (x) = 3x 4 − 4x 3 − 12x 2 + 9, −∞ < x < ∞,

we first have to find its stationary points x∗ when the first derivative f  (x) is zero, that is,

f  (x) = 12x 3 − 12x 2 − 24x = 12(x 3 − x 2 − 2x) = 0.

Since f  (x) = 12(x 3 − x 2 − 2x) = 12x(x + 1)(x − 2) = 0, we have

x∗ = −1, x∗ = 2, x∗ = 0.

The second derivative of f (x) is simply

f  (x) = 36x 2 − 24x − 24.

From the basic calculus we know that the maximum requires f  (x∗ ) ≤ 0 whereas the minimum
requires f  (x∗ ) ≥ 0.
At x∗ = −1, we have

f  (−1) = 36(−1)2 − 24(−1) − 24 = 36 > 0,

so this point corresponds to a local minimum

f (−1) = 3(−1)4 − 4(−1)3 − 12(−1)2 + 9 = 4.


12 Introduction to Algorithms for Data Mining and Machine Learning

Similarly, at x∗ = 2, f  (x∗ ) = 72 > 0, and thus we have another local minimum

f (x∗ ) = −23.

However, at x∗ = 0, we have f  (0) = −24 < 0, which corresponds to a local maximum


f (0) = 9. However, this maximum is not a global maximum because the global maxima for f (x)
occur at x = ±∞.
The global minimum occurs at x∗ = 2 with f (2) = −23.

The maximization of a function f (x) can be converted into the minimization of A−


f (x), where A is usually a large positive number (though A = 0 will do). For example,
we know the maximum of f (x) = e−x , x ∈ (−∞, ∞), is 1 at x∗ = 0. This problem
2

can be converted to the minimization of −f (x). For this reason, the optimization
problems can be expressed as either minimization or maximization depending on the
context and convenience of formulations.
In fact, in the optimization literature, some books formulate all the optimization
problems in terms of maximization, whereas others write these problems in terms of
minimization, though they are in essence dealing with the same problems.

1.3.2 Multivariate functions


We can extend the optimization procedure for univariate functions to multivariate
functions using partial derivatives and relevant conditions. Let us start with the ex-
ample

minimize f (x, y) = x 2 + y 2 , x, y ∈ R. (1.31)

It is obvious that x = 0 and y = 0 is a minimum solution because f (0, 0) = 0. The


question is how to solve this problem formally. We can extend the stationary condition
to partial derivatives, and we have ∂f ∂f
∂x = 0 and ∂y = 0. In this case, we have

∂f ∂f
= 2x + 0 = 0, = 0 + 2y = 0. (1.32)
∂x ∂y

The solution is obviously x∗ = 0 and y∗ = 0.


Now how do we know that it corresponds to a maximum or minimum? If we try to
use the second derivatives, we have four different partial derivatives such as fxx and
fyy , and which one should we use? In fact, we need to define the Hessian matrix from
these second partial derivatives, and we have
⎛ ⎞
 ∂ 2f ∂ 2f
fxx fxy
=⎝ ⎠.
∂x 2 ∂x∂y
H= (1.33)
fyx fyy ∂ 2f ∂ 2f
∂y∂x ∂y 2
Introduction to optimization 13

Since

∂ 2f ∂ 2f
= , (1.34)
∂x∂y ∂y∂x

we can conclude that the Hessian matrix is always symmetric. In the case of f (x, y) =
x 2 + y 2 , it is easy to check that the Hessian matrix is

2 0
H= . (1.35)
0 2

Mathematically speaking, if H is positive definite, then the stationary point (x∗ , y∗ )


corresponds to a local minimum. Similarly, if H is negative definite, then the sta-
tionary point corresponds to a maximum. The definiteness of a symmetric matrix is
controlled by its eigenvalues. For this simple diagonal matrix H , its eigenvalues are
its two diagonal entries 2 and 2. As both eigenvalues are positive, this matrix is pos-
itive definite. Since the Hessian matrix here does not involve any x or y, it is always
positive definite in the whole search domain (x, y) ∈ R2 , so we can conclude that the
solution at point (0, 0) is the global minimum.
Obviously, this is a particular case. In general, the Hessian matrix depends on the
independent variables, but the definiteness test conditions still apply. That is, positive
definiteness of a stationary point means a local minimum. Alternatively, for bivariate
functions, we can define the determinant of the Hessian matrix in Eq. (1.33) as

 = det(H ) = fxx fyy − (fxy )2 . (1.36)

At the stationary point (x∗ , y∗ ), if  > 0 and fxx > 0, then (x∗ , y∗ ) is a local mini-
mum. If  > 0 but fxx < 0, then it is a local maximum. If  = 0, then it is inconclu-
sive, and we have to use other information such as higher-order derivatives. However,
if  < 0, then it is a saddle point. A saddle point is a special point where a local
minimum occurs along one direction, whereas the maximum occurs along another
(orthogonal) direction.

Example 5
To minimize f (x, y) = (x − 1)2 + x 2 y 2 , we have

∂f ∂f
= 2(x − 1) + 2xy 2 = 0, = 0 + 2x 2 y = 0. (1.37)
∂x ∂y

The second condition gives y = 0 or x = 0. Substituting y = 0 into the first condition, we have
x = 1. However, x = 0 does not satisfy the first condition. Therefore, we have a solution x∗ = 1
and y∗ = 0.
For our example with f = (x − 1)2 + x 2 y 2 , we have

∂ 2f 2 2 2
2 + 2, ∂ f = 4xy, ∂ f = 4xy, ∂ f = 2x 2 ,
= 2y (1.38)
∂x 2 ∂x∂y ∂y∂x ∂y 2
14 Introduction to Algorithms for Data Mining and Machine Learning

and thus we have


 
2y 2 + 2 4xy
H= . (1.39)
4xy 2x 2

At the stationary point (x∗ , y∗ ) = (1, 0), the Hessian matrix becomes
 
2 0
H= ,
0 2

which is positive definite because its double eigenvalues 2 are positive. Alternatively, we have
 = 4 > 0 and fxx = 2 > 0. Therefore, (1, 0) is a local minimum.

In fact, for a multivariate function f (x1 , x2 , . . . , xn ) in an n-dimensional space, the


stationary condition can be extended to
∂f ∂f ∂f T
G = ∇f = ( , ,..., ) = 0, (1.40)
∂x1 ∂x2 ∂xn
where G is called the gradient vector. The second derivative test becomes the definite-
ness of the Hessian matrix
⎛ 2 ⎞
∂f ∂ 2f ∂ 2f
...
⎜ ∂x1 2 ∂x1 ∂x2 ∂x1 ∂xn ⎟
⎜ ∂ 2f 2f 2f ⎟
⎜ ∂x ∂x ∂
... ∂x∂2 ∂x ⎟
H =⎜ ⎜ 2 1 ∂x 2 n ⎟. (1.41)

2
⎜ .. . .
.. . .. .
.. ⎟
⎝ ⎠
∂ 2f ∂ 2f ∂ 2f
∂xn ∂x1 ∂xn ∂x2 ... ∂xn 2

At the stationary point defined by G = ∇f = 0, the positive definiteness of H gives a


local minimum, whereas the negative definiteness corresponds to a local maximum. In
essence, the eigenvalues of the Hessian matrix H determine the local behavior of the
function. As we mentioned before, if H is positive semidefinite, then it corresponds
to a local minimum.

1.4 Nonlinear constrained optimization


As most real-world problems are nonlinear, nonlinear mathematical programming
forms an important part of mathematical optimization methods. A broad class of non-
linear programming problems is about the minimization or maximization of f (x) sub-
ject to no constraints, and another important class is the minimization of a quadratic
objective function subject to nonlinear constraints. There are many other nonlinear
programming problems as well.
Nonlinear programming problems are often classified according to the convexity
of the defining functions. An interesting property of a convex function f is that the
Introduction to optimization 15

vanishing of the gradient ∇f (x ∗ ) = 0 guarantees that the point x∗ is a global minimum


or maximum of f . We will introduce the concept of convexity in the next chapter. If
a function is not convex or concave, then it is much more difficult to find its global
minima or maxima.

1.4.1 Penalty method


For the simple function optimization with equality and inequality constraints, a com-
mon method is the penalty method. For the optimization problem

minimize f (x), x = (x1 , . . . , xn )T ∈ Rn ,

subject to φi (x) = 0, (i = 1, . . . , M), ψj (x) ≤ 0, (j = 1, . . . , N ), (1.42)


the idea is to define a penalty function so that the constrained problem is transformed
into an unconstrained problem. Now we define


M 
N
(x, μi , νj ) = f (x) + μi φi2 (x) + νj max{0, ψj (x)}2 , (1.43)
i=1 j =1

where μi 1 and νj ≥ 0.
For example, let us solve the following minimization problem:

minimize f (x) = 40(x − 1)2 , x ∈ R, subject to g(x) = x − a ≥ 0, (1.44)

where a is a given value. Obviously, without this constraint, the minimum value occurs
at x = 1 with fmin = 0. If a < 1, then the constraint will not affect the result. However,
if a > 1, then the minimum should occur at the boundary x = a (which can be obtained
by inspecting or visualizing the objective function and the constraint). Now we can
define a penalty function (x) using a penalty parameter μ 1. We have

(x, μ) = f (x) + μ[g(x)]2 = 40(x − 1)2 + μ(x − a)2 , (1.45)

which converts the original constrained optimization problem into an unconstrained


problem. From the stationarity condition  (x) = 0 we have
40 − μa
80(x − 1) − 2μ(x − a) = 0, or x∗ = . (1.46)
40 − μ
For a particular case a = 1, we have x∗ = 1, and the result does not depend on μ.
However, in the case of a > 1 (say, a = 5), the result will depend on μ. When a = 5
and μ = 100, we have x∗ = 40 − 100 × 5/40 − 100 = 7.6667. If μ = 1000, then this
gives 50 − 1000 ∗ 5/40 − 1000 = 5.1667. Both values are far from the exact solution
xtrue = a = 5. If we use μ = 104 , then we have x∗ ≈ 5.0167. Similarly, for μ = 105 ,
we have x∗ ≈ 5.00167. This clearly demonstrates that the solution in general depends
on μ. However, it is very difficult to use extremely large values without causing extra
computational difficulties.
16 Introduction to Algorithms for Data Mining and Machine Learning

Ideally, the formulation using the penalty method should be properly designed so
that the results will not depend on the penalty coefficient, or at least the dependence
should be sufficiently weak.

1.4.2 Lagrange multipliers


Another powerful method without the limitation of using large μ is the method of
Lagrange multipliers. Suppose we want to minimize a function f (x):

minimize f (x), x = (x1 , . . . , xn )T ∈ Rn , (1.47)

subject to the nonlinear equality constraint

h(x) = 0. (1.48)

Then we can combine the objective function f (x) with the equality to form the new
function, called the Lagrangian,

 = f (x) + λh(x), (1.49)

where λ is the Lagrange multiplier, which is an unknown scalar to be determined.


This again converts the constrained optimization into an unconstrained problem for
(x), which is the beauty of this method. If we have M equalities

hj (x) = 0 (j = 1, . . . , M), (1.50)

then we need M Lagrange multipliers λj (j = 1, . . . , M). We thus have


M
(x, λj ) = f (x) + λj hj (x). (1.51)
j =1

The requirement of stationary conditions leads to

∂ ∂f  ∂hj
M
∂
= + λj (i = 1, . . . , n), = hj = 0 (j = 1, . . . , M). (1.52)
∂xi ∂xi ∂xi ∂λj
j =1

These M + n equations determine the n-component x and M Lagrange multipliers.


∂
As ∂g j
= λj , we can consider λj as the rate of the change of  as a functional of hj .

Example 6
For the well-known monkey surface f (x, y) = x 3 − 3xy 2 , the function does not have a unique
maximum or minimum. In fact, the point x = y = 0 is a saddle point. However, if we impose an
extra equality x − y 2 = 1, we can formulate an optimization problem as

minimize f (x, y) = x 3 − 3xy 2 , (x, y) ∈ R2 ,


Introduction to optimization 17

subject to

h(x, y) = x − y 2 = 1.

Now we can define

= f (x, y) + λh(x, y) = x 3 − 3xy 2 + λ(x − y 2 − 1).

The stationary conditions become

∂ ∂
= 3x 2 − 3y 2 + λ = 0, = 0 − 6xy + (−2λy) = 0,
∂x ∂y

= x − y 2 − 1 = 0.
∂λ

The second condition −6xy − 2λy = −2y(3x + λ) = 0 implies that y = 0 or λ = −3x.


• If y = 0, then the third condition x − y 2 − 1 = 0 gives x = 1. The first condition 3x 2 + 3y 2 −
λ = 0 leads to λ = −3. Therefore, x = 1 and y = 0 is an optimal solution with fmin = 1. It is
straightforward to verify that this solution corresponds to a minimum (not a maximum).
• If λ = −3x, then the first condition becomes 3x 2 − 3y 2 − 3x = 0. Substituting x = y 2 + 1
(from the third condition), we have

3(y 2 + 1)2 − 3y 2 − 3(y 2 + 1) = 0, or 3(y 4 + 2) = 0.

This equation has no solution in the real domain. Therefore, the optimality occurs at (1, 0) with
fmin = 1.

1.4.3 Karush–Kuhn–Tucker conditions


There is a counterpart of the Lagrange multipliers for nonlinear optimization with
inequality constraints. The Karush–Kuhn–Tucker (KKT) conditions concern the re-
quirement for a solution to be optimal in nonlinear programming [111].
Let us know focus on the nonlinear optimization problem

minimize f (x), x ∈ Rn ,
subject to φi (x) = 0 (i = 1, . . . , M), ψj (x) ≤ 0 (j = 1, . . . , N). (1.53)

If all the functions are continuously differentiable at a local minimum x ∗ , then there
exist constants λ0 , λ1 , . . . , λq and μ1 , . . . , μp such that


M 
N
λ0 ∇f (x ∗ ) + μi ∇φi (x ∗ ) + λj ∇ψj (x ∗ ) = 0, (1.54)
i=1 j =1
ψj (x ∗ ) ≤ 0, λj ψj (x ∗ ) = 0 (j = 1, 2, . . . , N), (1.55)
18 Introduction to Algorithms for Data Mining and Machine Learning

 M
where λj ≥ 0 (i = 0, 1, . . . , N). The constants satisfy Nj =0 λj + i=1 |μi | ≥ 0. This
is essentially a generalized method of the Lagrange multipliers. However, there is a
possibility of degeneracy when λ0 = 0 under certain conditions.
It is worth pointing out that such KKT conditions can be useful to prove theorems
and sometimes useful to gain insight into certain types of problems. However, they are
not really helpful in practice in the sense that they do not give any indication where
the optimal solutions may lie in the search domain so as to guide the search process.
Optimization problems, especially highly nonlinear multimodal problems, are usu-
ally difficult to solve. However, if we are mainly concerned about local optimal or
suboptimal solutions (not necessarily about global optimal solutions), there are rel-
atively efficient methods such as interior-point methods, trust-region methods, the
simplex method, sequential quadratic programming, and swarm intelligence-based
methods [151]. All these methods have been implemented in a diverse range of soft-
ware packages. Interested readers can refer to more advanced literature.

1.5 Notes on software


Though there many different algorithms for optimization, most software packages and
programming languages have some sort of optimization capabilities due to the popu-
larity and relevance of optimization in many applications. For example, Wikipedia has
some extensive lists of
• optimization software,1
• data mining and machine learning,2
• deep learning software.3
There is a huge list of software packages and internet resources; it requires a
lengthy book to cover most of it, which is not our intention here. Interested readers
can refer to them for more detail.

1 https://en.wikipedia.org/wiki/List_of_optimization_software.
2 https://en.wikipedia.org/wiki/Category:Data_mining_and_machine_learning_software.
3 https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software.
Mathematical foundations
2
Contents
2.1 Convexity 20
2.1.1 Linear and affine functions 20
2.1.2 Convex functions 21
2.1.3 Mathematical operations on convex functions 22
2.2 Computational complexity 22
2.2.1 Time and space complexity 24
2.2.2 Complexity of algorithms 25
2.3 Norms and regularization 26
2.3.1 Norms 26
2.3.2 Regularization 28
2.4 Probability distributions 29
2.4.1 Random variables 29
2.4.2 Probability distributions 30
2.4.3 Conditional probability and Bayesian rule 32
2.4.4 Gaussian process 34
2.5 Bayesian network and Markov models 35
2.6 Monte Carlo sampling 36
2.6.1 Markov chain Monte Carlo 37
2.6.2 Metropolis–Hastings algorithm 37
2.6.3 Gibbs sampler 39
2.7 Entropy, cross entropy, and KL divergence 39
2.7.1 Entropy and cross entropy 39
2.7.2 DL divergence 40
2.8 Fuzzy rules 41
2.9 Data mining and machine learning 42
2.9.1 Data mining 42
2.9.2 Machine learning 42
2.10 Notes on software 42

Though the main requirement of this book is basic calculus, we will still briefly review
some basic concepts concerning functions and basic calculus and then introduce some
new concepts. The readers can skip this chapter if they are already familiar with such
topics.
Introduction to Algorithms for Data Mining and Machine Learning. https://doi.org/10.1016/B978-0-12-817216-2.00009-0
Copyright © 2019 Elsevier Inc. All rights reserved.
20 Introduction to Algorithms for Data Mining and Machine Learning

2.1 Convexity

2.1.1 Linear and affine functions


Generally speaking, a function is a mapping from independent variables or inputs to a
dependent variable or variables/outputs. For example, the function

f (x, y) = x 2 + y 2 + xy, (2.1)

depends on two independent variables. This function maps the domain R2 (for −∞ <
x < ∞ and −∞ < y < ∞) to f on the real axis as its range. So we use the notation
f : R2 → R to denote this.
In general, a function f (x, y, z, . . . ) maps n independent variables to m dependent
variables, and we use the notation f : Rn → Rm to mean that the domain of the func-
tion is a subset of Rn , whereas its range is a subset of Rm . The domain of a function
is sometimes denoted by dom(f ) or dom f .
The inputs or independent variables can often be written as a vector. For simplicity,
we often use a vector x = (x, y, z, . . . )T = (x1 , x2 , . . . , xn )T for multiple variables.
Therefore, f (x) is often used to mean f (x, y, z, . . . ) or f (x1 , x2 , . . . , xn ).
A function L(x) is called linear if

L(x + y) = L(x) + L(y) and L(αx) = αL(x) (2.2)

for any vectors x and y and any scalar α ∈ R.

Example 7
To see if f (x) = f (x1 , x2 ) = 2x1 + 3x2 is linear, we use

f (x1 + y1 , x2 + y2 ) = 2(x1 + y1 ) + 3(x2 + y2 ) = 2x1 + 2y1 + 3x2 + 3y2


= [2x1 + 3x2 ] + [2y1 + 3y2 ] = f (x1 , x2 ) + f (y1 , y2 ).

In addition, for any scalar α, we have

f (αx1 , αx2 ) = 2αx1 + 3αx2 = α[2x1 + 3x2 ] = αf (x1 , x2 ).

Therefore, this function is indeed linear. This function can also be written as a vector form
 
  x
1
f (x) = 2 3 = a · x = a T x,
x2

where a · x = a T x is the inner product of a = (2 3)T and x = (x1 x2 )T .

In general, functions can be a multiple-component vector, which can be written


as F [22]. A function F is called affine if there exists a linear function L and a vector
constant b such that F = L(x) + b. In general, an affine function is a linear function
Mathematical foundations 21

Figure 2.1 Convex functions.

with translation, which can be written in a matrix form F = Ax + b, where A is an


m × n matrix, and b is a column vector in Rn .
Knowing the properties of a function can be useful for finding the maximum or
minimum of the function. In fact, in mathematical optimization, nonlinear problems
are often classified according to the convexity of the defining function(s). Geometri-
cally speaking, an object is convex if for any two points within the object, every point
on the straight line segment joining them is also within the object. Examples are a
solid ball, a cube, and a pyramid. Obviously, a hollow object is not convex.
Mathematically speaking, a set S ∈ Rn in a real vector space is called a convex set
if

θ x + (1 − θ )y ∈ S, ∀(x, y) ∈ S, θ ∈ [0, 1]. (2.3)

Thus, an affine set is always convex, but a convex set is not necessarily affine.

2.1.2 Convex functions


A function f (x) defined on a convex set  is called convex if

f (αx + βy) ≤ αf (x) + βf (y), ∀x, y ∈ , (2.4)

where

α ≥ 0, β ≥ 0, α + β = 1. (2.5)

Some examples of convex functions are shown in Fig. 2.1.

Example 8
For example, the convexity of f (x) = x 2 − 1 requires

(αx + βy)2 − 1 ≤ α(x 2 − 1) + β(y 2 − 1), ∀x, y ∈ ,

where α, β ≥ 0 and α + β = 1. This is equivalent to

αx 2 + βy 2 − (αx + βy)2 ≥ 0,
22 Introduction to Algorithms for Data Mining and Machine Learning

where we have used α + β = 1. We now have

αx 2 + βy 2 − α 2 x 2 − 2αβxy − β 2 y 2
= α(1 − α)(x − y)2 = αβ(x − y)2 ≥ 0,

which is always true because α, β ≥ 0 and (x − y)2 ≥ 0. Therefore, f (x) = x 2 − 1 is convex for
all x ∈ R.

A function f (x) on  is concave if and only if g(x) = −f (x) is convex. An


interesting property of a convex function f is that the vanishing of the gradient
df/dx|x∗ = 0 guarantees that the point x∗ is the global minimum of f . Similarly,
for a concave function, any local maximum is also the global maximum. If a function
is not convex or concave, then it is much more difficult to find its global minimum or
maximum.

2.1.3 Mathematical operations on convex functions


There are some important mathematical operations that still preserve the convexity:
nonnegative weighted sum, composition using affine functions, and maximization or
minimization. For example, if f is convex, then βf is also convex for β ≥ 0. The
nonnegative sum αf1 + βf2 is convex if f1 , f2 are convex and α, β ≥ 0.
The composition using an affine function also holds. For example, f (Ax + b) is
convex if f is convex. In addition, if f1 , f2 , . . . , fn are convex, then the maximum of
all these functions, max{f1 , f2 , . . . , fn }, is also convex. Similarly, the piecewise-linear
function maxni=1 (Ai x + bi ) is also convex.
If both f and g are convex, then ψ(x) = f (g(x)) can also be convex under certain
nondecreasing conditions. For example, exp[f (x)] is convex if f (x) is convex. This
can be extended to the vector composition, and most interestingly, the log-sum-exp
function

n
f (x) = log exk , (2.6)
k=1

is convex. For a more comprehensive introduction of convex functions, we refer the


readers to more advanced literature such as the book by Boyd and Vandenberghe [22].

2.2 Computational complexity


In the description of algorithmic complexity, we often have to use the order notations,
often in terms of big O and small o. Loosely speaking, for two functions f (x) and
g(x), if
f (x)
lim → K, (2.7)
x→x0 g(x)
Mathematical foundations 23

where K is a finite, nonzero limit, we write

f = O(g). (2.8)

The big O notation means that f is asymptotically equivalent to the order of g(x). If
the limit is unity or K = 1, then we that say f (x) is asymptotically equivalent to g(x).
In this particular case, we write

f ∼ g, (2.9)

which is equivalent to f/g → 1 and g/f → 1 as x → x0 . Obviously, x0 can be any


value, including 0 and ∞. The notation ∼ does not necessarily mean ≈ in general,
though it may give the same results, especially in the case where x → 0. For example,
sin x ∼ x and sin x ≈ x as x → 0.
When we say f is order of 100 (or f ∼ 100), this does not mean f ≈ 100 but rather
that f can be between about 50 and 150. The small o notation is often used if the limit
tends to 0, that is,
f
lim → 0, (2.10)
x→x0 g
or

f = o(g). (2.11)

If g > 0, then f = o(g) is equivalent to f g (that is, f is much less than g).

Example 9
For example, for all x ∈ R, we have

x2 x3 xn
ex = 1 + x + + + ··· + + ··· , (2.12)
2! 3! n!

which can be written as

x2
ex ≈ 1 + x + O(x 2 ) ≈ 1 + x + + o(x), (2.13)
2
depending on the accuracy of the approximation of interest.

It is worth pointing out that the expressions in computational complexity are most
concerned with functions such as f (n) of an input of problem size n, where n ∈ N is
an integer in the set of natural numbers N = {1, 2, 3, . . . }.
For example, for the functions f (n) = 10n2 + 20n + 100 and g(n) = 5n2 , we have
 
f (n) = O g(n) (2.14)
24 Introduction to Algorithms for Data Mining and Machine Learning

for every sufficiently large n. As n is sufficiently large, n2 is much larger than n (i.e.,
n2 n), then n2 terms dominate two expressions. To emphasize the input n, we can
often write
 
f (n) = O g(n) = O(n2 ). (2.15)

In addition, f (n) is in general a polynomial of n, which not only includes terms such as
n3 and n2 , but it also may include n2.5 or log(n). Therefore, f (n) = 100n3 + 20n2.5 +
25n log(n) + 123n is a valid polynomial in the context of computational complexity.
In this case, we have

f (n) = 100n3 + 20n2.5 + 25n log(n) + 123n = O(n3 ). (2.16)

Here, we always implicitly assume that n is sufficiently large and the base of the
logarithm is 2.
To measure how easily or hardly a problem can be solved, we need to estimate its
computational complexity. We cannot simply ask how long it takes to solve a particular
problem instance because the actual computational time depends on both hardware
and software used to solve it. Thus, time does not make much sense in this context.
A useful measure of complexity should be independent of the hardware and software
used. However, such complexity is closely linked to the algorithms used.

2.2.1 Time and space complexity


To find the maximum (or minimum) among n different numbers, we only need to go
through each number once by simply comparing the current number with the highest
(or lowest) number once and update the new highest (or lowest) when necessary. Thus,
the number of mathematical operations is simply O(n), which is the time complexity
of this problem.
In practice, comparing two big numbers may take slightly longer, and different
representations of numbers can also affect the speed of this comparison. In addition,
multiplication and division usually take more time than simple addition and substrac-
tion. However, in computational complexity, we usually ignore such minor differences
and simply treat all operations as equal. In this sense, the complexity is about the num-
ber or order of mathematical operations, not the actual order of computational time.
On the other hand, space computational complexity estimates the size of com-
puter memory needed to solve the problem. In the previous simple problem of finding
the maximum or minimum among n different numbers, the memory needed is O(n)
because it needs to store n different numbers at n different entries in the computer
memory. Though we need one more entry to store the largest or smallest number, this
minor change does not affect the order of complexity because we implicitly assume
that n is sufficiently large [6,58].
In most literature, if there is no time or space explicitly used when talking about
computational complexity, it usually means time complexity. In discussing computa-
Mathematical foundations 25

tional complexity, we often use the word “problem” to mean a class of problems of
the same type and an “instance” to mean a specific example of a problem class. Thus,
Ax = b is a problem (class) for linear algebra, whereas

    
2 3 x 8
= (2.17)
1 1 y 3

is an instance. In addition, a decision problem is a yes–no problem where an output is


binary (0 or 1), even though the inputs can be any values.
The computational complexity is closely linked to the type of problems. For the
same type of problems, different algorithms can be used, and the number of basic
mathematical operations may be different. In this case, we are concerned with the
complexity of an algorithm in terms of arithmetic complexity.

2.2.2 Complexity of algorithms


The computational complexity discussed up to now has focused on the problems, and
the algorithms are mainly described simply in terms of polynomial or exponential
time. From the perspective of algorithm development and analysis, different algo-
rithms will have different complexity even for the same type of problems. In this case,
we have to estimate the arithmetic complexity of an algorithm or simply algorithmic
complexity.
For example, to solve a sorting problem with n different numbers so as to sort
them from the smallest to the largest, we can use different algorithms. For example,
the selection sort uses two loops for sorting n, which has an algorithmic complexity
of O(n2 ), whereas the quicksort (or partition and exchange sort) has a complexity of
O(n log n). There are many different sorting algorithms with different complexities.
It is worth pointing out that the algorithmic complexity here is mainly about time
complexity because the space (memory) complexity is less important. In this case, the
space algorithmic complexity is O(n).

Example 10
The multiplication of two n × n matrices A and B using simple matrix multiplication rules has
a complexity of O(n3 ). There are n rows and n columns for each matrix, and their product C
has n × n entries. To get each entry, we need to carry out the multiplication of a row of A by a
corresponding column of B and calculate their sum, and thus the complexity is O(n). As there
are n × n = n2 entries, the overall complexity is O(n2 ) × O(n) = O(n3 ).

In the rest of this book, we analyze different algorithms; the complexity to be given
is usually the arithmetic complexity of an algorithm under discussion.
26 Introduction to Algorithms for Data Mining and Machine Learning

2.3 Norms and regularization

2.3.1 Norms
In general, a vector in an n-dimensional space (n ≥ 1) can be written as a column
vector
⎛ ⎞
x1
⎜ x2 ⎟
⎜ ⎟
x = ⎜ . ⎟ = (x1 , x2 , . . . , xn )T (2.18)
⎝ .. ⎠
xn

or a row vector
 
x = x1 x2 ... xn . (2.19)

A simple transpose (T) can convert a column vector into its corresponding row vector.
The length of x can be written as

||x|| = x12 + x22 + · · · + xn2 , (2.20)

which is the Euclidean norm.


The addition or substraction of two vectors u and v are the addition or substraction
of their corresponding components, that is,
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
u1 v1 u1 ± v1
⎜ u2 ⎟ ⎜ v2 ⎟ ⎜ u2 ± v2 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
u±v=⎜ . ⎟±⎜ . ⎟=⎜ .. ⎟. (2.21)
⎝ .. ⎠ ⎝ .. ⎠ ⎝ . ⎠
un vn un ± vn

The dot product, also called the inner product, of two vectors u and v is defined as


n
uT v ≡ u · v = ui vi = u1 v1 + u2 v2 + · · · + un vn . (2.22)
i=1

For an n-dimensional vector x, we can define the p-norm or Lp -norm (also


Lp -norm) as
 1/p 
n 1/p
||x||p ≡ |x1 | + |x2 | + · · · + |xn |
p p p
= |xi |p , p > 0. (2.23)
i=1

Obviously, the Cartesian norm or length is the L2 -norm


 
||x||2 = |x1 |2 + |x2 |2 + · · · + |xn |2 = x12 + x22 + · · · + xn2 . (2.24)
Mathematical foundations 27

Three most widely used norms are p = 1, 2, and ∞ [160]. When p = 2, it becomes
the Cartesian L2 -norm as discussed before. When p = 1, the L1 -norm is given by

||x||1 = |x1 | + |x2 | + · · · + |xn |. (2.25)

For p = ∞, it becomes

||x||∞ = max{|x1 |, |x2 |, . . . , |xn |} = xmax , (2.26)

which is the largest absolute component of x. This is because



p 1/p  n 
  
 xi p 1/p
||x||∞ = lim |xi |p = lim |xmax |p  
p→∞ p→∞ xmax
i=1 i=1

n
 xi 1/p
= xmax lim   = xmax , (2.27)
p→∞ xmax
i=1

where we have used the fact that |xi /xmax | < 1 (except for one component, say, |xk | =
xmax ). Thus, limp→∞ |xi /xmax |p → 0 for all i = k. Thus, the sum of all ratio terms
is 1, that is,
  x p 1/p
 i 
lim   = 1. (2.28)
p→∞ xmax

In general, for any two vectors u and v in the same space, we have the inequality

||u||p + ||v||p ≥ ||u + v||p , p ≥ 0. (2.29)

Example 11
For two vectors u = [1 2 3]T and v = [1 − 2 − 1]T , we have

uT v = 1 × 1 + 2 × (−2) + 3 × (−1) = −6,


||u||1 = |1| + |2| + |3| = 6, ||v||1 = |1| + | − 2| + | − 1| = 4,
 √  √
||u||2 = 12 + 22 + 32 = 14, ||v||2 = 12 + (−2)2 + (−1)2 = 6,

||u||∞ = max{|1|, |2|, |3|} = 3, ||v||∞ = max{|1|, | − 2|, | − 1|} = 2,

and
 T  T
w=u+v= 1+1 2 + (−2) 3 + (−1) = 2 0 2

with norms

||w||1 = |2| + |0| + |2| = 2, ||w||∞ = max{|2|, |0|, |2|} = 2,


 √
||w||2 = 22 + 02 + 22 = 8.
28 Introduction to Algorithms for Data Mining and Machine Learning

Figure 2.2 Different p-norms for p = 1, 2, and ∞ (left) as well as p = 1/2 and p = 4 (right).

Using these values, it is straightforward to verify that

||u||p + ||v||p ≥ ||u + v||p (p = 1, 2, ∞).

In the particular case of two-dimensional (2D) vectors, different norms Lp =


(|x|p + |y|p )1/p with different values of p are shown in Fig. 2.2.

2.3.2 Regularization
In many applications such as curve-fitting and machine learning, overfitting can be a
serious issue, and one way to avoid overfitting is using regularization. Loosely speak-
ing, regularization is using some penalty term added to the objective or loss function so
as to constrain certain model parameters. For example, in the method of least-squares
and many learning algorithms, the objective is to minimize the loss function L(x),
which represents the errors between data labels yi and the predictions fi = f (xi ) for
m data points (xi , yi ), i = 1, 2, . . . , m, that is,


m
 2
L(x) = yi − f (xi ) , (2.30)
i=1

which is the L2 -norm of the errors Ei = yi − fi . The model prediction f (x, w) usually
have many model parameters such as w = (w1 , w2 , ..., wK ) for simple polynomial
curve-fitting. In general, a prediction model can have K different model parameters,
overfitting can occur if the model becomes too complex with too many parameters, and
the oscillations become significant. Thus, a penalty term in terms of some norm of the
model parameters is usually added to the loss function. For example, the well-known
Tikhonov regularization uses the L2 -norm, and we have

m 
 2
minimize yi − f (xi , w) + λ||w||2 , (2.31)
i=1
Mathematical foundations 29

where λ > 0 is the penalty parameter. Obviously, other norms can be used. For exam-
ple, in the Lasso method, the regularization uses 1-norm, which gives

1  2
m
minimize yi − f (xi , w) + λ||w||1 . (2.32)
m
i=1

We will introduce both the method of least-squares and Lasso method in late chapters.

2.4 Probability distributions

2.4.1 Random variables


For a discrete random variable X with distinct values such as the number of cars
passing through a junction, each value xi may occur with certain probability p(xi ).
In other words, the probability varies and is associated with the corresponding ran-
dom variable. Traditionally, an uppercase letter such as X is used to denote a random
variable, whereas a lowercase letter such as xi represents its values. For example, if
X means a coin-flipping event, then xi = 0 (tail) or 1 (head). A probability function
p(xi ) is a function that assigns probabilities to all the discrete values xi of the random
variable X.
As an event must occur inside a sample space, the requirement that all the proba-
bilities must be summed to one, which leads to


n
p(xi ) = 1. (2.33)
i=1

For example, the outcomes of tossing a fair coin form a sample space. The outcome
of a head (H) is an event with probability P (H ) = 1/2, and the outcome of a tail (T)
is also an event with probability P (T ) = 1/2. The sum of both probabilities should be
one, that is,

1 1
P (H ) + P (T ) = + = 1. (2.34)
2 2
The cumulative probability function of X is defined by

P (X ≤ x) = p(xi ). (2.35)
xi <x

Two main measures for a random variable X with given probability distribution
p(x) are its mean and variance. The mean μ or expectation of E[X] is defined by

μ ≡ E[X] ≡<X>= xp(x)dx (2.36)
30 Introduction to Algorithms for Data Mining and Machine Learning

for a continuous distribution and the integration is within the integration limits. If the
random variable is discrete, then the integration becomes the weighted sum

E[X] = xi p(xi ). (2.37)
i

The variance var[X] = σ 2 is the expectation value of the deviation squared, that is,
E[(X − μ)2 ]. We have

σ 2 ≡ var[X] = E[(X − μ)2 ] = (x − μ)2 p(x)dx. (2.38)


The square root of the variance σ = var[X] is called the standard deviation, which
is simply σ .
The above definition of mean μ = E[X] is essentially the first moment if we define
the kth moment of a random variable X (with a probability density distribution p(x))
by

μk ≡ E[X ] = x k p(x)dx (k = 1, 2, 3, . . . ).
k
(2.39)

Similarly, we can define the kth central moment by

νk ≡ E[(X − E[X])k ] ≡ E[(X − μ)k ]



= (x − μ)k p(x)dx (k = 0, 1, 2, 3, . . . ), (2.40)

where μ is the mean (the first moment). Thus, the zeroth central moment is the sum of
all probabilities when k = 0, which gives ν0 = 1. The first central moment is ν1 = 0.
The second central moment ν2 is the variance σ 2 , that is, ν2 = σ 2 .

2.4.2 Probability distributions


There are a number of other important distributions such as the normal distribution,
Poisson distribution, exponential distribution, binomial distribution, Cauchy distribu-
tion, Lévy distribution, and Student t-distribution.
A Bernoulli distribution is a distribution of outcomes of a binary random variable
X where the random variable can only take two values, either 1 (success or yes) or 0
(failure or no). The probability of taking 1 is 0 ≤ p ≤ 1, whereas the probability of
taking 0 is q = 1 − p. Then, the probability mass function can be written as

p if m = 1,
B(m, p) = (2.41)
1 − p, if m = 0,

which can be written more compactly as

B(m, p) = p m (1 − p)1−m , m ∈ {0, 1}. (2.42)


Mathematical foundations 31

It is straightforward to show that its mean and variance are

E[X] = p, var[X] = pq = p(1 − p). (2.43)

This is the probability of a single experiment with two distinct outcomes. In the case of
multiple experiments or trials (n), the probability distribution of exactly m successes
becomes the binomial distribution
 
n
Bn (m, n, p) = p m (1 − p)n−m , (2.44)
m

where
 
n n!
= (2.45)
m m!(n − m)!

is the binomial coefficient. Here, n! is the factorial, n! = n(n − 1)(n − 2) . . . 1. For


example, 5! = 5 × 4 × 3 × 2 × 1 = 120. Conventionally, we set 0! = 1.
It is also straightforward to verify that

E[X] = np, var[X] = np(1 − p) (2.46)

for n trials.
The exponential distribution has the probability density function

f (x) = λe−λx , λ > 0 (x > 0), (2.47)

and f (x) = 0 for x ≤ 0. Its mean and variance are

μ = 1/λ, σ 2 = 1/λ2 . (2.48)

The Poisson distribution is the distribution for small-probability discrete events.


Typically, it is concerned with the number of events that occur in a certain time interval
(e.g., the number of telephone calls in an hour) or spatial area.
The probability density function of the Poisson distribution is

λx e−λ
P (X = x) = , λ > 0, (2.49)
x!
where x = 0, 1, 2, . . . , n, and λ is the mean of the distribution.
The Gaussian distribution or normal distribution is the most important continuous
distribution in probability, and it has a wide range of applications. For a continuous
random variable X, the probability density function (PDF) of the Gaussian distribution
is given by
2
1 − (x−μ)
p(x) = √ e 2σ 2 , (2.50)
σ 2π
Another random document with
no related content on Scribd:
Après avoir épuisé tous les moyens que l'art de la
guerre mettait alors en usage, Sapor résolut xv. Sapor
d'employer les forces même de la nature pour inonde la ville.
détruire la ville, ou du moins pour l'inonder et
l'ensevelir sous les eaux. Ayant remonté vers la source du fleuve,
jusqu'à un lieu où le lit se resserrait entre des coteaux, il arrêta son
cours par une digue fort élevée, qui fermait le vallon. Quand les eaux
qui traversaient Nisibe se furent écoulées, le roi fit construire au-
dessous de la ville une seconde digue, qui traversait d'un bord à
l'autre le lit du fleuve resté à sec; il ferma de terrasses toutes les
gorges des vallons d'alentour, par où les eaux pouvaient trouver un
écoulement, et fit ainsi du terrain de Nisibe un grand bassin. Ces
ouvrages ayant été achevés en peu de temps par cette prodigieuse
multitude de bras qui se remuaient à ses ordres, il fit ouvrir la digue
supérieure qui arrêtait le fleuve: aussitôt les eaux amassées
s'élancent, et viennent en frémissant se briser avec un horrible
fracas contre les murs qu'elles ébranlent sans les abattre. Arrêtées
par la digue inférieure et par les coteaux et les terrasses d'alentour,
elles submergent tout le terrain de Nisibe. Les assiégeants se
servaient pour réduire la ville, du même moyen que des assiégés
employaient quelquefois de nos jours pour se défendre. La plaine
n'était plus qu'une mer, et la ville une île, dont on n'apercevait que
les tours et les créneaux. Le siége change de face et devient une
attaque navale. Sapor couvre l'inondation de barques chargées de
machines qui vont insulter les remparts. Les assiégés repoussent les
barbares, lancent des feux, enlèvent sur leurs murs avec des crocs
et des harpons les barques qui s'approchent de trop près; ils mettent
en pièces ou coulent à fond les autres à coups de gros javelots et de
pierres, dont quelques-unes pesaient quatre cents livres. Cette
attaque dura plusieurs jours, et l'inondation croissait de plus en plus,
lorsque, la digue inférieure s'étant rompue, les eaux, se réunissant
pour suivre leur pente naturelle, entraînèrent par leur violence et les
barques qu'elles portaient, et plus de vingt-cinq toises de la muraille
déja ébranlée, et même une partie du mur opposé par où elles
s'écoulaient de la ville. L'impétuosité de ce torrent submergea un
grand nombre de Perses.
La ville était ouverte, et Sapor ne doutait pas qu'il ne xvi. Nouvelle
fût au moment de s'en rendre maître. Il fait prendre à attaque.
ses officiers et à ses soldats leurs plus belles armes
et leurs plus magnifiques habits, selon la coutume des Perses. Les
hommes et les chevaux brillaient d'or et de pourpre. Pour lui,
semblable à Xerxès, il était assis sur un tertre qu'il avait fait élever.
L'armée se déploie en pompeux appareil; à la tête paraissaient les
cavaliers cuirassés et les archers à cheval, suivis du reste de la
cavalerie, dont les nombreux escadrons couvraient toute la plaine.
Entre leurs rangs s'élevaient de distance en distance des tours
revêtues de fer, portées par des éléphants, et remplies de gens de
trait. De toutes parts se répandait une nuée de fantassins sans
ordre, les Perses ne faisant presque aucun cas ni aucun usage de
l'infanterie. En cet état ils environnent la ville, pleins de fierté et de
confiance. Au premier signal tous se mettent en mouvement, et se
pressant les uns les autres, chacun aspire à la gloire d'être le
premier à forcer le passage, ou à sauter sur le rempart. Les
assiégés de leur côté, postés sur la brèche en bonne contenance,
opposent comme un nouveau mur leurs rangs serrés et redoublés.
Ce qui subsistait encore de muraille était bordé d'une foule
d'habitants, armés de tout ce qui pouvait servir à leur défense. La
nécessité en faisait autant de guerriers, et les soldats mêlés parmi
eux réglaient leurs mouvements, et soutenaient leur courage. Dans
cette périlleuse circonstance l'évêque prosterné au pied des autels
intéressait le ciel contre les Perses, et procurait à sa patrie un
secours plus puissant que les remparts et les machines de guerre.
On laisse approcher les Perses sans lancer un trait; et ceux-ci
persuadés qu'ils ne trouveront pas de résistance, après avoir
renversé les terrasses qu'ils avaient auparavant élevées, poussent
leurs chevaux à travers une fange profonde, que le séjour du fleuve
avait formée sur un terrain gras et propre à retenir les eaux. Ils
arrivent au bord du fossé, qui était large et rempli de limon et de
vase; ils y avaient déja jeté une grande quantité de fascines, et les
cavaliers commençaient à mettre pied à terre et à défiler, lorsque les
soldats postés sur la brèche fondent sur eux. En même temps on fait
pleuvoir du haut des murs les pierres et les dards: beaucoup de
Perses sont renversés; les autres veulent fuir; mais pressés à la fois
par leurs gens qui les suivent en foule et par les ennemis, accablés
du poids de leurs armes, ils se culbutent dans le fossé et restent
ensevelis dans le limon. Les assiégés enlèvent les fascines et se
retirent sur la brèche. Sapor, après le mauvais succès de cette
attaque, fait avancer ses éléphants, plutôt à dessein de jeter l'effroi
dans la ville, que dans l'espérance de faire franchir le fossé à des
animaux pesants par eux-mêmes, et chargés d'un poids énorme. Ils
marchaient à des distances égales; et les intervalles étant remplis
d'infanterie, on eût cru voir approcher une muraille garnie de ses
tours. Les habitants, sans s'effrayer de cette seconde attaque, s'en
amusèrent d'abord comme d'un beau spectacle; bientôt ils font une
décharge de toutes leurs machines, défient les barbares et les
insultent à grands cris. Les Perses, prompts à la colère, et trop fiers
pour souffrir les railleries, accouraient au bord du fossé, et se
disposaient à le passer malgré le roi, qui faisait sonner la retraite;
lorsqu'une grêle de pierres et de traits les força d'obéir et de
regagner leur camp. Plusieurs des éléphants tombèrent dans le
fossé et y périrent: les autres, blessés ou effarouchés, retournent sur
leurs propres soldats, et en écrasent des milliers.
Sapor comptait toujours sur la supériorité de ses
forces. Il suspendit l'attaque pendant un jour, pour xvii. Opiniâtreté
laisser au terrain le temps de se dessécher et de se de Sapor.
raffermir. Cependant il partagea ses archers en
plusieurs corps, avec ordre de se relever les uns les autres, et de
tirer sans cesse sur la brèche, afin de ne pas donner aux assiégés le
temps de la réparer. Mais derrière les soldats qui la défendaient, une
quantité innombrable de bras travaillaient sans être aperçus; et,
après un jour et une nuit, Sapor fut surpris de voir dès le matin un
nouveau mur déja élevé de quatre coudées. Il ne perdit pas encore
l'espérance: il renouvela plusieurs fois les mêmes efforts, mais
toujours avec aussi peu de succès. Dans une des dernières
attaques, l'évêque étant venu sur la muraille pour animer les
combattants, Sapor le prit pour l'empereur; il crut voir le diadème et
la pourpre impériale. Il entre aussitôt en grande colère contre ceux
qui lui avaient affirmé que Constance était à Antioche, et les menace
de la mort. En même temps, il envoie signifier aux assiégés qu'ils
aient à se rendre, si l'empereur n'aime mieux sortir en campagne et
décider du sort de la ville par une bataille. Les habitants ayant
répondu que l'empereur était absent, et qu'ils ne pouvaient capituler
sans son ordre, le roi plein de courroux les traite de fourbes et de
menteurs, protestant qu'il a vu de ses propres yeux Constance sur la
muraille. Les mages cependant vinrent à bout de l'adoucir et même
de l'intimider, en lui persuadant que celui qu'il avait pris pour
Constance était un ange, qui défendait la ville. Alors ce prince
impétueux et impie, lançant vers le ciel un regard furieux, banda son
arc, et décocha en l'air une flèche, comme s'il eût voulu combattre
Dieu même qui se déclarait son ennemi.
Enfin après avoir perdu vingt mille hommes, ayant
appris que les Massagètes étaient entrés dans la xviii. Levée du
Perse en son absence, il se détermina à lever le siége.
siége, qui avait duré près de quatre mois. Il brûla ses
machines, détruisit tous ses travaux, et fit mourir plusieurs satrapes,
les uns pour avoir mal construit la digue que les eaux avaient forcée,
les autres pour avoir mal fait leur devoir dans les attaques, d'autres
sous divers prétextes: car c'est, dit Julien, la coutume des rois
barbares de l'Asie, de rendre leurs officiers responsables des
mauvais succès, et de les immoler à leur dépit et à leur honte.
Pendant le retour, la peste se mit dans l'armée, et en détruisit encore
une partie. Sapor fut ensuite long-temps occupé par des voisins
belliqueux, et Constance par les guerres d'Occident; en sorte que,
sans aucun traité, il n'y eut pendant plusieurs années entre les
Romains et les Perses d'autre hostilité, que quelques pillages sur la
frontière.
On ajoute plusieurs miracles au récit de ce fameux
siége. Selon Théophanes, le ciel s'arma contre les xix. Miracles
Perses de tous ses feux et de tous ses orages: les qu'on raconte à
nuées les couvrirent d'épaisses ténèbres, et les l'occasion de ce
inondèrent d'un nouveau déluge; la foudre en écrasa siége.
plusieurs, et les éclats affreux du tonnerre en firent Theod. l. 2, c.
mourir d'autres de peur. Théodoret raconte que, le 30.
saint diacre Éphrem ayant prié saint Jacques de se Theoph. p. 33.
montrer sur les murailles, et de lancer sa malédiction
Chron. Alex. vel
sur les Barbares, l'évêque monta dans une tour; et Pasch. p. 290 et
que, voyant leur multitude, il pria Dieu d'envoyer des 291.
moucherons pour défaire cette formidable armée, et
confondre l'orgueil de ce nouveau Pharaon; qu'aussitôt une nuée de
ces insectes s'étant répandue dans la plaine, ces ennemis presque
invisibles pénétrèrent dans la trompe des éléphants, dans les
oreilles et les naseaux des chevaux, les mirent en fureur, et leur
firent prendre la fuite en jetant par terre leurs cavaliers, avec tant de
désordre, que Sapor fut obligé d'abandonner son entreprise.
Constance donna ses ordres pour réparer les
fortifications de la ville, et pour récompenser la xx. Préparatifs
fidélité de ces braves citoyens. Il était alors tout de Constance.
occupé des préparatifs de la guerre qu'il allait faire à
Jul. or. 1, p. 28
Magnence. Il employa près de dix mois à construire et 29; 42 et 43,
et à équiper une flotte, qui, selon Julien, surpassait ed. Spanh.
celle de Xerxès. Il rappela au drapeau tous les Socr. l. 2, c. 26.
soldats qui avaient obtenu leur congé sans avoir
fourni le temps de leur service, et sans cause de Theod. l. 3, c. 3.
maladie. Quand il eut rassemblé ses troupes, étant Soz. l. 4, c. 1.
prêt à se mettre en marche, il exhorta tous ceux qui Zon. l. 13. t. 2,
composaient son armée à recevoir le baptême: «Le p. 15.
terme de la vie, leur dit-il, toujours incertain, l'est
surtout dans la guerre. La mort vole sans cesse autour de nous et
sur nos têtes; elle nous menace sous la forme de toutes sortes
d'armes. Que chacun de vous ne diffère donc pas de se revêtir de la
robe précieuse du baptême, sans laquelle il n'a point de droit au
triomphe céleste. Si quelqu'un refuse de se faire baptiser, qu'il se
retire. Je ne veux point de soldats qui ne soient enrôlés sous les
étendards de Jésus-Christ.» On peut remarquer, sans en être
surpris, que Constance fit alors pratiquer à ses soldats ce qu'il se
dispensa lui-même de pratiquer: il ne demanda le baptême que
lorsqu'il fut près de mourir.
L'empereur, avant son départ d'Antioche, reçut les
députés de Magnence, chargés de lui proposer un xxi. Députation
accommodement: c'étaient Servais évêque de de Magnence et
Tongres, un autre évêque de Gaule nommé Maxime, de Vétranion.
et deux seigneurs, Clémentius et Valens. Ils étaient
venus par l'Afrique, et à leur passage par Alexandrie Ath. apol. ad
ils furent bien reçus d'Athanase: ce que les Ariens Const. t. 1, p.
ne manquèrent pas d'envenimer dans la suite, 300, et epist. ad
monach. p. 34.
accusant le saint prélat d'intelligence avec le tyran.
Cette ambassade ne produisit aucun effet; et Jul. or. 1, p. 30
Constance se mit en marche pour passer en Europe. et or. 2, p. 76,
ed. Spanh.
Alors, soit que Vétranion, se défiant de la
complaisance de l'empereur, eût cherché à [Themist. or. 3,
s'appuyer du secours de Magnence, soit que celui- p. 42, et or. 4· p.
56.].
ci, pour dérober à Constance les forces de l'Illyrie,
eût prévenu Vétranion, les deux usurpateurs se Petr. Patric. p.
27.
liguèrent, et envoyèrent de concert une nouvelle
députation. L'empereur traversa le Bosphore à Zon. l. 13, t. 2,
Constantinople, qui tremblait déja dans la crainte p. 15.
d'éprouver les mêmes désastres que Rome avait
deux fois essuyés. Il rassura la ville par sa présence, et continua sa
marche vers l'Illyrie. Il était à Héraclée, lorsqu'il reçut l'ambassade
des deux tyrans: elle était composée de Rufinus, préfet du prétoire,
de Marcellinus, général des troupes de Magnence, du sénateur
Nunécius et de Maxime. Ils apportaient à Constance des paroles de
paix, à condition qu'il abandonnerait aux deux nouveaux empereurs
les pays dont ils étaient en possession, et qu'il se contenterait du
premier rang entre les trois Augustes. Ils lui représentèrent le danger
auquel il allait s'exposer en combattant deux capitaines pleins
d'expérience, unis ensemble et suivis de deux armées invincibles;
qu'un seul serait déja un ennemi trop redoutable; que la guerre civile
allait armer contre lui les mêmes bras auxquels son père avait été
redevable de tous ses triomphes; que pour eux ils souhaitaient qu'il
ne voulût pas éprouver sur lui-même ce que pouvaient contre
l'empereur des généraux qui avaient si vaillamment servi l'empire.
Constance venait de perdre sa première femme: Magnence offrait
de cimenter la paix par une double alliance, en donnant sa fille à
Constance, et en recevant de sa main sa sœur Constantine. Ces
propositions mêlées de menaces embarrassaient l'empereur,
naturellement timide et irrésolu: il balançait entre la crainte du péril et
l'intérêt de sa gloire. Rempli de ces inquiétudes il s'endormit, et crut
voir en songe Constantin, son père, qui lui présentait Constant, et lui
disait: «Mon fils, voilà votre frère que Magnence a égorgé; vengez-
le, et punissez le tyran. Songez à l'honneur, sans vous effrayer du
péril. Quelle honte pour vous de vous laisser arracher une partie de
votre héritage!» C'est le caractère des ames faibles de résister à la
raison, et de céder sans effort à tout le reste: un songe fit ce qu'elle
n'avait pu faire. Constance à son réveil commande qu'on arrête les
députés comme des rebelles, et qu'on les charge de fers. Il ne
renvoie que Rufinus; mais bientôt après il relâche aussi les autres; et
sans perdre de temps il arrive à Sardique.
Vétranion marchait pour fermer le pas de Sucques.
Prévenu par la diligence de l'empereur, et ne se xxii. Vétranion
croyant pas en état de lui tenir tête, il prit le parti de dépouillé.
conclure avec lui un traité. Il consentit même à réunir
Jul. or. 1. p. 30
les deux armées, et à tenir un conseil de guerre en et or. 2. p. 76.
présence des officiers et des soldats, pour délibérer
Amm. l. 21, c. 8.
sur les mesures à prendre contre l'ennemi commun.
Cependant Constance travaille sourdement à Aur. Vict. de
débaucher les soldats de Vétranion; et il vient à bout cæs. p. 179.
d'en gagner une grande partie. On se rend dans la Vict. epit. p.
plaine de Naïsse le 25 décembre: on dresse un 226.
tribunal élevé, sur lequel s'asseyent les deux Eutr. l. 10.
empereurs, sans armes et sans gardes. Les deux Zos. l. 2, c. 44.
armées formaient un cercle à l'entour; chaque corps
Hier. chron.
était rangé en bon ordre sous ses enseignes, et
cette assemblée militaire faisait un spectacle tout à Themist. or. 3,
la fois magnifique et terrible. Constance se leva, et p. 45, et or. 4, p.
56.
prit la parole le premier en considération de sa
naissance. Son discours fut tout autre que celui Socr. l. 2, c. 18.
qu'attendait Vétranion. Il commença à la vérité par Soz. l. 4, c. 4.
exhorter les soldats à venger sur Magnence la mort Philost. l. 3, c.
cruelle de leur empereur, qu'ils avaient si 22.
glorieusement servi contre les Barbares, et qui avait Idat. chron.
tant de fois récompensé leur valeur. Mais bientôt
Chron. Alex. vel
tournant toute sa véhémence contre celui qui était Pasch. p. 191 et
assis à côté de lui, et qui se regardait comme son 192.
collègue: «Souvenez-vous, soldats, s'écria-t-il, des
bienfaits de mon père; souvenez-vous des serments
que vous avez faits de ne souffrir le diadème que sur Zon. l. 13, t. 2,
la tête des enfants de Constantin. Qui de vous osera p. 15 et 16.
comparer le fils et le petit-fils de vos empereurs à Theoph. p. 37.
des hommes nés pour obéir? Laisserez-vous
déchirer l'empire; et n'avez-vous pas appris par les troubles qui
environnèrent votre berceau, que l'état ne peut être tranquille, que
quand il ne reconnaît qu'un seul maître?» A ces mots les deux
armées, comme de concert, proclament Constance seul Auguste,
seul empereur: elles s'écrient qu'il faut se défaire de tous ces
souverains illégitimes, qui déshonorent le diadème. On menace
Vétranion. Les soldats étaient prêts à fondre sur lui: mais ce fantôme
d'empereur, se voyant trahi, se jette aux pieds de Constance, qui
arrête la fougue des soldats: il descend du tribunal; il se dépouille
lui-même de la pourpre et du diadème, qu'il remet entre les mains de
Constance. Les orateurs de ce temps-là parlent avec emphase du
succès merveilleux de cette éloquence, qui produisant l'effet d'une
grande victoire sans verser de sang, conquit au prince toute l'Illyrie,
et fit passer sous ses drapeaux une nombreuse infanterie, vingt mille
chevaux, et les troupes auxiliaires de plusieurs nations belliqueuses.
Mais nous savons que l'argent de Constance partage au moins avec
son éloquence la gloire de l'événement, et que Gumoarius, capitaine
des gardes de Vétranion, avait d'avance ménagé cette révolution.
Constance ayant embrassé Vétranion, qui tremblait
d'effroi, encore plus que de vieillesse, le prit par la xxiii. Conduite
main pour le garantir des insultes de la soldatesque; de Constance à
et l'ayant conduit dans sa tente, il le fit manger avec l'égard de
lui. Comme il était en humeur de discourir, il Vétranion.
l'entretint des embarras de la puissance souveraine,
surtout dans un âge avancé, et de la douceur du repos d'une vie
privée: qu'il ne perdait qu'un nom frivole, qui n'avait de réel que les
chagrins; et qu'il allait jouir d'un bonheur solide, et sans mélange
d'inquiétude. Cette morale, assez déplacée dans la bouche de
Constance, aurait déplu à tout autre; elle se trouva au goût de ce
vieillard simple, à qui il ne restait que l'étonnement de s'être vu
empereur pendant dix mois. Constance l'envoya à Pruse en
Bithynie; il lui donna un train magnifique, et des revenus
considérables. Vétranion, en passant par Constantinople, y parut
avec splendeur: captif heureux, il semblait triompher de sa défaite. Il
vécut à Pruse pendant six années; et Constance eut à se féliciter du
succès de ses leçons. Le vieillard s'accommoda si bien de cette
tranquille opulence, qu'il fit écrire souvent à l'empereur pour le
remercier de l'avoir affranchi de cette sorte d'esclavage qu'on
appelle souveraineté: Vous avez tort, lui mandait-il, de ne pas
prendre votre part de ce bonheur que vous savez procurer aux
autres. On rapporte qu'il assistait fréquemment aux assemblées des
fidèles, qu'il répandait d'abondantes aumônes, et qu'il conserva
jusqu'à la mort un profond respect pour les personnes consacrées
au culte des autels.
L'empereur, devenu maître de l'Illyrie et de la
Pannonie, s'arrêta à Sirmium, capitale de cette An 351.
dernière province. Il y était dès le commencement de
l'année suivante, 351 de Jésus-Christ, pour laquelle xxiv. Constance
jette les yeux
il ne créa point de consuls. Il s'agissait de sur Gallus pour
reconquérir la moitié de l'empire, plutôt que de lui le faire César.
donner des magistrats. Mais Magnence, empressé Buch. Cycl. p.
de mettre en usage tous les droits de l'autorité 240, 251 et 253.
souveraine, se nomma lui-même consul avec
Gaïson, le meurtrier de Constant. La rigueur de la Idat. chron.
saison qui rendait les passages impraticables, Aur. Vict. de
fermait à Constance l'entrée de l'Italie. D'un autre cæs. p. 180.
côté, l'Orient restait exposé aux incursions des Socr. l. 2, c. 28.
Perses. Dans la crainte qu'ils ne profitassent de son Philost. l. 3, c.
éloignement, il crut ne pouvoir mieux faire que de 25.
donner le titre de César à Gallus, son cousin- [Chron. Alex. vel
germain, alors âgé de vingt-quatre ans, et de lui Pasch. p. 292.
confier la défense des provinces orientales. C'était Zon. l. 13, t. 2,
un prince de peu d'esprit, et tout-à-fait incapable de p. 16.]
soutenir le fardeau dont on accablait sa faiblesse. Je
l'ai laissé avec son frère Julien au milieu du massacre qui fit périr sa
famille, après la mort de Constantin. Je vais reprendre en peu de
mots l'histoire de ces deux princes.
Les meurtriers avaient épargné Gallus, parce qu'il semblait être sur
le point de mourir de maladie: Marc, évêque d'Aréthuse, avait sauvé
Julien. La fureur des soldats étant assouvie,
Constance, qui n'avait point d'enfants, prit le parti de xxv. Éducation
laisser vivre ces deux jeunes princes, l'unique de Gallus et de
ressource de la famille impériale. Il leur rendit une Julien.
partie de leurs biens, et les sépara l'un de l'autre, Jul. ad Ath. p.
envoyant Gallus à Éphèse en Ionie, où il possédait 272 et 273.
de grandes terres; et mettant Julien entre les mains Misop. p. 350-
d'Eusèbe de Nicomédie, son parent du côté de 354, epist. 9, p.
Basilina. On donna des maîtres à Gallus, qui ne fit 378.
pas de grands progrès. Mais Julien se montra dès Greg. Naz. or.
l'enfance docile, pénétrant, et avide de 3. t. 1, p. 58.
connaissances. Les leçons d'Eusèbe, évêque fourbe
Liban. or. 5. t. 2,
et hypocrite, qui avait autrefois sacrifié aux idoles, p. 174, 176, et
n'étaient guère propres à établir les solides or. 10. p. 262 et
fondements de la foi dans un esprit léger, seq.
présomptueux, hardi: et peut-être jetèrent-elles dans Amm. l. 22, c. 9.
le cœur de Julien les premières semences de
l'apostasie. A l'âge de sept ans, son éducation fut [Eutrop. l. 10.
confiée à un eunuque, Scythe de nation, nommé Vict. epit. p.
Mardonius, homme de lettres et philosophe. Il avait 228.]
été employé par l'aïeul maternel de Julien, à Socr. l. 3, c. 1.
expliquer à Basilina les poésies d'Homère et
d'Hésiode. Il y a quelque apparence que ce gouverneur était un
païen déguisé: du moins peut-on le soupçonner par les louanges
que Julien lui donne dans sa satyre contre le peuple d'Antioche.
Mais c'était un homme austère dans ses mœurs. Il inspira de bonne
heure à son élève l'éloignement des spectacles et des plaisirs, le
goût du travail et des occupations sérieuses, la gravité et la
modestie dans le maintien, et cet orgueil philosophique qui joue le
rôle de la sagesse. Sous la conduite de ce guide vigilant, Julien
fréquentait les écoles publiques, autant pour s'essayer aux vertus
civiles, que pour y prendre des leçons. Là confondu avec ceux de
son âge, soumis sans dispense aux mêmes exercices, assujetti aux
mêmes heures, il apprenait à connaître les hommes; à ne pas trop
s'estimer lui-même, faute de comparaison; à obéir à la règle, au
temps, aux circonstances; à se montrer patient, affable, humain,
bienfaisant; il ne se distinguait que par la vivacité d'esprit, la fidélité
de la mémoire, et l'application au travail. Ce fut apparemment en ce
temps-là qu'il fut instruit dans la grammaire et dans la lecture des
poètes et des historiens, par le grammairien Nicoclès de
Lacédémone, renommé pour son savoir et son amour de la justice.
Mardonius, de son côté, s'attachait à remplir son cœur des plus
belles maximes de Pythagore, de Platon et d'Aristote.
Gallus approchait de vingt ans, et Julien en avait
quatorze, lorsque Constance, défiant et jaloux, les fit xxvi. Gallus et
tous deux conduire à Macellum, au pied du mont Julien à
Argée, près de Césarée en Cappadoce. C'était un Macellum.
château du domaine impérial, orné de bains, de Jul. ad Ath. p.
jardins, et de fontaines d'eau-vive. C'eût été pour 272 et 273.
ces princes un séjour délicieux, s'il n'eût pas été
Greg. Naz. or.
forcé, et si l'on ne leur eût pas retranché tous les 3, t. 1, p. 58.
agréments de la société. On les entretenait avec
magnificence; ils étaient servis par un grand nombre Socr. l. 3, c. 1.
de domestiques; mais on les gardait à vue comme Theod. l. 3, c. 2.
des prisonniers; l'entrée était interdite à leurs amis, Soz. l. 5, c. 2.
et à tous les jeunes gens de condition libre. Ils Theoph. p. 29.
n'avaient de compagnons dans leurs exercices que
leurs esclaves. L'étude aurait pu charmer leur ennui,
et ils ne manquaient pas de maîtres en toute sorte de sciences.
Julien s'en occupait avec plaisir; mais Gallus ne s'y prêtait que par
contrainte: sans goût comme sans génie, il avait un fonds de dureté
et de rudesse, qui s'accrut encore par cette éducation triste et
solitaire.
Il eut cependant le bonheur de profiter mieux que
son frère des instructions chrétiennes qu'il reçut xxvii. Différent
dans ce séjour. L'empereur avait eu soin de leur succès des
choisir des maîtres chrétiens qui, non contents de instructions
leur expliquer les livres saints et les dogmes de la chrétiennes
foi, s'attachaient encore à les exercer aux pratiques données aux
de la religion. On leur inspirait le goût de l'office deux princes.
divin, le respect pour les personnes consacrées à
Dieu ou distinguées par leur vertu; on les conduisait souvent aux
sépultures des martyrs, qu'ils honoraient de leurs offrandes. On les
fit même entrer dans le clergé: ils furent ordonnés lecteurs, et ils en
firent ensuite la fonction dans l'église de Nicomédie. Julien, souple et
dissimulé, se pliait à ces pieux exercices. Mais son caractère
superbe, peut-être les premières insinuations de Mardonius, et plus
encore la haine qu'il portait à Constance, qui lui procurait cette
éducation chrétienne, entretenaient dans son cœur un secret
penchant à l'idolâtrie. Il s'échappait même, quand il le pouvait faire
sans courir le risque d'être démasqué; et dans les déclamations dont
on l'occupait avec son frère, et qui roulaient quelquefois sur le
parallèle des deux religions, il ne manquait jamais de laisser à
Gallus la défense du christianisme, et se réservait de défendre la
cause des dieux, sous prétexte qu'étant la plus mauvaise, elle était
aussi la plus difficile à soutenir. Il la plaidait de si bonne foi, qu'il avait
besoin de toute son hypocrisie pour étouffer les soupçons et les
inquiétudes de ses maîtres. Mais s'il était assez habile pour les
tromper, il n'en imposait pas à celui qui pénètre les replis des
consciences; et Dieu fit connaître dès lors qu'il voyait le fond de son
cœur. Les deux frères entreprirent de bâtir une église sur le tombeau
de saint Mamas, célèbre martyr de Cappadoce. Ils partagèrent entre
eux le soin de cet édifice, s'efforçant à l'envi de se surpasser en
magnificence. Les travaux de Gallus ne rencontraient aucun
obstacle; mais ceux de Julien étaient arrêtés et détruits par une main
invisible. Tantôt ce qui était élevé s'écroulait tout à coup; tantôt la
terre se soulevant repoussait les fondements qu'on y voulait asseoir.
On fut obligé d'abandonner l'ouvrage, et le saint martyr sembla
rejeter avec horreur les hommages d'un ennemi caché, qui devait un
jour déclarer la guerre aux successeurs de sa foi et de son courage.
Saint Grégoire de Nazianze offre de produire un grand nombre de
témoins oculaires de ce prodige; et la mémoire en était encore
récente du temps de Sozomène.
Après six ans de retraite dans le château de
Macellum, Gallus fut rappelé à la cour, et revêtu le xxviii. Gallus
15 de mars 351 de la dignité de César. Si l'on en déclaré César.
veut croire l'Arien Philostorge, ce fut Théophile,
Idat. chron.
l'apôtre des Ariens[7], qui procura à Gallus les Buch. Cycl. p.
bonnes grâces de Constance; il fit même jurer à ces 241, 251 et 253.
deux princes une amitié sincère. Le nouveau César Amm. l. 14, c.
prit le nom de Constantius. L'empereur lui donna en 11.
même temps en mariage sa sœur Constantine[8], Aur. Vict. de
veuve d'Hanniballianus; et l'envoya en Orient avec le cæs. p. 180.
général Lucillianus, pour résister aux Perses. Ce Vict. epit. p.
jeune prince avait les grâces de l'extérieur: une taille 226.
bien proportionnée, les cheveux blonds et frisés, un Zos. l. 2, c. 45.
air majestueux. Comme il passait par Nicomédie, il Liban. or. 10. t.
rencontra son frère Julien, qui venait d'obtenir la 2, p. 264.
permission d'aller à Constantinople, pour y achever [Socr. l. 2, c.
ses études. 29.]
[7] Au sujet de ce personnage, voyez ci-devant, liv. 6, § Soz. l. 5, c. 2.
36.—S.-M.
Philost. l. 3, c.
[8] Zosyme et plusieurs autres auteurs l'appellent par 25, et l. 4, c. 1.
erreur Constantia.—S.-M.
Chron. Alex. vel
Étant arrivé à Antioche, où il devait fixer sa Pasch. p. 292.
résidence, il commença par donner des preuves de [Theoph. p. 33.]
son attachement au christianisme. A cinq milles de
Zon. l. 13, t. 2,
cette ville était le bourg célèbre de Daphné, séjour p. 16.
de plaisir et de délices. Il était environné d'un bois de
[Cedren. t. 1, p.
lauriers, et d'autres arbres agréables, dont Pompée 302.]
avait autrefois augmenté l'étendue jusqu'à dix mille
pas de circuit. La terre était émaillée des fleurs les Till. not. 19.
plus odoriférantes, selon la diversité des saisons.
L'épaisseur des feuillages, mille ruisseaux d'une eau
aussi pure que le cristal, et les vents frais et chargés xxix. Il purifie le
du parfum des fleurs, y conservaient le printemps au bourg de
Daphné.
milieu des plus grandes chaleurs de l'été. Ce n'était
plus sur les bords du Pénée que Daphné avait été Chrysost. de
changée en laurier: l'imagination des habitants Babyla, t. 2, p.
533.
d'Antioche avait transféré sur leur territoire la scène
des amours d'Apollon et de la nymphe; et cette fable Amm. l. 22, c.
voluptueuse, d'accord avec les charmes de ce lieu, 13.
inspirait une dangereuse mollesse. L'air de ce séjour Theod. l. 3, c.
enchanté portait dans les veines le feu séducteur 10.
des passions les plus capables de surprendre la Socr. l. 3, c. 18.
vertu même. Aussi nulle personne vertueuse n'osait [Soz. l. 5, c. 19.]
se permettre l'entrée de ce bois: c'était le rendez- Vulcat. Gallic. in
vous d'une jeunesse lascive, qui se faisait un jeu de Avidio. c. 5.
donner et de recevoir les impressions de la volupté.
C'eût été se faire regarder comme un homme étrange et sauvage,
que d'y paraître sans la compagnie d'une femme. Cette vie
licencieuse était passée en proverbe. Sous Marc-Aurèle il fut
défendu aux soldats d'y mettre le pied, sur peine d'être
honteusement chassés du service. Mais la contagion de la
débauche, plus forte que toute l'austérité de la discipline romaine,
ayant corrompu les soldats d'une légion qui gardait ce poste,
l'empereur Alexandre Sévère fit mourir plusieurs de leurs officiers
pour n'avoir pas prévenu ce désordre. La superstition y consacrait le
déréglement: elle avait honoré ce lieu du droit d'asyle. Dans un
temple magnifique bâti par Séleucus Nicator, ou, selon Ammien
Marcellin, par Antiochus Épiphanes, on adorait une fameuse statue
d'Apollon. C'était un des plus célèbres oracles. Là coulait aussi une
fontaine qui portait le nom de Castalie, parce qu'on attribuait à ses
eaux, comme à celles de la fontaine de Delphes, la vertu de
communiquer la connaissance de l'avenir. Gallus, pour détruire en
ce lieu le règne de l'idolâtrie et de la dissolution, y fit transporter les
reliques de saint Babylas, évêque d'Antioche, martyrisé sous
l'empire de Décius. Selon S. Jean Chrysostôme, Théodoret et
Sozomène, la présence de ce saint corps imposa tout à coup silence
à Apollon, et mit en fuite le libertinage. La séduction de l'oracle, les
offrandes du peuple païen, les parties de débauche cessèrent en
même temps; et Daphné, après avoir été pendant plusieurs siècles
le théâtre de la licence la plus effrénée, devint un lieu de
recueillement et de prières.
Tandis que Constance élevait Gallus au rang de
César, et qu'il le chargeait de la défense de l'Orient, xxx. Décentius
Magnence qui était à Milan donnait le même titre à César.
son frère Décentius[9], et l'envoyait dans la Gaule Liban. or. 10, t.
infestée par les courses des barbares. Si l'on en croit 2, p. 269-273.
Libanius et Zosime, qui ne sont pas moins suspects Amm. l. 16, c.
dans le mal qu'ils disent de Constance, que dans les 12.
louanges excessives qu'ils prodiguent à Julien, Zos. l. 2, c. 45.
c'était l'empereur lui-même qui les avait attirés. Aur. Vict. de
Sacrifiant cette belle province à sa colère contre Cæs. p. 180.
Magnence, il les avait engagés par de grandes Vict. epit. p.
sommes d'argent à passer le Rhin, et leur avait 226.
abandonné par des lettres expresses la propriété Eutr. l. 10.
des conquêtes qu'ils y pourraient faire. Ce qu'il y a
de certain, c'est que diverses bandes de Francs, de Zon.
p. 16.
l. 13, t. 2,
Saxons, d'Allemans se répandirent dans la Gaule, et
qu'ils y firent de grands ravages. Il ne paraît pas
qu'ils aient trouvé beaucoup d'opposition de la part
[Eckhel, doct.
de Décentius, dont la bravoure n'est connue que par num. vet. t. viii,
le titre de très-vaillant qu'on lit sur ses monnaies. p. 123.]
Mais l'histoire, qui ne s'accorde pas toujours avec
ces monuments de flatterie, nous apprend
seulement que le César fut défait en bataille rangée par
Chnodomaire, roi des Allemans; que le vainqueur pilla et ruina
plusieurs villes considérables, et qu'il courut la Gaule sans trouver
de résistance, jusqu'à ce qu'il eût rencontré dans Julien un ennemi
plus formidable.
[9] Il était seulement son parent, selon Zosime.—S.-M.
Dans le même temps que ces barbares occupaient
Décentius, d'autres bandes des mêmes nations, xxxi. Magnence
attirées par la solde et par l'espoir du butin, se met en
grossissaient l'armée de Magnence. Celui-ci traînait marche.
à sa suite les principales forces de l'Occident, et se Jul. or. 1, p. 34,
croyait en état d'envahir tout l'empire, et de porter la 35 et 36, et or.
terreur jusque chez les Perses. Plein d'ardeur et de 2, p. 57 et 97.
confiance, il en avait autant inspiré à ses troupes, en Socr. l. 2, c. 28
leur promettant le pillage de tous les pays dont il et 29.
allait faire la conquête. Il traverse les Alpes Zos. l. 2, c. 45.
Juliennes, tandis que l'empereur, au lieu de se
mettre à la tête de son armée, s'arrêtait à Sirmium,
et s'occupait d'un concile. Les généraux de Constance marchèrent
au-devant de l'ennemi, et l'attendirent d'abord au pied des Alpes.
Ensuite se voyant supérieurs en cavalerie, ils feignirent de prendre
l'épouvante et reculèrent en arrière, pour l'attirer dans les plaines de
la Pannonie. Magnence, trompé par cette feinte, se mit à les
poursuivre, et s'exposa mal à propos dans un pays découvert. Mais
dans cette marche, il usa à son tour d'un stratagème dont il tira
quelque avantage. Il fit dire aux généraux ennemis que, s'ils
voulaient l'attendre dans les plaines de Siscia, ce serait un beau
champ de bataille pour terminer leur querelle. Constance, averti de
cette bravade, accepta le défi avec joie: le lieu ne pouvait être plus
propre à sa cavalerie. Il ordonna de marcher vers Siscia. Pour y
arriver, il fallait traverser le vallon d'Adranes, au-dessus duquel
Magnence avait posté une embuscade. Les troupes de Constance,
qui marchaient sans ordre comme sans défiance, s'y étant
engagées, se virent bientôt accablées de gros quartiers de rochers,
qu'on roulait sur eux, et qui en écrasèrent une partie; les autres
furent obligés de retourner sur leurs pas, et de regagner la plaine.
Magnence, enflé de ce succès, hâte sa marche,
résolu d'aller chercher Constance à Sirmium, et de xxxii.
lui présenter la bataille. Comme il se disposait à Propositions de
passer la Save, il vit arriver dans son camp Philippe, paix rejetées
officier de Constance, chargé en apparence de faire par Magnence.
des propositions de paix, mais qui ne venait en effet Zos. l. 2, c. 46
que pour reconnaître les forces de l'ennemi et et 47.
pénétrer ses desseins. Philippe, approchant du Zon. l. 13, t. 2,
camp, avait rencontré Marcellinus, qui le conduisit à p. 16.
Magnence. Celui-ci, afin de ne donner aucun
soupçon à ses troupes, fait aussitôt assembler l'armée, et ordonne à
Philippe d'exposer publiquement sa commission. Le député
représente hardiment aux soldats qu'étant Romains, ils ne doivent
pas faire la guerre à des Romains; qu'ils ne peuvent, sans une
ingratitude criminelle, combattre un fils de Constantin qui les a tant
de fois enrichis des dépouilles des Barbares. Ensuite adressant la
parole à Magnence: «Souvenez-vous, lui dit-il, de Constantin;
rappelez-vous les biens et les honneurs dont il vous a comblé, vous
et votre père; il vous a donné un asyle dans votre enfance; il vous a
élevé aux premiers emplois de la milice; son fils ajoute encore à ses
bienfaits; il vous cède la possession de tous les pays au-delà des
Alpes; il ne vous redemande que l'Italie». Ces paroles, confirmées
par les lettres de l'empereur, dont Philippe fit la lecture, furent
applaudies de toute l'armée; l'usurpateur eut beaucoup de peine à
se faire écouter; il se contenta de dire qu'il ne désirait lui-même que
la paix; qu'il s'agissait d'en régler les conditions; qu'il allait s'en
occuper, et que le lendemain il leur en rendrait compte. L'assemblée
s'étant séparée, Marcellinus emmène Philippe dans sa tente,
comme pour lui faire un accueil honorable. Magnence invite à
souper tous les officiers de l'armée; il les regagne autant par la
bonne chère que par les raisons; et dès le point du jour ayant de
nouveau assemblé les soldats, il leur représente ce qu'ils avaient eu
à souffrir des débauches de Constant, et la généreuse résolution
qu'ils avaient prise et exécutée d'affranchir l'état en étouffant ce
monstre. Il ajouta que c'était de leurs mains qu'il tenait le diadème;
et qu'il ne l'avait accepté qu'avec répugnance.
Ce discours, appuyé du suffrage des officiers,
ralluma dans tous les cœurs l'ardeur de la guerre. xxxiii. Il reçoit
Magnence retient Philippe prisonnier. On prend les un échec au
armes, on marche vers la Save. Constance s'était passage de la
rendu près de Siscia située sur le fleuve: c'était à la Save.
vue de cette ville que Magnence entreprit de le Zos. l. 2, c. 48.
passer. A la nouvelle de son approche, un
détachement de l'armée impériale borde la rive opposée; on accable
de traits ceux qui traversant à la nage s'efforçaient de franchir les
bords; on repousse avec vivacité les autres qui passaient sur un
pont de bateaux fait à la hâte. La plupart, resserrés entre leurs
camarades et les ennemis, sont culbutés du pont dans le fleuve. On
poursuit les fuyards l'épée dans les reins. Magnence, désespéré de
la déroute de ses troupes, a recours à un stratagème: ayant planté
sa pique en terre, il fait signe de la main qu'il veut parler de paix; on
s'arrête pour l'écouter; il déclare qu'il ne prétend passer la Save que
du consentement de l'empereur; que c'est pour se conformer à la
demande de Philippe, qu'il s'éloigne de l'Italie; qu'il ne s'avance en
Pannonie que dans le dessein d'y traiter d'un accord. Une ruse si
grossière n'en pouvait imposer à Constance. Cependant, comme il
était toujours persuadé que nul champ de bataille ne lui était plus
favorable que les vastes campagnes entre la Save et la Drave, il fit
cesser la poursuite, et laissa à Magnence la liberté du passage.
Pour lui, il alla se poster à son avantage près de Cibalis, lieu déja
fameux par la victoire que son père y avait, trente-sept ans
auparavant, remportée sur Licinius. Il établit son camp dans la
plaine, entre la ville et la Save, s'étendant jusqu'au bord du fleuve,
sur lequel il fit jeter un pont de bateaux, qu'il était aisé de détacher et
de rassembler. Le reste fut environné d'un fossé profond et d'une
forte palissade. Ce camp semblait être une grande ville; au milieu
s'élevait la tente de l'empereur, qui égalait un palais en
magnificence.
Constance y donnait un repas aux officiers de son
armée, lorsque Titianus se présenta de la part de xxxiv. Insolence
Magnence. C'était un sénateur romain, distingué par de Titianus.
son éloquence et par ses dignités. Il avait été
Zos. l. 2, c. 49.
gouverneur de Sicile et d'Asie, consul l'année de la
mort de Constantin, préfet de Rome et du prétoire Hier. chron.
des Gaules sous Constant. S'étant attaché à Till. Constantin,
Magnence, il en avait reçu de nouveau la préfecture art. 76, et
de Rome, et il l'avait conservée jusqu'au premier de Constance, art.
mars de cette année. Il apportait des propositions 5.
outrageantes, qu'il accompagna d'un discours
encore plus insolent. Après une injurieuse invective contre
Constantin et ses enfants, dont le mauvais gouvernement causait,
disait-il, tous les malheurs de l'état, il signifia à Constance qu'il eût à
céder l'empire à son rival, et qu'il devait se tenir heureux qu'on voulût
bien lui laisser la vie. L'empereur ne montra jamais autant de
fermeté d'ame que dans cette occasion; il répondit tranquillement
que la justice divine vengerait la mort de Constant, et qu'elle
combattrait pour lui. Il ne voulut pas même retenir Titianus par droit
de représailles.
Il fut bientôt récompensé de cette modération.
Plusieurs sénateurs de Rome, ayant traversé le pays xxxv. Divers
avec beaucoup de risque, vinrent se rendre auprès succès de
de lui; et Silvanus, fils de Bonit capitaine Franc, qui Magnence.
avait servi Constantin dans la guerre contre Licinius, Jul. or. 1, p. 48
abandonna tout à coup Magnence, et passa dans le et or. 2, p. 97.
camp ennemi, à la tête d'un corps considérable de Amm. l. 15, c. 5.
cavalerie qu'il commandait. Pour prévenir les suites Aur. Vict. de
de cet exemple, Magnence mit ses troupes en Cæs. p.180 et
mouvement. Il prend d'emblée et pille Siscia. Il 181.
ravage toute la rive droite de la Save, qu'il avait Zos. l. 2, c. 50.
repassée; et chargé de butin, il la passe encore au- Zon. l. 13, t. 2,
delà du camp de Constance, et s'avance jusqu'à p. 16.
Sirmium, dans l'espérance de s'en emparer sans
coup férir. Le peuple réuni avec la garnison l'ayant repoussé, il
marche vers Mursa sur la Drave avec toute son armée. Il en trouva
les portes fermées, et les murs bordés d'habitants, qui en
défendaient les approches à coups de traits et de pierres. Comme il
manquait de machines nécessaires pour une attaque, il essaya de
s'ouvrir une entrée en mettant le feu aux portes. Mais outre qu'elles
étaient revêtues de fer, les habitants éteignirent le feu en jettant
quantité d'eau du haut des murailles. En même temps Constance
approchait. A la première nouvelle du danger où était cette place
importante, il s'était mis en marche avec toutes ses troupes; et ayant
laissé Cibalis sur la gauche et côtoyé la Drave, il s'avançait en
diligence. Magnence lui dresse une embuscade. A quelque distance
de la ville était un amphithéâtre entouré d'un bois épais qui en
dérobait la vue. Le tyran y fait cacher quatre bataillons gaulois, avec
ordre de fondre par-derrière sur l'ennemi, dès que la bataille sera
engagée aux portes de la ville. Les habitants ayant du haut des murs
aperçu cette manœuvre, en donnent avis à Constance qui charge
aussitôt deux capitaines expérimentés, Scudilon et Manadus, de le
débarrasser de ces Gaulois. Ces deux officiers à la tête de leurs plus
braves soldats et de leurs archers, forcent l'entrée de l'amphithéâtre,
ferment les portes, s'emparent des degrés qui régnaient autour dans
toute la hauteur, et font des décharges meurtrières. Les malheureux
Gaulois, semblables aux bêtes féroces qui avaient quelquefois servi
de spectacle dans ce même amphithéâtre, tombent percés de coups
les uns sur les autres au milieu de l'arène. Quelques-uns s'étant
réunis, et se couvrant la tête de leurs boucliers, s'efforcent de
rompre les portes: mais accablés de javelots, ou frappés de coups
mortels ils restent sur la place, et pas un ne revient de cette
embuscade.
Enfin après tant de marches et de mouvements xxxvi. Bataille
divers, on en vint le 28 septembre à la bataille, qui de Mursa.
devait décider du sort de Magnence. Elle fut livrée Jul. or. 1, p. 35-
près de Mursa sur la Drave, où est aujourd'hui le 38, et or. 2, p.
pont d'Essek. Si l'on en croit Zonare, l'armée de 57-60 et 97.
Constance était de quatre-vingt mille combattants, et Vict. epit. p.
Magnence n'en avait que trente-six mille; ce qui ne 226.
s'accorde guères avec ce que les autres auteurs Eutr. l. 10.
disent des forces redoutables du tyran. Les deux Hier. chron.
chefs haranguèrent leurs troupes, et les animèrent
Zos. l. 2, c. 51
par les motifs les plus puissants de l'intérêt, de et 52.
l'honneur, du désespoir. Constance avait le fleuve à
droite: ses troupes étaient rangées sur deux lignes, Idat. chron.
la cavalerie sur les aîles, l'infanterie au centre. La Chron. Alex. vel
première ligne était formée par les cavaliers armés Paschal. p. 292.
de toutes pièces à la manière des Perses, et par Zon. l. 13. t. 2,
l'infanterie chargée d'armes pesantes. A la seconde p. 16 et 17.
étaient placés la cavalerie légère, et tous ceux qui se
servaient d'armes de jet, et qui ne portaient ni boucliers ni cuirasses.
L'histoire ne nous apprend pas la disposition de l'autre armée. On
resta en présence la plus grande partie du jour, sans en venir aux
mains. Zonare raconte que pendant cette inaction Magnence, séduit
par une magicienne, immola une jeune fille; et qu'en ayant mêlé le
sang avec du vin, tandis que la prêtresse prononçait une formule
exécrable, et qu'elle invoquait les démons, il en fit boire à ses
soldats. Sur le déclin du jour les armées s'ébranlèrent, et le choc fut
terrible. Constance pour ne pas exposer sa personne, s'était retiré
dans une église voisine avec l'Arien Valens, évêque de Mursa: à
peine entendit-il le bruit des armes, que frissonnant d'horreur, il
essaya de séparer les combattants, en faisant proposer une
amnistie pour ceux qui se détacheraient du parti du tyran, avec ordre
à ses généraux de faire quartier à tous ceux qui mettraient bas les
armes. Cette proclamation fut inutile: on n'entendait plus que les
conseils de la fureur. Dès le commencement de l'action, l'aîle
gauche de Constance avait enfoncé l'aîle droite des ennemis, et les
cavaliers se livraient déja à la poursuite. Ce premier succès ne
décida point la victoire. La nuit survient, et loin de séparer les deux

You might also like