Data Mining Models David L. Olson Download PDF

Download as pdf or txt
Download as pdf or txt
You are on page 1of 53

Full download test bank at ebook textbookfull.

com

Data Mining Models David L. Olson

CLICK LINK TO DOWLOAD

https://textbookfull.com/product/data-mining-
models-david-l-olson/

textbookfull
More products digital (pdf, epub, mobi) instant
download maybe you interests ...

Enterprise Risk Management Models 2nd Edition David L.


Olson

https://textbookfull.com/product/enterprise-risk-management-
models-2nd-edition-david-l-olson/

Data Mining and Big Data Ying Tan

https://textbookfull.com/product/data-mining-and-big-data-ying-
tan/

Data Mining Yee Ling Boo

https://textbookfull.com/product/data-mining-yee-ling-boo/

Mobile Data Mining Yuan Yao

https://textbookfull.com/product/mobile-data-mining-yuan-yao/
Learning Data Mining with Python Layton

https://textbookfull.com/product/learning-data-mining-with-
python-layton/

Learning Data Mining with Python Robert Layton

https://textbookfull.com/product/learning-data-mining-with-
python-robert-layton/

Mobile Data Mining and Applications Hao Jiang

https://textbookfull.com/product/mobile-data-mining-and-
applications-hao-jiang/

R Data Mining Implement data mining techniques through


practical use cases and real world datasets 1st Edition
Andrea Cirillo

https://textbookfull.com/product/r-data-mining-implement-data-
mining-techniques-through-practical-use-cases-and-real-world-
datasets-1st-edition-andrea-cirillo/

Computational Intelligence in Data Mining Himansu


Sekhar Behera

https://textbookfull.com/product/computational-intelligence-in-
data-mining-himansu-sekhar-behera/
Data Mining Models
Data Mining Models
Second Edition

David L. Olson
Data Mining Models, Second Edition

Copyright © Business Expert Press, LLC, 2018.

All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or
transmitted in any form or by any means—electronic, mechanical, photocopy, recording, or any
other except for brief quotations, not to exceed 400 words, without the prior permission of the
publisher.

First published in 2016 by


Business Expert Press, LLC
222 East 46th Street, New York, NY 10017
www.businessexpertpress.com

ISBN-13: 978-1-94858-049-6 (paperback)


ISBN-13: 978-1-94858-050-2 (e-book)

Business Expert Press Big Data and Business Analytics Collection

Collection ISSN: 2333-6749 (print)


Collection ISSN: 2333-6757 (electronic)

Cover and interior design by Exeter Premedia Services Private Ltd., Chennai, India

Second edition: 2018

10 9 8 7 6 5 4 3 2 1

Printed in the United States of America.


Abstract
Data mining has become the fastest growing topic of interest in business programs in
the past decade. This book is intended to first describe the benefits of data mining in
business, describe the process and typical business applications, describe the workings
of basic data mining models, and demonstrate each with widely available free
software. This second edition updates Chapter 1, and adds more details on Rattle data
mining tools.
The book focuses on demonstrating common business data mining applications. It
provides exposure to the data mining process, to include problem identification, data
management, and available modeling tools. The book takes the approach of
demonstrating typical business data sets with open source software. KNIME is a very
easy-to-use tool, and is used as the primary means of demonstration. R is much more
powerful and is a commercially viable data mining tool. We will demonstrate use of R
through Rattle. We also demonstrate WEKA, which is a highly useful academic
software, although it is difficult to manipulate test sets and new cases, making it
problematic for commercial use. We will demonstrate methods with a small but
typical business dataset. We use a larger (but still small) realistic business dataset for
Chapter 9.

Keywords
big data, business analytics, clustering, data mining, decision trees, neural network
models, regression models
Contents
Acknowledgments
Chapter 1 Data Mining in Business
Chapter 2 Business Data Mining Tools
Chapter 3 Data Mining Processes and Knowledge Discovery
Chapter 4 Overview of Data Mining Techniques
Chapter 5 Data Mining Software
Chapter 6 Regression Algorithms in Data Mining
Chapter 7 Neural Networks in Data Mining
Chapter 8 Decision Tree Algorithms
Chapter 9 Scalability

Notes
References
Index
Acknowledgments
I wish to recognize some of the many colleagues I have worked and published with,
specifically Yong Shi, Dursun Delen, Desheng Wu, and Ozgur Araz. There are many
others I have learned from in joint efforts as well, both students and colleagues, all of
whom I wish to recognize with hearty thanks.
CHAPTER 1

Data Mining in Business

Introduction
Data mining refers to the analysis of large quantities of data that are stored in
computers. Bar coding has made checkout very convenient for us and provides retail
establishments with masses of data. Grocery stores and other retail stores are able to
quickly process our purchases and use computers to accurately determine the product
prices. These same computers can help the stores with their inventory management,
by instantaneously determining the quantity of items of each product on hand. -
Computers allow the store’s accounting system to more accurately measure costs and
determine the profit that store stockholders are concerned about. All of this
information is available based on the bar coding information attached to each product.
Along with many other sources of information, information gathered through bar
coding can be used for data mining analysis.
The era of big data is here, with many sources pointing out that more data are
created over the past year or two than was generated throughout all prior human
history. Big data involves datasets so large that traditional data analytic methods no
longer work due to data volume. Davenport1 gave the following features of big data:

Data too big to fit on a single server


Data too unstructured to fit in a row-and-column database
Data flowing too continuously to fit into a static data warehouse
Lack of structure is the most important aspect (even more than the size)
The point is to analyze, converting data into insights, innovation, and
business value

Big data has been said to be more about analytics than about the data itself. The era
of big data is expected to emphasize focusing on knowing what (based on correlation)
rather than the traditional obsession for causality. The emphasis will be on
discovering patterns offering novel and useful insights.2Data will become a raw
material for business, a vital economic input and source of value. Cukier and Mayer–
Scheonberger3 cite big data providing the following impacts on the statistical body of
theory established in the 20th century: (1) There is so much data available that
sampling is usually not needed (n = all). (2) Precise accuracy of data is, thus, less
important as inevitable errors are compensated for by the mass of data (any one
observation is flooded by others). (3) Correlation is more important than causality—
most data mining applications involving big data are interested in what is going to
happen, and you don’t need to know why. Automatic trading programs need to detect
the trend changes, not figure out that the Greek economy collapsed or the Chinese
government will devalue the Renminbi (RMB). The programs in vehicles need to
detect that an axle bearing is getting hot and the vehicle is vibrating and the wheel
should be replaced, not whether this is due to a bearing failure or a housing rusting
out.
There are many sources of big data.4 Internal to the corporation, e-mails, blogs,
enterprise systems, and automation lead to structured, unstructured, and
semistructured information within the organization. External data is also widely
available, much of it free over the Internet, but much also available from the
commercial vendors. There also is data obtainable from social media.
Data mining is not limited to business. Both major parties in the U.S. elections
utilize data mining of potential voters.5 Data mining has been heavily used in the
medical field, from diagnosis of patient records to help identify the best practices.6
Business use of data mining is also impressive. Toyota used data mining of its data
warehouse to determine more efficient transportation routes, reducing the time to
deliver cars to their customers by an average 19 days. Data warehouses are very large
scale database systems capable of systematically storing all transactional data
generated by a business organization, such as Walmart. Toyota also was able to
identify the sales trends faster and to identify the best locations for new dealerships.
Data mining is widely used by banking firms in soliciting credit card customers, by
insurance and telecommunication companies in detecting fraud, by manufacturing
firms in quality control, and many other applications. Data mining is being applied to
improve food product safety, criminal detection, and tourism. Micromarketing targets
small groups of highly responsive customers. Data on consumer and lifestyle data is
widely available, enabling customized individual marketing campaigns. This is
enabled by customer profiling, identifying those subsets of customers most likely to
be profitable to the business, as well as targeting, determining the characteristics of
the most profitable customers.
Data mining involves statistical and artificial intelligence (AI) analysis, usually
applied to large-scale datasets. There are two general types of data mining studies.
Hypothesis testing involves expressing a theory about the relationship between actions
and outcomes. This approach is referred to as supervised. In a simple form, it can be
hypothesized that advertising will yield greater profit. This relationship has long been
studied by retailing firms in the context of their specific operations. Data mining is
applied to identifying relationships based on large quantities of data, which could
include testing the response rates to various types of advertising on the sales and
profitability of specific product lines. However, there is more to data mining than the
technical tools used. The second form of data mining study is knowledge discovery.
Data mining involves a spirit of knowledge discovery (learning new and useful
things). Knowledge discovery is referred to as unsupervised. In this form of analysis,
a preconceived notion may not be present, but rather relationships can be identified by
looking at the data. This may be supported by visualization tools, which display data,
or through fundamental statistical analysis, such as correlation analysis. Much of this
can be accomplished through automatic means, as we will see in decision tree
analysis, for example. But data mining is not limited to automated analysis.
Knowledge discovery by humans can be enhanced by graphical tools and
identification of unexpected patterns through a combination of human and computer
interaction.

Requirements for Data Mining


Data mining requires identification of a problem, along with the collection of data that
can lead to better understanding, and computer models to provide statistical or other
means of analysis. A variety of analytic computer models have been used in data
mining. In the later sections, we will discuss various types of these models. Also
required is access to data. Quite often, systems including data warehouses and data
marts are used to manage large quantities of data. Other data mining analyses are done
with smaller sets of data, such as can be organized in online analytic processing
systems.
Masses of data generated from cash registers, scanning, and topic-specific databases
throughout the company are explored, analyzed, reduced, and reused. Searches are
performed across different models proposed for predicting sales, marketing response,
and profit. The classical statistical approaches are fundamental to data mining.
Automated AI methods are also used. However, a systematic exploration through
classical statistical methods is still the basis of data mining. Some of the tools
developed by the field of statistical analysis are harnessed through automatic control
(with some key human guidance) in dealing with data.
Data mining tools need to be versatile, scalable, capable of accurately predicting the
responses between actions and results, and capable of automatic implementation.
Versatile refers to the ability of the tool to apply a wide variety of models. Scalable
tools imply that if the tools works on a small dataset, it should also work on a larger
dataset. Automation is useful, but its application is relative. Some analytic functions
are often automated, but human setup prior to implementing procedures is required. In
fact, analyst judgment is critical to successful implementation of data mining. Proper
selection of data to include in searches is critical. Data transformation also is often
required. Too many variables produce too much output, while too few can overlook
the key relationships in the data.
Data mining is expanding rapidly, with many benefits to business. Two of the most
profitable application areas have been the use of customer segmentation by marketing
organizations to identify those with marginally greater probabilities of responding to
different forms of marketing media, and banks using data mining to more accurately
predict the likelihood of people to respond to the offers of different services offered.
Many companies are using this technology to identify their blue-chip customers, so
that they can provide them with the service needed to retain them.
The casino business has also adopted data warehousing and data mining.
Historically, casinos have wanted to know everything about their customers. A typical
application for a casino is to issue special cards, which are used whenever the
customer plays at the casino, or eats, or stays, or spends money in other ways. The
points accumulated can be used for complimentary meals and lodging. More points
are awarded for activities that provide Harrah’s more profit. The information obtained
is sent to the firm’s corporate database, where it is retained for several years. Instead
of advertising the loosest slots in town, Bellagio and Mandalay Bay have developed
the strategy of promoting luxury visits. Data mining is used to identify high rollers, so
that these valued customers can be cultivated. Data warehouses enable casinos to
estimate the lifetime value of the players. Incentive travel programs, in-house
promotions, corporate business, and customer follow-up are the tools used to maintain
the most profitable customers. Casino gaming is one of the richest datasets available.
Very specific individual profiles can be developed. Some customers are identified as
those who should be encouraged to play longer. Other customers are identified as
those who are discouraged from playing.

Business Data Mining


Data mining has been very effective in many business venues. The key is to find
actionable information or information that can be utilized in a concrete way to
improve profitability. Some of the earliest applications were in retailing, especially in
the form of market basket analysis. Table 1.1 shows the general application areas we
will be discussing. Note that they are meant to be representative rather than
comprehensive.

Table 1.1 Data mining application areas


Application area Applications Specifics
Retailing Affinity positioning Position products effectively
Cross-selling; develop and maintain Find more products for customers
customer loyalty
Banking Customer relationship management (CRM) Identify customer value
Develop programs to maximize the
revenue
Credit card management Lift Identify effective market segments
Churn Identify likely customer turnover
(Loyalty)
Insurance Fraud detection Identify claims meriting -
investigation
Telecommunications Churn Identify likely customer turnover
Telemarketing Online information Aid telemarketers with easy data
Recommender systems access
Human resource - Churn (Retention) Identify potential employee turnover
management
Retailing

Data mining offers retailers, in general, and grocery stores, specifically, valuable
predictive information from mountains of data. Affinity positioning is based on the
identification of products that the same customer is likely to want. For instance, if you
are interested in cold medicine, you probably are interested in tissues. Thus, it would
make marketing sense to locate both items within easy reach of the other. Cross-
selling is a related concept. The knowledge of products that go together can be used
by marketing the complementary product. Grocery stores do that through position
product shelf location. Retail stores relying on advertising can send ads for sales on
shirts and ties to those who have recently purchased suits. These strategies have long
been employed by wise retailers. Recommender systems are effectively used by
Amazon and other online retailers. Data mining provides the ability to identify less
expected product affinities and cross-selling opportunities. These actions develop and
maintain customer loyalty.
Grocery stores generate mountains of cash register data that require automated tools
for analysis. Software is marketed to service a spectrum of users. In the past, it was
assumed that cash register data was so massive that it couldn’t be quickly analyzed.
However, the current technology enables the grocers to look at customers who have
defected from a store, their purchase history, and characteristics of other potential
defectors.

Banking

The banking industry was one of the first users of data mining. Banks are turning to
technology to find out what motivates their customers and what will keep their
business (customer relationship management—CRM). CRM involves the application
of technology to monitor customer service, a function that is enhanced through data
mining support. Understanding the value a customer provides the firm makes it
possible to rationally evaluate if extra expenditure is appropriate in order to keep the
customer. There are many opportunities for data mining in banking. Data mining
applications in finance include predicting the prices of equities involve a dynamic
environment with surprise information, some of which might be inaccurate and some
of which might be too complex to comprehend and reconcile with intuition.
Data mining provides a way for banks to identify patterns. This is valuable in
assessing loan applications as well as in target marketing. Credit unions use data
mining to track member profitability as well as monitoring the effectiveness of
marketing programs and sales representatives. They also are used in the effort of
member care, seeking to identify what credit union customers want in the way of
services.

Credit Card Management

The credit card industry has proven very profitable. It has attracted many card issuers,
and many customers carry four or five cards. Balance surfing is a common practice,
where the card user pays an old balance with a new card. These are not considered
attractive customers, and one of the uses of data warehousing and data mining is to
identify balance surfers. The profitability of the industry has also attracted those who
wish to push the edge of credit risk, both from the customer and the card issuer
perspective. Bank credit card marketing promotions typically generate 1,000
responses to mailed solicitations, a response rate of about 1 percent. This rate is
improved significantly through data mining analysis.
Data mining tools used by banks include credit scoring. Credit scoring is a
quantified analysis of credit applicants with respect to the prediction of on-time loan
repayment. A key is a consolidated data warehouse, covering all products, including
demand deposits, savings, loans, credit cards, insurance, annuities, retirement
programs, securities underwriting, and every other product banks provide. Credit
scoring provides a number for each applicant by multiplying a set of weighted
numbers determined by the data mining analysis multiplied times ratings for that
applicant. These credit scores can be used to make accept or reject recommendations,
as well as to establish the size of a credit line. Credit scoring used to be conducted by
bank loan officers, who considered a few tested variables, such as employment,
income, age, assets, debt, and loan history. Data mining makes it possible to include
many more variables, with greater accuracy.
The new wave of technology is broadening the application of database use and
targeted marketing strategies. In the early 1990s, nearly all credit card issuers were
mass-marketing to expand their card-holder bases. However, with so many cards
available, broad-based marketing campaigns have not been as effective as they
initially were. Card issuers are more carefully examining the expected net present
value of each customer. Data warehouses provide the information, giving the issuers
the ability to try to more accurately predict what the customer is interested in, as well
as their potential value to the issuer. Desktop campaign management software is used
by the more advanced credit card issuers, utilizing data mining tools, such as neural
networks, to recognize customer behavior patterns to predict their future relationship
with the bank.

Insurance

The insurance industry utilizes data mining for marketing, just as retailing and
banking organizations do. But, they also have specialty applications. Farmers
Insurance Group has developed a system for underwriting, which generates millions
of dollars in higher revenues and lower claims. The system allows the firm to better
understand narrow market niches and to predict losses for specific lines of insurance.
One discovery was that it could lower its rates on sports cars, which increased their
market share for this product line significantly.
Unfortunately, our complex society leads to some inappropriate business operations,
including insurance fraud. Specialists in this underground industry often use multiple
personas to bilk insurance companies, especially in the automobile insurance
environment. Fraud detection software use a similarity search engine, analyzing
information in company claims for similarities. By linking names, telephone numbers,
streets, birthdays, and other information with slight variations, patterns can be
identified, indicating a fraud. The similarity search engine has been found to be able
to identify up to seven times more fraud than the exact-match systems.

Telecommunications

Deregulation of the telephone industry has led to widespread competition. Telephone


service carriers fight hard for customers. The problem is that once a customer is
obtained, it is attacked by competitors, and retention of customers is very difficult.
The phenomenon of a customer switching carriers is referred to as churn, a
fundamental concept in telemarketing as well as in other fields.
A director of product marketing for a communications company considered that
one-third of churn is due to poor call quality and up to one-half is due to poor
equipment. That firm has a wireless telephone performance monitor tracking
telephones with poor performances. This system reduced churn by an estimated 61
percent, amounting to about 3 percent of the firm’s overall subscribers over the course
of a year. When a telephone begins to go bad, the telemarketing personnel are alerted
to contact the customer and suggest bringing in the equipment for service.
Another way to reduce churn is to protect customers from subscription and cloning
fraud. Cloning has been estimated to have cost the wireless industry millions. A
number of fraud prevention systems are marketed. These systems provide verification
that is transparent to the legitimate subscribers. Subscription fraud has been estimated
to have an economic impact of $1.1 billion. Deadbeat accounts and service shutoffs
are used to screen potentially fraudulent applicants.
Churn is a concept that is used by many retail marketing operations. Banks widely
use churn information to drive their promotions. Once data mining identifies
customers by characteristic, direct mailing and telemarketing are used to present the
bank’s promotional program. The mortgage market has seen massive refinancing in a
number of periods. Banks were quick to recognize that they needed to keep their
mortgage customers happy if they wanted to retain their business. This has led to
banks contacting the current customers if those customers hold a mortgage at a rate
significantly above the market rate. While they may cut their own lucrative financial
packages, banks realize that if they don’t offer a better service to borrowers, a
competitor will.

Human Resource Management

Business intelligence is a way to truly understand markets, competitors, and


processes. Software technology such as data warehouses, data marts, online analytical
processing (OLAP), and data mining make it possible to sift through data in order to
spot trends and patterns that can be used by the firm to improve profitability. In the
human resources field, this analysis can lead to the identification of individuals who
are liable to leave the company unless additional compensation or benefits are
provided.
Data mining can be used to expand upon things that are already known. A firm
might know that 20 percent of its employees use 80 percent of services offered, but
may not know which particular individuals are in that 20 percent. Business
intelligence provides a means of identifying segments, so that programs can be
devised to cut costs and increase productivity. Data mining can also be used to
examine the way in which an organization uses its people. The question might be
whether the most talented people are working for those business units with the highest
priority or where they will have the greatest impact on profit.
Companies are seeking to stay in business with fewer people. Sound human
resource management would identify the right people, so that organizations could treat
them well to retain them (reduce churn). This requires tracking key performance
indicators and gathering data on talents, company needs, and competitor requirements.

Summary
The era of big data is here, flooding businesses with numbers, text, and often more
complex data forms, such as videos or pictures. Some of this data is generated
internally, through enterprise systems or other software tools to manage a business’s
information. Data mining provides a tool to utilize this data. This chapter reviewed the
basic applications of data mining in business, to include customer profiling, fraud
detection, and churn analysis. These will all be explored in greater depth in Chapter 2.
But, here our intent is to provide an overview of what data mining is useful for in
business.
The process of data mining relies heavily on information technology, in the form of
data storage support (data warehouses, data marts, or OLAP tools) as well as software
to analyze the data (data mining software). However, the process of data mining is far
more than simply applying these data mining software tools to a firm’s data.
Intelligence is required on the part of the analyst in selection of model types, in
selection and transformation of the data relating to the specific problem, and in
interpreting results.
CHAPTER 2

Business Data Mining Tools


Have you ever wondered why your spouse gets all of these strange catalogs for
obscure products in the mail? Have you also wondered at his or her strong interest in
these things, and thought that the spouse was overly responsive to advertising of this
sort? For that matter, have you ever wondered why 90 percent of your telephone calls,
especially during meals, are opportunities to purchase products? (Or for that matter,
why calls assuming you are a certain type of customer occur over and over, even
though you continue to tell them that their database is wrong?)
One of the earliest and most effective business applications of data mining is in
support of customer segmentation. This insidious application utilizes massive
databases (obtained from a variety of sources) to segment the market into categories,
which are studied with data mining tools to predict the response to particular
advertising campaigns. It has proven highly effective. It also represents the
probabilistic nature of data mining, in that it is not perfect. The idea is to send catalogs
to (or call) a group of target customers with a 5 percent probability of purchase rather
than waste these expensive marketing resources on customers with a 0.05 percent
probability of purchase. The same principle has been used in election campaigns by
party organizations—give free rides to the voting booth to those in your party;
minimize giving free rides to voting booths to those likely to vote for your opponents.
Some call this bias. Others call it sound business.
Data mining offers the opportunity to apply technology to improve many aspects of
business. Some standard applications are presented in this chapter. The value of
education is to present you with past applications, so that you can use your
imagination to extend these application ideas to new environments.
Data mining has proven valuable in almost every academic discipline.
Understanding business application of data mining is necessary to expose business
college students to current analytic information technology. Data mining has been
instrumental in customer relationship management,1 credit card management,2
banking,3 insurance,4 telecommunications,5 and many other areas of statistical support
to business. Business data mining is made possible by the generation of masses of
data from computer information systems. Understanding this information generation
system and tools available leading to analysis is fundamental for business students in
the 21st century. There are many highly useful applications in practically every field
of scientific study. Data mining support is required to make sense of the masses of
business data generated by computer technology.
This chapter will describe some of the major applications of data mining. By doing
so, there will also be opportunities to demonstrate some of the different techniques
that have proven useful. Table 2.1 compares the aspects of these applications.

Table 2.1 Common business data mining applications


Application Function Statistical technique AI tool
Catalog sales Customer segmentation Cluster analysis K-means
Mail stream optimization Neural network
CRM (telecom) Customer scoring Cluster analysis Neural network
Churn analysis
Credit scoring Loan applications Cluster analysis K-means
Pattern search
Banking (loans) Bankruptcy prediction Prediction Decision tree
Discriminant analysis
Investment risk Risk prediction Prediction Neural network
Insurance Customer retention (churn) Prediction Decision tree
Pricing Logistic regression Neural network

A wide variety of business functions are supported by data mining. Those


applications listed in Table 2.1 represent only some of these applications. The
underlying statistical techniques are relatively simple—to predict, to identify the case
closest to past instances, or to identify some pattern.

Customer Profiling
We begin with probably the most spectacular example of business data mining.
Fingerhut, Inc. was a pioneer in developing methods to improve business. In this case,
they sought to identify the small subset of the most likely purchasers of their specialty
catalogs. They were so successful that they were purchased by Federated Stores.
Ultimately, Fingerhut operations were a victim to the general malaise in IT business in
2001 and 2002. But, they still represent a pioneering development of data mining
application in business.

Lift

This section demonstrates the concept of lift used in customer segmentation models.
We can divide the data into groups as fine as we want (here, we divide them into 10
equal portions of the population, or groups of 10 percent each). These groups have
some identifiable features, such as zip code, income level, and so on (a profile). We
can then sample and identify the portion of sales for each group. The idea behind lift
is to send promotional material (which has a unit cost) to those groups that have the
greatest probability of positive response first. We can visualize lift by plotting the
responses against the proportion of the total population of potential customers, as
shown in Table 2.2. Note that the segments are listed in Table 2.2 sorted by expected
customer response.

Table 2.2 Lift calculation


Ordered Expected Proportion Cumulative Random average Lift
segment customer (expected response proportion
response responses) proportion
Origin 0 0 0 0 0
1 0.20 0.172 0.172 0.10 0.072
2 0.17 0.147 0.319 0.20 0.119
3 0.15 0.129 0.448 0.30 0.148
4 0.13 0.112 0.560 0.40 0.160

5 0.12 0.103 0.664 0.50 0.164


6 0.10 0.086 0.750 0.60 0.150
7 0.09 0.078 0.828 0.70 0.128
8 0.08 0.069 0.897 0.80 0.097
9 0.07 0.060 0.957 0.90 0.057
10 0.05 0.043 1.000 1.00 0.000

Both the cumulative responses and cumulative proportion of the population are
graphed to identify the lift. Lift is the difference between the two lines in Figure 2.1.
Figure 2.1 Lift identified by the mail optimization system

The purpose of lift analysis is to identify the most responsive segments. Here, the
greatest lift is obtained from the first five segments. We are probably more interested
in profit, however. We can identify the most profitable policy. What needs to be done
is to identify the portion of the population to send promotional materials to. For
instance, if an average profit of $200 is expected for each positive response and a cost
of $25 is expected for each set of promotional material sent out, it obviously would be
more profitable to send to the first segment containing an expected 0.2 positive
responses ($200 times 0.2 equals an expected revenue of $40, covering the cost of $25
plus an extra $15 profit). But, it still might be possible to improve the overall profit by
sending to other segments as well (always selecting the segment with the larger
response rates in order). The plot of cumulative profit is shown in Figure 2.2 for this
set of data. The second most responsive segment would also be profitable, collecting
$200 times 0.17 or $34 per $25 mailing for a net profit of $9. It turns out that the
fourth most responsive segment collects 0.13 times $200 ($26) for a net profit of $1,
while the fifth most responsive segment collects $200 times 0.12 ($24) for a net loss
of $1. Table 2.3 shows the calculation of the expected payoff.
Figure 2.2 Profit impact of lift

Table 2.3 Calculation of the expected payoff


Segment Expected segment Cumulative Random cumulative Expected
revenue ($200 × P) expected revenue cost ($25 × i) payoff
0 0 0 0 0
1 40 40 25 15
2 34 74 50 24
3 30 104 75 29
4 26 130 100 30
5 24 154 125 29

6 20 174 150 24
7 18 192 175 17
8 16 208 200 8
9 14 222 225 –3
10 10 232 250 –18

The profit function in Figure 2.2 reaches its maximum with the fourth segment.
It is clear that the maximum profit is found by sending to the four most responsive
segments of the ten in the population. The implication is that in this case, the
promotional materials should be sent to the four segments expected to have the largest
response rates. If there was a promotional budget, it would be applied to as many
segments as the budget would support, in order of the expected response rate, up to
the fourth segment.
It is possible to focus on the wrong measure. The basic objective of lift analysis in
marketing is to identify those customers whose decisions will be influenced by
marketing in a positive way. In short, the methodology described earlier identifies
those segments of the customer base that would be expected to purchase. This may or
may not have been due to the marketing campaign effort. The same methodology can
be applied, but more detailed data is needed to identify those whose decisions would
have been changed by the marketing campaign, rather than simply those who would
purchase.
Another method that considers multiple factors is Recency, Frequency, and
Monetary (RFM) analysis. As with lift analysis, the purpose of an RFM is to identify
customers who are more likely to respond to new offers. While lift looks at the static
measure of response to a particular campaign, RFM keeps track of customer
transactions by time, by frequency, and by amount. Time is important as some
customers may not have responded to the last campaign, but might now be ready to
purchase the product being marketed. Customers can also be sorted by the frequency
of responses and by the dollar amount of sales. The subjects are coded on each of the
three dimensions (one approach is to have five cells for each of the three measures,
yielding a total of 125 combinations, each of which can be associated with a positive
response to the marketing campaign). The RFM still has limitations, in that there are
usually more than three attributes important to a successful marketing program, such
as product variation, customer age, customer income, customer lifestyle, and so on.6
The approach is the basis for a continuing stream of techniques to improve customer
segmentation marketing.
Understanding lift enables understanding the value of specific types of customers.
This enables more intelligent customer management, which is discussed in the next
section.

Comparisons of Data Mining Methods


Initial analyses focus on discovering patterns in the data. The classical statistical
methods, such as correlation analysis, is a good start, often supplemented with visual
tools to see the distributions and relationships among variables. Clustering and pattern
search are typically the first activities in data analysis, good examples of knowledge
discovery. Then, appropriate models are built. Data mining can then involve model
building (extension of the conventional statistical model building to very large
datasets) and pattern recognition. Pattern recognition aims to identify groups of
interesting observations. Often, experts are used to assist in pattern recognition.
There are two broad categories of models used for data mining. Continuous,
especially time series, data often calls for forecasting. Linear regression provides one
tool, but there are many others. Business data mining has widely been used for
classification or developing models to predict which category a new case will most
likely belong to (such as a customer profile relative to the expected purchases,
whether or not loans will be problematic, or whether insurance claims will turn out to
be fraudulent). The classification modeling tools include statistically based logistic
regression as well as artificial intelligence-based neural networks and decision trees.
Sung et al. compared a number of these methods with respect to their advantages
and disadvantages. Table 2.4 draws upon their analysis and expands it to include the
other techniques covered.

Table 2.4 Comparison of data mining method features7


Method Advantages Disadvantages Assumptions
Cluster Can generate understandable Computation time increases Need to make data
analysis formula with dataset size numerical
Can be applied Requires identification of
automatically parameters, with results
sensitive to choices

Discriminant Ability to incorporate Violates normality and Assume multivariate


analysis multiple financial ratios independence assumptions normality within groups
simultaneously Reduction of dimensionality Assume equal group
Coefficients for combining issues covariances across all
the independent variables Varied interpretation of the groups
Ability to apply to new data relative importance of variables Groups are discrete,
Difficulty in specifying the nonoverlapping, and
classification algorithm identifiable
Difficulty in interpreting the
time-series prediction tests
Regression Can generate understandable Computation time increases Normality of errors
formula with dataset size No error autocorrelation, -
Widely understood Not very good with nonlinear heteroskedasticity,
Strong body of theory data multicollinearity
Neural Can deal with a wide range Require inputs in the range of 0 Groups are discrete,
network of problems to 1 nonoverlapping, and
models Produce good results in Do not explain results identifiable
complicated domains May prematurely converge to an
(nonlinear) inferior solution
Can deal with both
continuous and categorical
variables
Have many software
packages available
Decision Can generate understandable Some algorithms can only deal Groups are discrete,
trees rules with binary-valued target nonoverlapping, and
Can classify with minimal classes identifiable
computation Most algorithms only examine a
Use easy calculations single field at a time
Can deal with continuous Can be computationally
and categorical variables expensive
Provide a clear indication of
variable importance

Knowledge Discovery

Clustering: One unsupervised clustering technique is partitioning, the process of


examining a set of data to define a new categorical variable partitioning the space into
a fixed number of regions. This amounts to dividing the data into clusters. The most
widely known partitioning algorithm is k-means, where k center points are defined,
and each observation is classified to the closest of these center points. The k-means
algorithm attempts to position the centers to minimize the sum of distances. Centroids
are used as centers, and the most commonly used distance metric is Euclidean. Instead
of k-means, k-median can be used, providing a partitioning method expected to be
more stable.
Pattern search: Objects are often grouped to seek patterns. Clusters of customers
might be identified with particularly interesting average outcomes. On the positive
side, you might look for patterns in highly profitable customers. On the negative side,
you might seek patterns unique to those who fail to pay their bills to the firm.
Both clustering and pattern search seek to group the objects. Cluster analysis is
attractive, in that it can be applied automatically (although ample computational time
needs to be available). It can be applied to all types of data, as demonstrated in our
example. Cluster analysis is also easy to apply. However, its use requires selection
from among alternative distance measures, and weights may be needed to reflect
variable importance. The results are sensitive to these measures. Cluster analysis is
appropriate when dealing with large, complex datasets with many variables and
specifically identifiable outcomes. It is often used as an initial form of analysis. Once
different clusters are identified, pattern search methods are often used to discover the
rules and patterns. Discriminant analysis has been the most widely used data mining
technique in bankruptcy prediction. Clustering partitions the entire data sample,
assigning each observation to exactly one group. Pattern search seeks to identify local
clusterings, in that there are more objects with similar characteristics than one would
expect. Pattern search does not partition the entire dataset, but identifies a few groups
exhibiting unusual behavior. In the application on real data, clustering is useful for
describing broad behavioral classes of customers. Pattern search is useful for
identifying groups of people behaving in an anomalous way.

Predictive Models

Regression is probably the most widely used analytical tool historically. A main
benefit of regression is the broad understanding people have about regression models
and tests of their output. Logistic regression is highly appropriate in data mining, due
to the categorical nature of resultant variables that is usually present. While regression
is an excellent tool for statistical analysis, it does require assumptions about
parameters. Errors are assumed to be normally distributed, without autocorrelation
(errors are not related to the prior errors), without heteroskedasticity (errors don’t
grow with time, for instance), and without multicollinearity (independent variables
don’t contain high degrees of overlapping information content). Regression can deal
with nonlinear data, but only if the modeler understands the underlying nonlinearity
and develops appropriate variable transformations. There usually is a tradeoff—if the
data are fit well with a linear model, regression tends to be better than neural network
models. However, if there is nonlinearity or complexity in the data, neural networks
(and often, genetic algorithms) tend to do better than regression. A major relative
advantage of regression relative to neural networks is that regression provides an
easily understood formula, while neural network models have a very complex model.
Neural network algorithms can prove highly accurate, but involve difficulty in the
application to new data or interpretation of the model. Neural networks work well
unless there are many input features. The presence of many features makes it difficult
for the network to find patterns, resulting in long training phases, with lower
probabilities of convergence. Genetic algorithms have also been applied to data
mining, usually to bolster operations of other algorithms.
Decision tree analysis requires only the last assumption, that groups are discrete,
nonoverlapping, and identifiable. They provide the ability to generate understandable
rules, can perform classification with minimal computation, and these calculations are
easy. Decision tree analysis can deal with both continuous and categorical variables,
and provide a clear indication of variable importance in prediction and classification.
Given the disadvantages of the decision tree method, it is a good choice when the data
mining task is classification of records or prediction of outcomes.

Summary
Data mining applications are widespread. This chapter sought to give concrete
examples of some of the major business applications of data mining. We began with a
review of Fingerhut data mining to support catalog sales. That application was an
excellent demonstration of the concept of lift applied to retail business. We also
reviewed five other major business applications, intentionally trying to demonstrate a
variety of different functions, statistical techniques, and data mining methods. Most of
those studies applied multiple algorithms (data mining methods). Software such as
Enterprise Miner has a variety of algorithms available, encouraging data miners to
find the method that works best for a specific set of data.
The second portion of the book seeks to demonstrate these methods with small
demonstration examples. The small examples can be run on Excel or other simple
spreadsheet packages with statistical support. Businesses can often conduct data
mining without purchasing large-scale data mining software. Therefore, our
philosophy is that it is useful to understand what the methods are doing, which also
provides the users with better understanding of what they are doing when applying
data mining.
CHAPTER 3

Data Mining Processes and Knowledge


Discovery
In order to conduct data mining analysis, a general process is useful. This chapter
describes an industry standard process, which is often used, and a shorter vendor
process. While each step is not needed in every analysis, this process provides a good
coverage of the steps needed, starting with data exploration, data collection, data
processing, analysis, inferences drawn, and implementation.
There are two standard processes for data mining that have been presented. CRISP-
DM (cross-industry standard process for data mining) is an industry standard, and
SEMMA (sample, explore, modify, model, and assess) was developed by the SAS
Institute Inc., a leading vendor of data mining software (and a premier statistical
software vendor). Table 3.1 gives a brief description of the phases of each process.
You can see that they are basically similar, only with different emphases.

Table 3.1 CRISP-DM and SEMMA


CRISP-DM SEMMA
Business understanding Assumes well-defined questions
Data understanding Sample
Data preparation Explore

Modeling Modify data


Evaluation Model
Deployment Assess

Industry surveys indicate that CRISP-DM is used by over 70 percent of the industry
professionals, while about half of these professionals use their own methodologies.
SEMMA has a lower reported usage, as per the KDNuggets.com survey.

CRISP-DM
CRISP-DM is widely used by the industry members. This model consists of six
phases intended as a cyclical process shown in Figure 3.1.

CRISP-DM process

This six-phase process is not a rigid, by-the-numbers procedure. There is usually a


great deal of backtracking. Additionally, experienced analysts may not need to apply
each phase for every study. But, CRISP-DM provides a useful framework for data
mining.

Business Understanding

The key element of a data mining study is understanding the purpose of the study.
This begins with the managerial need for new knowledge and the expression of the
business objective of the study to be undertaken. Goals in terms of things, such as
which types of customers are interested in each of our products or what are the typical
profiles of our customers, and how much value do each of them provide to us, are
needed. Then, a plan for finding such knowledge needs to be developed, in terms of
those responsible for collecting data, analyzing data, and reporting. At this stage, a
budget to support the study should be established, at least in preliminary terms.

Data Understanding

Once the business objectives and the project plan are established, data understanding
considers data requirements. This step can include initial data collection, data
Another random document with
no related content on Scribd:
courent sur les gens d’affaires. On disait des mauvaises choses sur
Voraud il y a un an. Mais peut-être qu’il s’est remis à flot depuis.
— Bon, dit Daniel, tu dis ça pour me rassurer et parce que ça
t’embête que je fasse une tête. Tant pis pour toi, si je fais une tête. Il
ne fallait pas me raconter ça… D’ailleurs, tu as bien fait et je te
remercie, dit-il après un silence.
Après un nouveau silence, il ajouta :
— Ah ! je voudrais, je voudrais que papa apprenne la nouvelle
tout de suite, afin que je sois débarrassé de ce souci-là. Je vais être
embêté tant qu’il ne le saura pas… Je ne pourrai pas lui dire ça moi-
même. Et puis il me semble que ce ne serait pas bien, à cause de
Berthe… Parce qu’après, s’il fait des difficultés, et s’il empêche le
mariage, ce serait ma faute, à moi… Écoute, mon vieux, je te quitte.
— Où vas-tu ?
— J’ai des courses à faire.
— Quand est-ce qu’on te verra ?
— Je t’écrirai.
— Tu n’es qu’une brute, dit Julius en lui tendant une main molle,
de te faire du mauvais sang pour une chose qui n’est pas sûre, et
qui n’a, en tous cas, rien d’imminent.
Daniel s’en alla, n’importe où. Il s’arrêtait de temps en temps
devant des magasins vagues, à des étalages de mercerie que
personne ne regardait jamais ; si bien qu’une vieille dame en noir se
détacha du fond sombre de sa boutique, et vint à la porte, l’air
étonné et soupçonneux.
Il se dit qu’il ferait peut-être bien d’aller voir M. Voraud et d’avoir
un entretien avec lui. Et tout en sachant parfaitement qu’il n’aurait
jamais cette audace, il se dirigea néanmoins du côté du boulevard
Haussmann. Il passa devant les bureaux de la banque Voraud, et
considéra ses dix belles fenêtres, qui pouvaient être aussi bien les
fenêtres d’un banquier solide que celles d’un spéculateur trop
audacieux.
Daniel se vit réduit à souhaiter un coup de fortune subit qui ferait
de lui le sauveur de M. Voraud et rétablirait la situation. Peu rassuré
là-dessus, car les données lui manquaient, même pour n’y édifier
que des songes, il se dirigea vers le magasin de M. Henry, sans but
précis, pour voir son père, et dans l’espérance d’une aide du hasard.
En embrassant son père, il prit une mine des plus soucieuses,
pour essayer vaguement de lui faire deviner quelque chose.
— Qu’est-ce que tu as ?
— Rien. Très mal à la tête. Je rentre à la campagne.
Il reprit le chemin de la gare du Nord.
Ah ! ce n’était plus le premier voyage vers Bernainvilliers, le
voyage charmant et plein d’espérance, où il ne doutait que de son
bonheur, où il regardait comme une belle chimère la possibilité d’être
aimé de Berthe et d’être agréé par M. Voraud. Il avait pris,
précisément, le train de quatre heures et se souvint que Berthe lui
avait dit la veille qu’elle serait à la gare à l’arrivée de ce train-là. Il
l’aperçut à la barrière, très jolie dans sa robe claire, dans la robe
claire qu’elle avait déjà le jour où il était venu pour la première fois.
Encore la même robe, pensa-t-il malgré lui. Il s’en voulut d’avoir
pensé cela. La locomotive avait entraîné le train jusqu’à la pompe,
assez loin de la sortie des voyageurs. Et, tout en revenant vers la
barrière, Daniel se disait que ses remarques étaient absurdes, que
M. Voraud dépensait assez d’argent et menait assez grand train
pour payer à sa fille autant de robes qu’elle voulait, et que d’ailleurs
Berthe en avait plusieurs autres, qu’il lui avait vues d’autres jours.
Mais quand il fut près d’elle il ne put s’empêcher de regarder cette
robe et de s’apercevoir qu’aux coudes l’étoffe était un peu fatiguée.
Et il vit que le chapeau de paille, où s’enfonçait une grande épingle,
était piqué, du côté où sortait l’épingle, de petits trous trop
nombreux. Il s’en voulut encore d’avoir remarqué cela et fut pris
brusquement d’un grand élan d’amour et de pitié, comme si sa
fiancée avait été très misérable. Il était à un âge où l’on aime mieux
changer carrément d’idéal que d’avoir un idéal diminué. Il s’exagéra
avec délices la détresse de cette jolie personne, et serra tendrement
le bras mince de Berthe contre le sien. C’était une nouvelle occasion
de s’exalter. Il en profita. Il se vit sauvant héroïquement de la ruine,
celle à qui il avait donné son cœur.
XXI
CONSEIL DE FAMILLE

Quand la bonne eut posé le chocolat sur la table de nuit, elle alla
à la fenêtre. Le matin, qui attendait derrière les volets, se rua par la
brèche ouverte et remplit brutalement la chambre. Daniel, l’œil
hagard, au sortir d’une nuit pleine de songes, cherchait ses idées de
la veille. Il savait qu’il s’était couché avec un embêtement, et ne le
retrouvait plus. Il s’assit sur son séant, allongea et tordit ses bras,
comme si les serpents de Laocoon se fussent enroulés autour de
son corps, regarda avec effroi sa tasse de chocolat, bâilla à en
mourir, puis retomba étendu sur le côté. Au bout d’un instant, il se
souvint de son ennui. Les révélations de Julius lui revinrent à
l’esprit : M. Voraud qu’il avait cru riche, était dans une position
difficile. Ce matin-là, comme la veille, il se hâta de mettre les choses
au pis, et s’imagina que son futur beau-père se trouvait à deux
doigts de la ruine.
Il aimait mieux se dire : M. Voraud n’a pas le sou, et mettre tout
de suite pied à terre dans la pauvreté, que de se balancer dans des
régions plus élevées, dans la nacelle mouvante d’une fortune
instable. Il était très paresseux ; il avait un besoin continuel de
sécurité. Il se résignait d’avance aux pires éventualités, pour
s’épargner la fatigue de les craindre.
La résignation n’était d’ailleurs pas la seule vertu chrétienne que
lui avait value son besoin de tranquillité. Il était conciliant par peur de
la discussion, et longanime par appréhension de la lutte.
La situation de M. Voraud ne l’inquiétait pas. Mais il était moins
rassuré sur l’opinion qu’en aurait sa famille. Quand M. Henry allait-il
être mis au courant ? Or, il se trouva que ça ne tarda guère.
L’oncle Émile et la tante Amélie revenaient ce jour-là de la station
thermale où ils étaient allés passer un mois. A trois heures,
accompagnée de Daniel, Mme Henry alla chercher sa sœur à la
gare. L’oncle et la tante étaient arrivés à midi cinquante à la gare de
l’Est, avaient déjeuné près de la gare du Nord, puis la tante était
partie à deux heures pour Bernainvilliers, l’oncle restant à Paris pour
ses affaires jusqu’à l’heure du dîner. Tous ces détails, un peu secs
par eux-mêmes, furent donnés par la faible Amélie avec une voix
plaintive, comme si c’eût été le récit de la plus touchante aventure.
Elle avait depuis vingt ans une mine effroyable ; elle souffrait,
suivant une sorte de roulement, de crampes d’estomac, de
névralgies, de bronchites et de courbatures. Ces accidents avaient
fini par laisser tout le monde absolument froid. Elle avait épuisé
depuis longtemps la somme de commisération à laquelle elle avait
droit dans la famille.
Quand, à dîner, elle se levait de table pour aller se trouver mal
dans la chambre à côté, tous les convives prenaient un air apitoyé.
Émile disait : Il vaut mieux la laisser ! Et ils continuaient leur repas.
En revenant de la gare, elle racontait à sa sœur et à Daniel les
derniers incidents du voyage, les subterfuges employés par Émile
pour se procurer un compartiment réservé. Il s’était donné comme
un ami intime de M. Colombel, administrateur de la Compagnie. Elle
souriait douloureusement en racontant ces farces, et appuyait deux
doigts sur sa tempe fragile.
Elle dit ensuite les connaissances qu’elle avait faites là-bas, la
femme d’un commandant, et deux jeunes orphelines, dont la plus
jeune chantait d’une façon admirable. Émile avait joué à l’écarté
presque tous les jours avec un juge.
— J’aurais voulu que tu voies, dit-elle à Daniel, comme c’était un
homme spirituel ! un vrai savant ! Tu aurais été dans ton élément.
Vers sept heures, l’oncle Émile rentra dîner avec M. Henry. Il
était, plus que jamais, vif et noir. Il représentait dans la famille le type
du viveur, car il avait eu pour maîtresses avant son mariage des
femmes connues, notamment une forte blonde, actrice, disait-on,
une élégante. Il revenait des eaux avec un binocle à verres fumés,
un vêtement gris fripé et une canne de montagne, achetée trente-
cinq sous à un homme du pays, qui avait commencé par lui en
demander huit francs.
Daniel remarqua que personne ne lui parlait de son mariage et
que son père paraissait soucieux.
Après le café, comme l’oncle Émile, avec des gestes sûrs que
son neveu lui enviait toujours, procédait à la confection d’une
cigarette, Daniel se leva, et prit son chapeau.
— Où vas-tu si pressé ? dit l’oncle Émile.
— Mais, dit Daniel, je vais… je vais là-bas.
Il y eut un silence.
— Je trouve, dit M. Henry, que tu as tort d’y aller si souvent et
que tu t’engages trop.
— Comment ? dit Daniel. Mais… je suis fiancé, ajouta-t-il d’une
voix faible. J’ai donné une bague.
M. Henry se tourna vers l’oncle Émile.
— Je crois qu’il vaut mieux lui dire tout ce que tu m’as raconté.
C’est lui que ça intéresse le plus, en définitive. Du moment qu’il se
juge assez grand pour se marier, il est assez raisonnable pour qu’on
ne lui cache rien.
Daniel regarda l’oncle Émile.
— Eh bien ! dit l’oncle, eh bien ! j’ai communiqué à ton père des
renseignements sur le père de la jeune fille en question… Oui…
oui… Enfin, vous avez tous cru sa position plus brillante qu’elle n’est
en réalité. Pour tout dire, il est lancé dans des affaires… dans des
affaires difficiles. Et il n’a pas du tout, mais pas du tout, la fortune
que son train de maison pourrait laisser supposer.
Daniel se leva sans mot dire.
— Où vas-tu ? dit Mme Henry.
Il répondit d’une voix ferme :
— Je vais chez Mlle Voraud.
Il trouvait cette sortie très belle, mais il était un peu gêné à l’idée
de quitter ses parents fâchés. Il chercha sa canne dans la chambre
à côté, dont la porte était ouverte, et prolongea ses recherches, pour
que quelqu’un se décidât à dire quelque chose.
— Je vois, je vois, dit enfin M. Henry. Monsieur est un grand
seigneur. Il est au-dessus de ces questions-là. D’ailleurs, est-ce qu’il
a besoin de discuter avec nous ? Nous nous mêlons de ce qui ne
nous regarde pas.
Daniel répondit d’une voix altérée :
— Je ne discute pas. J’aime cette jeune fille. Ce n’est pas à
cause de sa fortune que j’ai voulu l’épouser.
— Il ne s’agit pas de sa fortune, dit M. Henry. J’aimerais mieux
cent fois que ce soit une fille pauvre, qui aurait toujours été pauvre.
Quoique vraiment ce n’est pas tout à fait ça que j’avais rêvé pour toi.
Mais ce n’est pas la même chose d’épouser une fille sans fortune
que d’épouser la fille d’un homme comme M. Voraud, qui peut se
trouver ruiné d’un instant à l’autre, et qui peut te ruiner avec lui…
sans compter qu’elle a été élevée avec des goûts dispendieux,
habituée au luxe et à la toilette… Même quand je croyais que M.
Voraud avait une grosse fortune, je t’avoue que cette éducation-là
me déplaisait un peu.
Daniel ne répondait toujours rien. Il alla gravement embrasser sa
mère, et se dirigea vers la porte.
— Je sais bien, dit M. Henry, que ce que je dis ou rien, c’est la
même chose. Tu es bien pris… Ah ! ils savaient ce qu’ils faisaient,
quand ils t’attiraient chez eux tout l’été.
Cette imputation suffoqua Daniel et lui donna la dose d’irritation
suffisante pour opérer une sortie énergique. Il était bien certain que
son père se trompait, et que les Voraud n’avaient eu aucune arrière-
pensée en le laissant venir chez eux. L’attitude de Mme Voraud en
était la preuve. D’ailleurs, l’hypothèse d’un tel complot, eût-elle été
vraisemblable, était insoutenable pour son amour-propre. Il ne s’y
arrêta pas. Cette parole de M. Henry eut simplement pour effet de
diminuer la confiance qu’il avait dans ses parents, qui s’étaient mis
aussi manifestement dans l’erreur.
Il prit, pour aller chez M. Voraud, un petit chemin à travers
champs. Il n’y passait jamais à la nuit tombée. Mais, ce jour-là, une
attaque nocturne lui aurait, pensait-il, fait plaisir. Il brandissait sa
canne avec vigueur. Il n’y avait, d’ailleurs, pas d’exemple qu’une
attaque nocturne se fût produite dans ce pays des plus tranquilles.
Il entra chez les Voraud, qui prenaient le café dans la salle à
manger vitrée. Il poussa la porte avec assurance, ne tremblant plus,
comme jadis, à l’idée d’être un intrus. Il serra fortement les mains de
Mme Voraud, avec la rudesse et la supériorité d’un bienfaiteur.
Louise Loison, Berthe et lui firent un petit tour dans le jardin.
Parfois le souvenir de ses parents, qu’il avait quittés si brusquement,
lui revenait à l’esprit. Alors il prenait Berthe dans ses bras, et
l’étreignait ardemment. Fallait-il qu’il l’aimât assez, pour se brouiller
ainsi avec sa famille !… Il se demandait avec angoisse s’il l’aimait
véritablement… Il l’embrassait plus ardemment encore. Et il se disait
que même s’il ne l’eût pas autant aimée, il lui eût été impossible, de
par des lois inéluctables de délicatesse, de rompre avec Berthe pour
une question d’argent.
XXII
UNE DÉMARCHE

C’était vraiment très grave d’avoir osé tenir tête à ses parents !
En rentrant au chalet Pilou, vers onze heure du soir, Daniel pensait
trouver tout le monde encore sur pied, en désarroi, et attendant
l’enfant prodigue pour une explication plus complète. Il ralentit le
pas, malgré lui, quand, du tournant de la route, il aperçut le
deuxième bec de gaz, qui marquait dans la nuit la place du chalet
Pilou.
Mais, en arrivant devant la grille, il vit que la maison était sombre.
Ainsi, ils s’étaient tous couchés ! Aucune lumière ne survivait aux
fenêtres, qui révélât une veille anxieuse. Il se demanda un instant si
sa rébellion avait toute l’importance qu’il avait supposée. Il n’était
pas exactement fixé sur la gravité de ses actes. Qu’est-ce qui est
une faute ? Qu’est-ce qui n’est qu’une simple incartade, que les
parents répriment pour la forme tout en en souriant entre eux et en
se disant : C’est de son âge ! Il se rappela une petite intrigue qu’il
avait eue avec une bonne, à l’âge de quinze ans.
C’était une petite brune, frisée sur le front, et qui avait dû aller
assez longtemps à l’école, car elle écrivait les dépenses sans faute
d’orthographe et d’une écriture penchée. Un soir, sans qu’on pût
savoir comment ça lui avait pris, elle avait embrassé Daniel sur la
joue, rapidement, et s’était sauvée. Le jeune garçon, un peu étonné,
lui avait rendu ce baiser, huit jours après. Et depuis, il l’avait
embrassée sur la joue, dans le cou, de temps en temps.
Cette aventure, pendant les six mois qu’elle dura, l’avait
beaucoup tourmenté. Dès qu’on parlait de la bonne à table, pour les
détails de service les plus insignifiants, Daniel devenait tout rouge, et
le nez dans son assiette, ressemblait subitement à un myope qui
mange dans un restaurant douteux.
Et voilà que deux mois après le départ de la bonne, l’oncle Émile
avait dit, en examinant la remplaçante : Tu aimais mieux la petite
brunette, n’est-ce pas, Daniel ? Daniel en avait ressenti un coup au
cœur. Puis il s’était aperçu que son oncle n’avait dit cela que pour
rire un peu ; il avait alors amèrement regretté de n’être pas allé plus
avant dans ses affaires avec la petite bonne, puisque autour de lui
on parlait de la chose avec une tolérance aussi légère.
Mais ces précédents ne le rassuraient jamais, car chaque
aventure nouvelle lui paraissait excéder les bornes de l’indulgence
paternelle. Et, cette fois-ci, cette opposition déterminée aux volontés
de ses parents était d’une gravité vraiment exceptionnelle.
Cependant, le lendemain, le fils rebelle crut bon d’aller
embrasser, pour ne pas se poser en ennemi, sa mère, son père, sa
tante et son oncle Émile, dont la moustache, le matin, sentait
toujours un peu le café. C’est ainsi qu’il les embrassait matin et soir,
et chaque fois qu’il les rencontrait sur son chemin. Au déjeuner ni au
dîner, on ne fit aucune allusion et ce fut ainsi les jours qui suivirent.
Après le repas, Daniel montait dans sa chambre ou passait dans
une autre pièce. Il était bien entendu qu’il allait chez les Voraud,
mais il ne voulait pas effectuer de sortie directe.
Pendant huit jours, ses parents continuèrent à ne rien dire.
Parfois M. Henry descendait du train avec M. Voraud. Ils causaient
poliment de toutes sortes de choses ; mais évidemment il n’était pas
question du mariage. D’ailleurs, avant ces dernières histoires ils n’en
parlaient pas davantage, puisque ce mariage ne devait se faire
qu’un an plus tard et qu’on avait dit plusieurs fois qu’on avait bien le
temps d’en parler.
Les Henry, qui passaient généralement deux ou trois soirées par
semaine au chalet Voraud, ne s’y rendirent pas pendant ces huit
jours-là. La tante Amélie était de retour, et sa santé chancelante était
une excuse permanente et vraiment très commode à toutes les
défections. Il y a des familles où l’on semble entretenir
soigneusement des parents malades pour refuser les invitations à
dîner.
Mais ce qui sembla plus grave à Daniel, c’est que ses parents
n’invitèrent pas les Voraud. Il paraissait naturel qu’un dîner de famille
fût organisé pour présenter à l’oncle et à la tante leur future nièce.
Daniel, inquiet, se figura que les Voraud avaient remarqué cette
abstention. Il épia certains signes de gêne et de rancune. Il lui
suffisait d’être à l’affût de ces marques de froideur pour en trouver
toujours. Il en arriva très rapidement à juger que la situation était
insoutenable.
Un soir, il rentra chez lui fort surexcité. Dans son insomnie, il vit
toute la famille Voraud gravement affectée par l’attitude de M. et Mme
Henry. Il prit une résolution, pour s’endormir. Il décida qu’il irait parler
à M. Voraud. Ah ! se disait-il avec impatience, je voudrais être à
demain. Pourvu que demain ne soit pas trop tard !
Il fallait expliquer à M. Voraud la bouderie des Henry, et ajouter
que, lui, Daniel, méprisait les questions d’argent et resterait à jamais
fidèle à son amour ainsi qu’à la parole donnée. Il hésitait d’autant
moins à faire cette démarche qu’il était à peu près sûr de la réponse
de M. Voraud. Cette réponse serait : « Vous êtes un noble jeune
homme » ou quelque chose d’approchant.
Le lendemain le trouva encore dans les mêmes dispositions. Il
était, d’ailleurs, trop faible pour revenir sur une résolution
dangereuse et avait trop peur d’être lâche pour se permettre une
reculade. A trois heures, il descendit du train à la gare du Nord et se
rendit aux bureaux de son futur beau-père.
Malgré les renseignements inquiétants qu’il avait maintenant sur
la maison Voraud, l’austérité des grillages l’intimida, ainsi que
l’activité indifférente des employés et la tranquille rudesse des
garçons en uniforme, qui venaient verser de l’argent ou toucher des
chèques. De l’or et des billets, sans ostentation, entraient ou
sortaient des guichets.
On introduisit Daniel dans une petite chambre d’attente, claire et
sans meubles. M. Voraud, très pressé, sortit d’une pièce à côté :
« Bonjour, mon ami. Je ne vous reçois pas dans mon cabinet. J’ai
quelqu’un. Qu’est-ce qu’il y a pour votre service ? »
Ils étaient tous deux debout près de la fenêtre, au grand jour. M.
Voraud avait posé sa main sur l’épaule du jeune homme. Il baissait
sa tête robuste, tortillait sa moustache et pensait à autre chose.
— Voilà, dit Daniel. Je tenais à vous voir. Car je pensais que vous
aviez cru remarquer chez mes parents une certaine froideur.
— Une certaine froideur ? dit M. Voraud en relevant la tête, un
peu étonné. Pourquoi ça ?
— Voilà, dit Daniel, voilà. On a dit, c’est-à-dire on a raconté à
mon père des choses… que vos affaires n’allaient pas comme vous
vouliez.
M. Voraud releva la tête et regarda Daniel fixement. Daniel
continua, très vite :
— Alors papa m’a dit cela, et nous avons eu une scène. Je lui ai
répondu que je n’épousais pas votre fille pour de l’argent, que je
l’aimais. Je suis venu pour vous dire que les questions d’intérêt
n’existent pas pour moi, et que l’attitude de ma famille ne modifiera
jamais mes projets.
— Qu’est-ce que ça signifie ? dit sévèrement M. Voraud. Où
voulez-vous en venir ? Enfin, répondez : Quel est le sens de cette
démarche ? Est-ce vos parents qui vous ont envoyé ? Je n’aime pas
les faux-fuyants, ni l’équivoque, cher monsieur.
— Ce n’est pas mes parents, dit faiblement Daniel. C’est moi qui
suis venu de mon gré. Je n’ai consulté personne. J’ai fait cette
démarche à l’insu de tout le monde. J’ai voulu vous éclairer sur mes
sentiments.
— Je n’aime pas beaucoup ça, continua M. Voraud, sans
l’écouter. J’irai voir monsieur votre père, et je lui demanderai des
explications là-dessus. Je m’étonne qu’il ne soit pas venu me trouver
lui-même, au lieu de vous envoyer. Il sait où je demeure.
— Mais, je vous donne ma parole que ce n’est pas papa qui m’a
envoyé.
— Je le verrai à ce sujet… Je ne vous reconduis pas, dit-il en
serrant hâtivement la main de Daniel ; j’ai du monde dans mon
cabinet. Au revoir !
— Au revoir, monsieur, dit Daniel. Mais je voudrais que vous ne
vous trompiez pas sur le sens de ma démarche.
— Oui, c’est bon, c’est bon. Au revoir.
Daniel traversa la salle et descendit l’escalier sans penser à rien.
Puis, dans la rue, il se mit à marcher très vite, et la tête droite,
comme le personnage biblique à qui le Seigneur avait défendu de se
retourner pour regarder derrière lui le feu du ciel et ses ravages.
Mais il consentait rarement à s’avouer qu’il avait fait une fausse
démarche. Il convint donc avec lui-même, quand il ralentit son allure,
qu’il valait bien mieux que les choses se fussent passées de cette
façon, et qu’ainsi son père et M. Voraud auraient une explication
nette.
XXIII
LA FIANCÉE

M. Voraud ne parla point chez lui de la visite de Daniel. Du


moins, le lendemain, après déjeuner, Mme Voraud ne semblait au
courant de rien, quand le jeune homme entra dans la salle à manger
vitrée, où Berthe travaillait avec sa mère.
Le mois de septembre était un peu frais. On avait renoncé aux
robes d’été. Berthe portait un costume de drap gris, une veste unie,
montante, avec un petit faux-col blanc. Quand Daniel arriva, elle
était en train de bâtir un chapeau avec d’anciennes plumes qu’elle
ajustait sur une forme de feutre neuve. Elle avait entre les lèvres
deux épingles, qu’elle retira sur la prière de Daniel, qui craignait de
les lui voir avaler.
Il s’assit à côté d’elle, et la regarda impatiemment. Il n’avait rien à
lui dire, et ne pensait qu’à aller l’embrasser dans une autre chambre.
Comme Mme Voraud se levait pour aller baisser un peu le store,
Daniel dit à Berthe à demi-voix :
— Allez chercher des rubans dans la lingerie.
Depuis qu’ils étaient fiancés, on ne les empêchait pas de rester
seuls ensemble. Mais Mme Voraud faisait toujours son possible pour
les déranger.
Berthe ne se leva pas tout de suite. Elle acheva de fixer une
plume sur le devant du chapeau. Daniel trouvait qu’elle n’en finissait
pas. Il lui poussa légèrement le genou. Enfin, elle quitta sa chaise.
Mais elle resta longtemps encore à tourner le chapeau sur son
poing, puis à l’essayer devant la glace. Elle regarda Daniel.
— Comment le trouvez-vous ?
Il répondit sèchement :
— Bien.
Elle fronça le sourcil, comme lorsqu’elle disait : Méchant ! Puis
elle s’en alla vers la lingerie, qu’un grand salon, dont les portes
étaient ouvertes, séparait de la salle à manger. Daniel, pour ne pas
la suivre immédiatement, s’astreignit à faire quelques pas de long en
large avant de sortir. Puis il se dirigea innocemment vers la porte du
salon.
Mais la perfide Mme Voraud, qui lui avait à peine parlé jusque-là,
choisissait toujours le moment où il allait rejoindre Berthe pour
s’intéresser à lui et lui poser des questions auxquelles il était obligé
de répondre. Il dit brièvement que sa tante allait très bien, pour éviter
le dangereux sujet de ses maladies, qui eût nécessité
d’interminables détails.
Comme il était tout près de la porte, Mme Voraud l’arrêta encore
et lui demanda si ses parents comptaient rester tout le mois à la
campagne.
Il répondit : « Ça dépendra du temps, » et feignit de remarquer
brusquement un tableau dans le salon, en s’écriant : « Tiens ! je
n’avais jamais vu ce paysage-là ! » Mme Voraud sembla quitter
innocemment son ouvrage, le posa sur une table, et passa, elle
aussi, dans le salon pour admirer le tableau en question.
Daniel était déjà auprès de Berthe, qui paraissait très affairée à
remuer de vieux coupons d’étoffe dans le bas d’une armoire
normande. Mme Voraud entra à son tour dans la lingerie ; on garda
autour de la gêneuse un silence obstiné. Daniel, le front contre la
fenêtre, tapotait les carreaux. Enfin, la mère de Berthe, n’osant tout
de même pousser plus loin les hostilités, se retira, en disant à sa
fille : « Viens plutôt dans la salle à manger. Tu commences toujours
un ouvrage, et tu ne le finis pas. »
Daniel s’approcha de Berthe, qui lui tendit ses lèvres, et sembla
pâmée entre ses bras. Daniel l’entraîna bien doucement du côté du
mur, afin de s’y appuyer le dos. Dans ces étreintes, c’est au jeune
homme qu’incombe tout naturellement le soin de maintenir l’équilibre
du groupe. Il en résulte pour lui une préoccupation et un effort
musculaire qui ne sont pas sans gâter son plaisir.
Il y avait déjà longtemps que ces baisers silencieux avaient
remplacé, pour eux, toute espèce de conversation. Les quelques
mots qu’ils échangeaient n’étaient pas des paroles ; ils disaient : « Je
t’aime ! tu m’aimes ? » comme on dit : « Allô ! allô ! »
Depuis quelques jours, son amour pour Berthe s’était modifié.
Pendant longtemps il n’avait pas considéré sa fiancée comme une
femme. Et voilà, qu’une nuit, dans un songe, il l’avait serrée dans
ses bras, presque nue. Ceci se passait d’ailleurs en pleine salle à
manger des Voraud, en présence de toute la famille, et d’un ancien
professeur de quatrième de Daniel, spectateur imprévu de cette
aventure. Depuis cette nuit-là, Daniel avait regardé Berthe avec
d’autres regards. La pensée qu’elle était faite comme une autre
femme l’affolait. Il l’aimait d’une sorte d’amour incestueux.
C’était comme une profanation de son amour ancien ; il souhaitait
maintenant d’être son amant, avec plus d’impatience et un peu
d’effroi. Avant que son amour eût cet aspect nouveau, il avait
souvent pensé qu’il irait bien quelque jour jusqu’à la possession
complète. Mais il n’en percevait pas les détails. Cet événement
s’accomplissait dans une extase vague, par une espèce de tour de
passe-passe vertigineux, tel qu’on en voit dans les romans, où des
amants en justaucorps ou en redingote possèdent néanmoins très
rapidement les dames, comme un papillon se pose sur une fleur.
Maintenant que Daniel envisageait cet acte essentiel, il était effrayé
des diverses formalités qu’il nécessite.
Il avait dit à Berthe à plusieurs reprises : Je veux que vous soyez
à moi. Berthe répondait : Oui, oui. Il poursuivait : Quand voulez-vous
être à moi ? Bientôt ? Elle disait : Bientôt. Il l’étreignait alors avec
plus d’ardeur, sans exiger une date précise ; il la traitait comme ces
amis à qui l’on dit : « Votre couvert est mis chez moi. Venez dîner
prochainement… prochainement… » sans fixer le jour.
Chaque fois, cependant, qu’il se rendait chez les Voraud, il
espérait tout du hasard, et se disait : C’est peut-être aujourd’hui que
ça va se passer. Il pensait bien ne rien provoquer, mais il imaginait
que, dans une sorte d’emballement, Berthe murmurerait : Prenez-
moi. Ainsi mis au pied du mur, il serait bien, croyait-il, obligé d’en
profiter.
Il était, d’autre part, obsédé par la crainte de ne pas paraître
assez passionné en ne sollicitant pas une faveur qu’on était peut-
être disposé à lui accorder.
Ce jour-là du moins, il se sentait couvert par la présence de Mme
Voraud, qui interdisait toutes les audaces. On l’entendit qui appelait :
Berthe ! Berthe ! depuis la salle à manger.
Berthe cria : Me voici ! Elle ramassa quelques rubans et alla
retrouver sa mère, non sans avoir confié une dernière fois ses lèvres
à son fiancé, pour un baiser ardent et rapide, comme il les aimait.
Daniel ne rentra pas tout de suite dans la salle à manger ; il
s’était vu très rouge dans une glace, avec des yeux brillants. Mais il
ne pouvait pas s’éterniser dans la lingerie ; il revint auprès de Mme
Voraud, en appuyant sa main sur son front et en répétant : Je ne
sais pas ce que j’ai, j’ai le sang à la tête.
Il quitta d’ailleurs bientôt ces dames pour rentrer à la maison. Il
avait hâte d’être seul et de pouvoir songer à Berthe. Il s’étendit sur
son lit, ferma les yeux, et couvrit son oreiller de baisers frénétiques.
Il usait sa passion dans ces crises violentes. Cette fois encore, il
en sortit écœuré, et l’image de Berthe lui apparut, toute dénuée
maintenant de son charme.
Il se disait : Est-ce que je serai vraiment ainsi quand elle sera ma
femme ? Est-ce que tout à coup je ne lui voudrai plus rien, je n’aurai
plus rien à lui dire ? Son visage sera-t-il, comme maintenant, d’une
insoutenable fadeur ? J’ai peut-être tort d’engager ma vie. Je crois
que je ne l’aime pas.
On frappa à la porte de sa chambre.
— Monsieur votre papa vous attend, dit la cuisinière. Il veut vous
parler.
Son père était en train de nouer à son cou la cordelière d’une
chemise en satinette, à pois bleus. Mme Henry l’écoutait assise sur
un fauteuil. Daniel, maussade, la bouche sèche, s’arrêta à l’entrée
de la chambre.
— Eh bien ! dit M. Henry, sois heureux, l’amoureux ! Tu auras ta
Berthe ! M. Voraud m’a fait visite aujourd’hui, au magasin. Qu’est-ce
que tu es allé lui raconter hier ? Il n’y a rien compris, et moi, je
t’avoue que je n’ai pas saisi non plus… Bref, nous avons parlé de
ses affaires. Il m’a dit tout de suite que si j’avais la moindre arrière-
pensée, il nous rendait notre parole…
Il m’a donné des renseignements qui ne m’ont pas déplu.
Certainement ses affaires sont difficiles à liquider. Mais dame ! c’est
qu’il ne s’agit pas de quatre sous. Le jour où cet homme sera un peu
plus maître de la situation, il aura une position magnifique… Entre
donc et pousse un peu la porte… J’étais en train de dire à ta mère,
mais cela il ne faut le répéter à personne, qu’il m’avait parlé aussi
d’une affaire extraordinaire, où il fera son possible pour
m’intéresser… Si cette chose réussit comme il croit, et comme je
crois d’ailleurs aussi, je n’ose seulement pas dire ce qu’on peut
gagner là-dedans.
— Ça, dit Mme Henry, ça ne m’enthousiasme pas. Je n’aime pas
beaucoup que tu fasses des affaires en dehors de ta maison. Tu te
rappelles cette coutellerie, où tu n’as jamais revu tes quinze mille
francs ?
— J’aurais voulu, répondit simplement M. Henry, que tu entendes
ce Voraud quand il cause affaires. C’est un homme comme il n’y en
a pas trois sur la place de Paris… Nous avons ensuite parlé du
mariage. Nous sommes tombés d’accord que c’était tout de même
un peu long de faire attendre ces jeunes gens. Nous allons fixer ça
au mois de janvier, du 10 au 15. A moins, ajouta-t-il avec finesse,
que Daniel me désapprouve et préfère attendre davantage ?
Non ?… Ah ! il est entendu, j’oubliais de te dire, qu’ils doivent tous
dîner ici après-demain.
— Oh ! dit douloureusement Mme Henry. Nous sommes si mal
installés !
— Nous sommes à la campagne, dit M. Henry. Et, d’ailleurs, est-
ce qu’on ne trouve pas ici tout ce qu’on veut ? Je rapporterai de
Paris de mon vin fin, quatre bouteilles… ou six bouteilles.
Daniel souriait avec effort. Il se sentait lassé, incapable de joie.
— Tu vois, lui dit encore son père, que tout finit par s’arranger.
XXIV
REPAS OFFICIEL

Le jeudi qui suivit fut un grand jour. Pour la première fois, les
Voraud venaient dîner chez les Henry.
Mais Daniel n’aimait pas les grands jours. C’était pour lui
l’occasion de toutes sortes d’ennuis. D’abord, il craignait que ses
parents n’offrissent pas aux Voraud une réception impeccable.
Et puis les invitations n’avaient pas été faites absolument selon
ses désirs. On avait bien invité Louise Loison, mais on n’avait rien dit
à M. et Mme Loison, avec qui Daniel avait fait connaissance, et qui
seraient certainement venus de Paris pour assister à cette fête.
Daniel, la veille au soir, avait répété à Berthe, à satiété : « Alors, ça
ne fait rien que l’on n’ait pas invité les parents de Louise ? Jurez-moi
que ça ne fait rien. » Berthe avait répondu : « Puisque ça vous
tracasse tant, il fallait les inviter. » Et Daniel s’était désespéré.
Autre préoccupation au sujet de la grand’mère de Berthe. Elle
avait dit qu’elle viendrait. Mais ça n’était pas sûr. Comme elle
occupait une des places d’honneur, on n’aurait pas été fâché d’avoir
une réponse ferme. Il avait fallu prévoir deux combinaisons de
placement des convives pour l’hypothèse où elle viendrait, et pour
celle où elle ne viendrait pas.
Daniel, triomphant des résistances de ses parents, avait réussi à
faire inviter son ami Julius, et s’en repentait maintenant. Julius allait

You might also like