-
Dustin_dusTir authoredDustin_dusTir authored
Insurance Fraud detection
see German Version below
Business Understanding
Corporation: na
Industry: Insurance
Area of Application: Fraud detection
Business Objective: Through this service, future insurance fraudsters can be detected ahead of time.
Description: The insurance industry has always generated a large amount of data, be it the very personal data of policyholders, statistics on the performance of insurance products, or quite normal business metrics such as revenue, profit, and costs. The insurance sector is therefore predestined for the application of machine learning. At the same time, insurance companies are very popular targets for fraudsters. This can happen in the form of hacker attacks or quite analogously as insurance fraud, for example, in the case of a supposed claim. Since the insurance principle applies to insurance, all insured parties pay in the event of fraud. It harms the entire community. It is therefore particularly important to recognize and prevent fraud.
Solution: na
Data Understanding
Data Frame: Auto Insurance Claims Data
Source: Kaggle, „Auto Insurance Claims Data“, https://kaggle.com/buntyshah/auto-insurance-claims-data
Data Creator: na
Date of Publication: 2019
Data Type: CSV
Description of Data Frame: The data set used consists of 1000 sentences and has 40 different so-called features, i.e. collected data categories. This means that the data basis is not that large, but the possibilities to examine different features are all the greater. It shows information on policyholders, on the policy data of the insured and their motor vehicles, as well as on accidents and the amount of damage. The target variable shows whether insurance fraud is present ("fraud_reported"). The dataset is a good example of classification models because of the binary target variable (later also called target).
Number of Features: 40
Number of Targets: 1
Data Type per Feature:
Number of Observations: 1000
Location parameter:
Distribution parameter:
Correlation Analysis: There is a high correlation for age and months_as_customer as well as for total_claim_amount and vehicle_claim. In addition, there is a somewhat lower correlation of 0.81 between total_claim_amount and each of property_claim and injury_claim.
Data Preparation
Dimensionalitätsreduktion: Attribute, die keinen Mehrwert bringen oder nicht signifikant sind, werden entfernt
Ausreißer:
Fehlende Daten: Spalten mit fehlenden Daten werden entfernt
Unausgewogene Daten:
Datenkonvertierung:
Verteilungsfunktion:
Merkmalsskalierung:
Multikollinearität:
Modelling and Evaluation
Algorithms: Logistic regression, decision trees, Random forest, Support Vector Machine
Hyperparameter: na
Output: supervised learning, classification
Data Split: 80% train data, 20% test data
Model Description: Classification models are diverse and include, for example, Logistic Regression, Decision Tree, Random Forest and Support Vector Machines. All of the above models were tested on the data set.
Evaluation Metrics:
Additional Information:
Deployment
Service:
Target Group: Insurance companies
Benefits: Early prediction of potential insurance fraud.
Integration:
Insurance Fraud detection (Deutschsprachige Version)
Geschäftsverständnis
Konzern: na
Branche: Versicherung
Anwendungsbereich: Betrugserkennung
Geschäftsziel: Durch diesen Dienst können zukünftige Versicherungsbetrüger frühzeitig erkannt werden.
Beschreibung: Die Versicherungsbranche generiert seit jeher eine große Menge an Daten, seien es die sehr persönlichen Daten der Versicherungsnehmer, Statistiken über die Leistung von Versicherungsprodukten oder ganz normale Geschäftskennzahlen wie Umsatz, Gewinn und Kosten. Der Versicherungssektor ist daher prädestiniert für die Anwendung von maschinellem Lernen. Gleichzeitig sind Versicherungsunternehmen sehr beliebte Ziele für Betrüger. Dies kann in Form von Hackerangriffen geschehen oder ganz analog als Versicherungsbetrug, zum Beispiel bei einem vermeintlichen Schadensfall. Da bei Versicherungen das Versicherungsprinzip gilt, zahlen im Falle eines Betrugs alle Versicherten. Er schadet der gesamten Gemeinschaft. Deshalb ist es besonders wichtig, Betrug zu erkennen und zu verhindern.
Lösung: na
Datenverständnis
Datenrahmen: Auto Insurance Claims Data
Quelle: Kaggle, "Auto Insurance Claims Data", https://kaggle.com/buntyshah/auto-insurance-claims-data
Datenersteller: na
Datum der Veröffentlichung: 2019
Datentyp: CSV
Description of Data Frame: Der verwendete Datensatz besteht aus 1000 Sätzen und hat 40 verschiedene sogenannte Features, d.h. gesammelte Datenkategorien. Das bedeutet, dass die Datenbasis nicht sehr groß ist, dafür sind die Möglichkeiten, verschiedene Merkmale zu untersuchen, umso größer. Sie zeigt Informationen zu den Versicherungsnehmern, zu den Versicherungsdaten der Versicherten und ihrer Kraftfahrzeuge sowie zu Unfällen und Schadenshöhen. Die Zielvariable zeigt an, ob ein Versicherungsbetrug vorliegt ("fraud_reported"). Der Datensatz ist aufgrund der binären Zielvariable (später auch Ziel genannt) ein gutes Beispiel für Klassifikationsmodelle.
Anzahl der Merkmale: 40
Anzahl der Ziele: 1
Datentyp pro Merkmal:
Anzahl der Beobachtungen: 1000
Verteilungsparameter:
Korrelationsanalyse: Eine hohe Korrelation besteht für Alter und Monate_als_Kunde sowie für Gesamtschadensumme und Fahrzeugschaden. Darüber hinaus besteht eine etwas geringere Korrelation von 0,81 zwischen Gesamtschadensumme und jeweils Sachschaden und Personenschaden.
Datenaufbereitung
Dimensionsreduktion: Attribute, die keinen Mehrwert bieten oder nicht signifikant sind, werden entfernt.
Ausreißer:
Fehlende Daten:
Unausgeglichene Daten:
Datenkonvertierung: Kodierung der kategorialen Merkmale.
Verteilungsfunktion: Ähnlichkeit mit einer Exponentialverteilung für das Attribut "TotalCharges" erkennbar.
Funktionsskalierung:
Multikollinearität:
Algorithmen: Logistische Regression, Entscheidungsbäume, Random Forest, Support Vector Machine
Hyperparameter: na
Ausgabe: Überwachtes Lernen, Klassifikation
Datenaufteilung: 80% Trainingsdaten, 20% Testdaten
Modellbeschreibung: Klassifizierungsmodelle sind vielfältig und umfassen zum Beispiel logistische Regression, Entscheidungsbaum, Random Forest und Support Vector Machines. Alle oben genannten Modelle wurden mit dem Datensatz getestet.
Auswertungsmetriken:
Zusätzliche Informationen:
Bereitstellung
Dienstleistung:
Zielgruppe: Versicherungsgesellschaften
Vorteile: Frühzeitige Vorhersage von potenziellem Versicherungsbetrug.
Integration: