python怎么做數(shù)據(jù)清洗？

作者：Lianne & Justin? ?

在擬合機(jī)器學(xué)習(xí)或統(tǒng)計(jì)模型之前，我們通常需要清洗數(shù)據(jù)。用雜亂數(shù)據(jù)訓(xùn)練出的模型無法輸出有意義的結(jié)果。

數(shù)據(jù)清洗：從記錄集、表或數(shù)據(jù)庫中檢測(cè)和修正（或刪除）受損或不準(zhǔn)確記錄的過程。它識(shí)別出數(shù)據(jù)中不完善、不準(zhǔn)確或不相關(guān)的部分，并替換、修改或刪除這些臟亂的數(shù)據(jù)。

「數(shù)據(jù)清洗」光定義就這么長，執(zhí)行過程肯定既枯燥又耗時(shí)。 ? ? ? ? 為了將數(shù)據(jù)清洗簡(jiǎn)單化，本文介紹了一種新型完備分步指南，支持在 Python 中執(zhí)行數(shù)據(jù)清洗流程。讀者可以學(xué)習(xí)找出并清洗以下數(shù)據(jù)的方法：

缺失數(shù)據(jù)；

不規(guī)則數(shù)據(jù)（異常值）；

不必要數(shù)據(jù)：重復(fù)數(shù)據(jù)（repetitive data）、復(fù)制數(shù)據(jù)（duplicate data）等；

不一致數(shù)據(jù)：大寫、地址等；

該指南使用的數(shù)據(jù)集是 Kaggle 競(jìng)賽 Sberbank 俄羅斯房地產(chǎn)價(jià)值預(yù)測(cè)競(jìng)賽數(shù)據(jù)（該項(xiàng)目的目標(biāo)是預(yù)測(cè)俄羅斯的房?jī)r(jià)波動(dòng)）。本文并未使用全部數(shù)據(jù)，僅選取了其中的一部分樣本。 ? ? ? ? 在進(jìn)入數(shù)據(jù)清洗流程之前，我們先來看一下數(shù)據(jù)概況。

# import packages
import pandas as pd
import numpy as np
import seaborn as sns


import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
import matplotlib
plt.style.use('ggplot')
from matplotlib.pyplot import figure


%matplotlib inline
matplotlib.rcParams['figure.figsize'] = (12,8)

pd.options.mode.chained_assignment = None

# read the data
df = pd.read_csv('sberbank.csv')


# shape and data types of the data
print(df.shape)
print(df.dtypes)


# select numeric columns
df_numeric = df.select_dtypes(include=[np.number])
numeric_cols = df_numeric.columns.values
print(numeric_cols)


# select non numeric columns
df_non_numeric = df.select_dtypes(exclude=[np.number])
non_numeric_cols = df_non_numeric.columns.values
print(non_numeric_cols)

? 從以上結(jié)果中，我們可以看到該數(shù)據(jù)集共有 30,471 行、292 列，還可以辨別特征屬于數(shù)值變量還是分類變量。這些都是有用的信息。 ? 現(xiàn)在，我們可以瀏覽「臟」數(shù)據(jù)類型檢查清單，并一一攻破。 ? 開始吧！ ? 缺失數(shù)據(jù) ? 處理缺失數(shù)據(jù)/缺失值是數(shù)據(jù)清洗中最棘手也最常見的部分。很多模型可以與其他數(shù)據(jù)問題和平共處，但大多數(shù)模型無法接受缺失數(shù)據(jù)問題。 ?

如何找出缺失數(shù)據(jù)？

本文將介紹三種方法，幫助大家更多地了解數(shù)據(jù)集中的缺失數(shù)據(jù)。 ? 方法 1：缺失數(shù)據(jù)熱圖 ? 當(dāng)特征數(shù)量較少時(shí)，我們可以通過熱圖對(duì)缺失數(shù)據(jù)進(jìn)行可視化。

cols = df.columns[:30] # first 30 columns
colours = ['#000099', '#ffff00'] # specify the colours - yellow is missing. blue is not missing.
sns.heatmap(df[cols].isnull(), cmap=sns.color_palette(colours))

下表展示了前 30 個(gè)特征的缺失數(shù)據(jù)模式。橫軸表示特征名，縱軸表示觀察值/行數(shù)，黃色表示缺失數(shù)據(jù)，藍(lán)色表示非缺失數(shù)據(jù)。 ? 例如，下圖中特征 life_sq 在多個(gè)行中存在缺失值。而特征 floor 只在第 7000 行左右出現(xiàn)零星缺失值。 ?

缺失數(shù)據(jù)熱圖 ? 方法 2：缺失數(shù)據(jù)百分比列表 ? 當(dāng)數(shù)據(jù)集中存在很多特征時(shí)，我們可以為每個(gè)特征列出缺失數(shù)據(jù)的百分比。 ?

# if it's a larger dataset and the visualization takes too long can do this.
# % of missing.
for col in df.columns:
    pct_missing = np.mean(df[col].isnull())
    print('{} - {}%'.format(col, round(pct_missing*100)))

? 得到如下列表，該表展示了每個(gè)特征的缺失值百分比。 ? 具體而言，我們可以從下表中看到特征 life_sq 有 21% 的缺失數(shù)據(jù)，而特征 floor 僅有 1% 的缺失數(shù)據(jù)。該列表有效地總結(jié)了每個(gè)特征的缺失數(shù)據(jù)百分比情況，是對(duì)熱圖可視化的補(bǔ)充。 ?

前 30 個(gè)特征的缺失數(shù)據(jù)百分比列表 ? 方法 3：缺失數(shù)據(jù)直方圖 ? 在存在很多特征時(shí)，缺失數(shù)據(jù)直方圖也不失為一種有效方法。 ? 要想更深入地了解觀察值中的缺失值模式，我們可以用直方圖的形式進(jìn)行可視化。 ?

# first create missing indicator for features with missing data
for col in df.columns:
    missing = df[col].isnull()
    num_missing = np.sum(missing)


    if num_missing > 0:  
        print('created missing indicator for: {}'.format(col))
        df['{}_ismissing'.format(col)] = missing




# then based on the indicator, plot the histogram of missing values
ismissing_cols = [col for col in df.columns if 'ismissing' in col]
df['num_missing'] = df[ismissing_cols].sum(axis=1)


df['num_missing'].value_counts().reset_index().sort_values(by='index').plot.bar(x='index', y='num_missing')

? 直方圖可以幫助在 30,471 個(gè)觀察值中識(shí)別缺失值狀況。 ? 例如，從下圖中可以看到，超過 6000 個(gè)觀察值不存在缺失值，接近 4000 個(gè)觀察值具備一個(gè)缺失值。 ?

缺失數(shù)據(jù)直方圖 ? 如何處理缺失數(shù)據(jù)？ ? 這方面沒有統(tǒng)一的解決方案。我們必須研究特定特征和數(shù)據(jù)集，據(jù)此決定處理缺失數(shù)據(jù)的最佳方式。 ? 下面介紹了四種最常用的缺失數(shù)據(jù)處理方法。不過，如果情況較為復(fù)雜，我們需要?jiǎng)?chuàng)造性地使用更復(fù)雜的方法，如缺失數(shù)據(jù)建模。 ? 解決方案 1：丟棄觀察值 ? 在統(tǒng)計(jì)學(xué)中，該方法叫做成列刪除（listwise deletion），需要丟棄包含缺失值的整列觀察值。 ? 只有在我們確定缺失數(shù)據(jù)無法提供信息時(shí)，才可以執(zhí)行該操作。否則，我們應(yīng)當(dāng)考慮其他解決方案。 ? 此外，還存在其他標(biāo)準(zhǔn)。 ? 例如，從缺失數(shù)據(jù)直方圖中，我們可以看到只有少量觀察值的缺失值數(shù)量超過 35。因此，我們可以創(chuàng)建一個(gè)新的數(shù)據(jù)集 df_less_missing_rows，該數(shù)據(jù)集刪除了缺失值數(shù)量超過 35 的觀察值。 ?

# drop rows with a lot of missing values.
ind_missing = df[df['num_missing'] > 35].index
df_less_missing_rows = df.drop(ind_missing, axis=0)

? 解決方案 2：丟棄特征 ? 與解決方案 1 類似，我們只在確定某個(gè)特征無法提供有用信息時(shí)才丟棄它。 ? 例如，從缺失數(shù)據(jù)百分比列表中，我們可以看到 hospital_beds_raion 具備較高的缺失值百分比——47%，因此我們丟棄這一整個(gè)特征。 ?

# hospital_beds_raion has a lot of missing.
# If we want to drop.
cols_to_drop = ['hospital_beds_raion']
df_less_hos_beds_raion = df.drop(cols_to_drop, axis=1)

? 解決方案 3：填充缺失數(shù)據(jù) ? 當(dāng)特征是數(shù)值變量時(shí)，執(zhí)行缺失數(shù)據(jù)填充。對(duì)同一特征的其他非缺失數(shù)據(jù)取平均值或中位數(shù)，用這個(gè)值來替換缺失值。 ? 當(dāng)特征是分類變量時(shí)，用眾數(shù)（最頻值）來填充缺失值。 ? 以特征 life_sq 為例，我們可以用特征中位數(shù)來替換缺失值。 ?

# replace missing values with the median.
med = df['life_sq'].median()
print(med)
df['life_sq'] = df['life_sq'].fillna(med)

? 此外，我們還可以對(duì)所有數(shù)值特征一次性應(yīng)用同樣的填充策略。 ?

# impute the missing values and create the missing value indicator variables for each numeric column.
df_numeric = df.select_dtypes(include=[np.number])
numeric_cols = df_numeric.columns.values


for col in numeric_cols:
    missing = df[col].isnull()
    num_missing = np.sum(missing)


    if num_missing > 0:  # only do the imputation for the columns that have missing values.
        print('imputing missing values for: {}'.format(col))
        df['{}_ismissing'.format(col)] = missing
        med = df[col].median()
        df[col] = df[col].fillna(med)

? 很幸運(yùn)，本文使用的數(shù)據(jù)集中的分類特征沒有缺失值。不然，我們也可以對(duì)所有分類特征一次性應(yīng)用眾數(shù)填充策略。 ?

# impute the missing values and create the missing value indicator variables for each non-numeric column.
df_non_numeric = df.select_dtypes(exclude=[np.number])
non_numeric_cols = df_non_numeric.columns.values


for col in non_numeric_cols:
    missing = df[col].isnull()
    num_missing = np.sum(missing)


    if num_missing > 0:  # only do the imputation for the columns that have missing values.
        print('imputing missing values for: {}'.format(col))
        df['{}_ismissing'.format(col)] = missing


        top = df[col].describe()['top'] # impute with the most frequent value.
        df[col] = df[col].fillna(top)

解決方案 4：替換缺失值 ? 對(duì)于分類特征，我們可以添加新的帶值類別，如 _MISSING_。對(duì)于數(shù)值特征，我們可以用特定值（如-999）來替換缺失值。 ? 這樣，我們就可以保留缺失值，使之提供有價(jià)值的信息。??

# categorical
df['sub_area'] = df['sub_area'].fillna('_MISSING_')


# numeric
df['life_sq'] = df['life_sq'].fillna(-999)

? 不規(guī)則數(shù)據(jù)（異常值） ? 異常值指與其他觀察值具備顯著差異的數(shù)據(jù)，它們可能是真的異常值也可能是錯(cuò)誤。 ? 如何找出異常值？ ? 根據(jù)特征的屬性（數(shù)值或分類），使用不同的方法來研究其分布，進(jìn)而檢測(cè)異常值。 ? 方法 1：直方圖/箱形圖 ? 當(dāng)特征是數(shù)值變量時(shí)，使用直方圖和箱形圖來檢測(cè)異常值。 ? 下圖展示了特征 life_sq 的直方圖。 ?

# histogram of life_sq.
df['life_sq'].hist(bins=100)

? 由于數(shù)據(jù)中可能存在異常值，因此下圖中數(shù)據(jù)高度偏斜。 ?

直方圖 ? 為了進(jìn)一步研究特征，我們來看一下箱形圖。 ?

# box plot.
df.boxplot(column=['life_sq'])

? 從下圖中我們可以看到，異常值是一個(gè)大于 7000 的數(shù)值。 ?

箱形圖 ? 方法 2：描述統(tǒng)計(jì)學(xué) ? 對(duì)于數(shù)值特征，當(dāng)異常值過于獨(dú)特時(shí)，箱形圖無法顯示該值。因此，我們可以查看其描述統(tǒng)計(jì)學(xué)。 ? 例如，對(duì)于特征 life_sq，我們可以看到其最大值是 7478，而上四分位數(shù)（數(shù)據(jù)的第 75 個(gè)百分位數(shù)據(jù)）是 43。因此值 7478 是異常值。 ?

df['life_sq'].describe()

? 方法 3：條形圖 ? 當(dāng)特征是分類變量時(shí)，我們可以使用條形圖來了解其類別和分布。 ? 例如，特征 ecology 具備合理的分布。但如果某個(gè)類別「other」僅有一個(gè)值，則它就是異常值。 ?

# bar chart?-? distribution of a categorical variable
df['ecology'].value_counts().plot.bar()

條形圖 ? 其他方法：還有很多方法可以找出異常值，如散點(diǎn)圖、z 分?jǐn)?shù)和聚類，本文不過多探討全部方法。 ? 如何處理異常值？ ? 盡管異常值不難檢測(cè)，但我們必須選擇合適的處理辦法。而這高度依賴于數(shù)據(jù)集和項(xiàng)目目標(biāo)。 ? 處理異常值的方法與處理缺失值有些類似：要么丟棄，要么修改，要么保留。（讀者可以返回上一章節(jié)處理缺失值的部分查看相關(guān)解決方案。） ? 不必要數(shù)據(jù) ? 處理完缺失數(shù)據(jù)和異常值，現(xiàn)在我們來看不必要數(shù)據(jù)，處理不必要數(shù)據(jù)的方法更加直接。 ? 輸入到模型中的所有數(shù)據(jù)應(yīng)服務(wù)于項(xiàng)目目標(biāo)。不必要數(shù)據(jù)即無法增加價(jià)值的數(shù)據(jù)。 ? 這里將介紹三種主要的不必要數(shù)據(jù)類型。 ? 不必要數(shù)據(jù)類型 1：信息不足/重復(fù) ? 有時(shí)一個(gè)特征不提供信息，是因?yàn)樗鼡碛刑嗑邆湎嗤档男小?? 如何找出重復(fù)數(shù)據(jù)？ ? 我們可以為具備高比例相同值的特征創(chuàng)建一個(gè)列表。 ? 例如，下圖展示了 95% 的行是相同值的特征。 ?

num_rows = len(df.index)
low_information_cols = [] #


for col in df.columns:
    cnts = df[col].value_counts(dropna=False)
    top_pct = (cnts/num_rows).iloc[0]


    if top_pct > 0.95:
        low_information_cols.append(col)
        print('{0}: {1:.5f}%'.format(col, top_pct*100))
        print(cnts)
        print()

? 我們可以逐一查看這些變量，確認(rèn)它們是否提供有用信息。（此處不再詳述。） ?

? 如何處理重復(fù)數(shù)據(jù)？ ? 我們需要了解重復(fù)特征背后的原因。當(dāng)它們的確無法提供有用信息時(shí)，我們就可以丟棄它。 ? 不必要數(shù)據(jù)類型 2：不相關(guān) ? 再次強(qiáng)調(diào)，數(shù)據(jù)需要為項(xiàng)目提供有價(jià)值的信息。如果特征與項(xiàng)目試圖解決的問題無關(guān)，則這些特征是不相關(guān)數(shù)據(jù)。 ? 如何找出不相關(guān)數(shù)據(jù)？ ? 瀏覽特征，找出不相關(guān)的數(shù)據(jù)。 ? 例如，記錄多倫多氣溫的特征無法為俄羅斯房?jī)r(jià)預(yù)測(cè)項(xiàng)目提供任何有用信息。 ? 如何處理不相關(guān)數(shù)據(jù)？ ? 當(dāng)這些特征無法服務(wù)于項(xiàng)目目標(biāo)時(shí)，刪除之。 ? 不必要數(shù)據(jù)類型 3：復(fù)制 ? 復(fù)制數(shù)據(jù)即，觀察值存在副本。 ? 復(fù)制數(shù)據(jù)有兩個(gè)主要類型。 ? 復(fù)制數(shù)據(jù)類型 1：基于所有特征 ? 如何找出基于所有特征的復(fù)制數(shù)據(jù)？ ? 這種復(fù)制發(fā)生在觀察值內(nèi)所有特征的值均相同的情況下，很容易找出。 ? 我們需要先刪除數(shù)據(jù)集中的唯一標(biāo)識(shí)符 id，然后刪除復(fù)制數(shù)據(jù)得到數(shù)據(jù)集 df_dedupped。對(duì)比 df 和 df_dedupped 這兩個(gè)數(shù)據(jù)集的形態(tài)，找出復(fù)制行的數(shù)量。 ?

# we know that column 'id' is unique, but what if we drop it?
df_dedupped = df.drop('id', axis=1).drop_duplicates()


# there were duplicate rows
print(df.shape)
print(df_dedupped.shape)

? 我們發(fā)現(xiàn)，有 10 行是完全復(fù)制的觀察值。 ?

? 如何處理基于所有特征的復(fù)制數(shù)據(jù)？ ? 刪除這些復(fù)制數(shù)據(jù)。 ? 復(fù)制數(shù)據(jù)類型 2：基于關(guān)鍵特征 ? 如何找出基于關(guān)鍵特征的復(fù)制數(shù)據(jù)？ ? 有時(shí)候，最好的方法是刪除基于一組唯一標(biāo)識(shí)符的復(fù)制數(shù)據(jù)。 ? 例如，相同使用面積、相同價(jià)格、相同建造年限的兩次房產(chǎn)交易同時(shí)發(fā)生的概率接近零。 ? 我們可以設(shè)置一組關(guān)鍵特征作為唯一標(biāo)識(shí)符，比如 timestamp、full_sq、life_sq、floor、build_year、num_room、price_doc。然后基于這些特征檢查是否存在復(fù)制數(shù)據(jù)。 ?

key = ['timestamp', 'full_sq', 'life_sq', 'floor', 'build_year', 'num_room', 'price_doc']


df.fillna(-999).groupby(key)['id'].count().sort_values(ascending=False).head(20)

? 基于這組關(guān)鍵特征，我們找到了 16 條復(fù)制數(shù)據(jù)。 ?

? 如何處理基于關(guān)鍵特征的復(fù)制數(shù)據(jù)？ ? 刪除這些復(fù)制數(shù)據(jù)。 ?

# drop duplicates based on an subset of variables.


key = ['timestamp', 'full_sq', 'life_sq', 'floor', 'build_year', 'num_room', 'price_doc']
df_dedupped2 = df.drop_duplicates(subset=key)


print(df.shape)
print(df_dedupped2.shape)

? 刪除 16 條復(fù)制數(shù)據(jù)，得到新數(shù)據(jù)集 df_dedupped2。 ?

? 不一致數(shù)據(jù) ? 在擬合模型時(shí)，數(shù)據(jù)集遵循特定標(biāo)準(zhǔn)也是很重要的一點(diǎn)。我們需要使用不同方式來探索數(shù)據(jù)，找出不一致數(shù)據(jù)。大部分情況下，這取決于觀察和經(jīng)驗(yàn)。不存在運(yùn)行和修復(fù)不一致數(shù)據(jù)的既定代碼。 ? 下文介紹了四種不一致數(shù)據(jù)類型。 ? 不一致數(shù)據(jù)類型 1：大寫 ? 在類別值中混用大小寫是一種常見的錯(cuò)誤。這可能帶來一些問題，因?yàn)?Python 分析對(duì)大小寫很敏感。 ? 如何找出大小寫不一致的數(shù)據(jù)？ ? 我們來看特征 sub_area。 ?

df['sub_area'].value_counts(dropna=False)

? 它存儲(chǔ)了不同地區(qū)的名稱，看起來非常標(biāo)準(zhǔn)化。 ?

? 但是，有時(shí)候相同特征內(nèi)存在不一致的大小寫使用情況。「Poselenie Sosenskoe」和「pOseleNie sosenskeo」指的是相同的地區(qū)。 ? 如何處理大小寫不一致的數(shù)據(jù)？ ? 為了避免這個(gè)問題，我們可以將所有字母設(shè)置為小寫（或大寫）。 ?

# make everything lower case.
df['sub_area_lower'] = df['sub_area'].str.lower()
df['sub_area_lower'].value_counts(dropna=False)

? 不一致數(shù)據(jù)類型 2：格式 ? 我們需要執(zhí)行的另一個(gè)標(biāo)準(zhǔn)化是數(shù)據(jù)格式。比如將特征從字符串格式轉(zhuǎn)換為 DateTime 格式。 ? 如何找出格式不一致的數(shù)據(jù)？ ? 特征 timestamp 在表示日期時(shí)是字符串格式。 ?

df

? 如何處理格式不一致的數(shù)據(jù)？ ? 使用以下代碼進(jìn)行格式轉(zhuǎn)換，并提取日期或時(shí)間值。然后，我們就可以很容易地用年或月的方式分析交易量數(shù)據(jù)。 ?

df['timestamp_dt'] = pd.to_datetime(df['timestamp'], format='%Y-%m-%d')
df['year'] = df['timestamp_dt'].dt.year
df['month'] = df['timestamp_dt'].dt.month
df['weekday'] = df['timestamp_dt'].dt.weekday


print(df['year'].value_counts(dropna=False))
print()
print(df['month'].value_counts(dropna=False))

? 相關(guān)文章：https://towardsdatascience.com/how-to-manipulate-date-and-time-in-python-like-a-boss-ddea677c6a4d ? 不一致數(shù)據(jù)類型 3：類別值 ? 分類特征的值數(shù)量有限。有時(shí)由于拼寫錯(cuò)誤等原因可能出現(xiàn)其他值。 ? 如何找出類別值不一致的數(shù)據(jù)？ ? 我們需要觀察特征來找出類別值不一致的情況。舉例來說： ? 由于本文使用的房地產(chǎn)數(shù)據(jù)集不存在這類問題，因此我們創(chuàng)建了一個(gè)新的數(shù)據(jù)集。例如，city 的值被錯(cuò)誤輸入為「torontoo」和「tronto」，其實(shí)二者均表示「toronto」（正確值）。 ? 識(shí)別它們的一種簡(jiǎn)單方式是模糊邏輯（或編輯距離）。該方法可以衡量使一個(gè)值匹配另一個(gè)值需要更改的字母數(shù)量（距離）。 ? 已知這些類別應(yīng)僅有四個(gè)值：「toronto」、「vancouver」、「montreal」和「calgary」。計(jì)算所有值與單詞「toronto」（和「vancouver」）之間的距離，我們可以看到疑似拼寫錯(cuò)誤的值與正確值之間的距離較小，因?yàn)樗鼈冎挥袔讉€(gè)字母不同。 ?

from nltk.metrics import edit_distance

df_city_ex = pd.DataFrame(data={'city': ['torontoo', 'toronto', 'tronto', 'vancouver', 'vancover', 'vancouvr', 'montreal', 'calgary']})

df_city_ex['city_distance_toronto'] = df_city_ex['city'].map(lambda x: edit_distance(x, 'toronto'))
df_city_ex['city_distance_vancouver'] = df_city_ex['city'].map(lambda x: edit_distance(x, 'vancouver'))
df_city_ex

? 如何處理類別值不一致的數(shù)據(jù)？ ? 我們可以設(shè)置標(biāo)準(zhǔn)將這些拼寫錯(cuò)誤轉(zhuǎn)換為正確值。例如，下列代碼規(guī)定所有值與「toronto」的距離在 2 個(gè)字母以內(nèi)。 ?

msk = df_city_ex['city_distance_toronto'] <= 2
df_city_ex.loc[msk, 'city'] = 'toronto'

msk = df_city_ex['city_distance_vancouver'] <= 2
df_city_ex.loc[msk, 'city'] = 'vancouver'


df_city_ex

? 不一致數(shù)據(jù)類型 4：地址 ? 地址特征對(duì)很多人來說是老大難問題。因?yàn)槿藗兺鶖?shù)據(jù)庫中輸入數(shù)據(jù)時(shí)通常不會(huì)遵循標(biāo)準(zhǔn)格式。 ? 如何找出地址不一致的數(shù)據(jù)？ ? 用瀏覽的方式可以找出混亂的地址數(shù)據(jù)。即便有時(shí)我們看不出什么問題，也可以運(yùn)行代碼執(zhí)行標(biāo)準(zhǔn)化。 ? 出于隱私原因，本文采用的房地產(chǎn)數(shù)據(jù)集沒有地址列。因此我們創(chuàng)建具備地址特征的新數(shù)據(jù)集 df_add_ex。 ?

# no address column in the housing dataset. So create one to show the code.
df_add_ex = pd.DataFrame(['123 MAIN St Apartment 15', '123 Main Street Apt 12   ', '543 FirSt Av', '  876 FIRst Ave.'], columns=['address'])
df_add_ex

? 我們可以看到，地址特征非常混亂。 ?

? 如何處理地址不一致的數(shù)據(jù)？ ? 運(yùn)行以下代碼將所有字母轉(zhuǎn)為小寫，刪除空格，刪除句號(hào)，并將措辭標(biāo)準(zhǔn)化。 ?

df_add_ex['address_std'] = df_add_ex['address'].str.lower()
df_add_ex['address_std'] = df_add_ex['address_std'].str.strip() # remove leading and trailing whitespace.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\.', '') # remove period.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\bstreet\b', 'st') # replace street with st.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\bapartment\b', 'apt') # replace apartment with apt.
df_add_ex['address_std'] = df_add_ex['address_std'].str.replace('\bav\b', 'ave') # replace apartment with apt.


df_add_ex

? 現(xiàn)在看起來好多了： ?

? 結(jié)束了！我們走過了長長的數(shù)據(jù)清洗旅程。 ? 現(xiàn)在你可以運(yùn)用本文介紹的方法清洗所有阻礙你擬合模型的「臟」數(shù)據(jù)了。

編輯：黃飛

閱讀全文

數(shù)據(jù)處理(28212) 數(shù)據(jù)處理(28212)
機(jī)器學(xué)習(xí)(130422) 機(jī)器學(xué)習(xí)(130422)
python(83364) python(83364)
數(shù)據(jù)集(24278) 數(shù)據(jù)集(24278)

評(píng)論

相關(guān)推薦

Python做機(jī)器學(xué)習(xí)的重要庫

開發(fā)用 Python 做機(jī)器學(xué)習(xí)不得不收藏的重要庫

2020-06-10 09:24:55

Python數(shù)據(jù)如何分析

Python數(shù)據(jù)分析：seaborn

2020-05-29 16:34:57

Python中常用的數(shù)據(jù)類型

數(shù)據(jù)類型是每種編程語言必備屬性，只有給數(shù)據(jù)賦予明確的數(shù)據(jù)類型，計(jì)算機(jī)才能對(duì)數(shù)據(jù)進(jìn)行處理運(yùn)算，因此，正確使用數(shù)據(jù)類型是十分必要的，不同的語言，數(shù)據(jù)類型類似，但具體表示方法有所不同，以下是Python

2018-04-19 15:14:08

Python存儲(chǔ)數(shù)據(jù)詳解

在Python開發(fā)中，數(shù)據(jù)存儲(chǔ)、讀取是必不可少的環(huán)節(jié)，而且可以采用的存儲(chǔ)方式也很多，常用的方法有json文件、csv文件、MySQL數(shù)據(jù)庫、Redis數(shù)據(jù)庫以及Mongdb數(shù)據(jù)庫等。1. json

2018-03-29 15:47:28

Python就業(yè)崗位詳解

BOSS再也不用擔(dān)心你沒有數(shù)據(jù)。做爬蟲工程師的的薪資為20K起，當(dāng)然，因?yàn)榇?b class="flag-6" style="color: red">數(shù)據(jù)，薪資也將一路上揚(yáng)。四、Python web全棧工程師全棧工程師是指掌握多種技能，并能利用多種技能獨(dú)立完成產(chǎn)品的人。也叫全端

2018-05-02 16:38:33

Python的分類數(shù)據(jù)

《利用Python進(jìn)行數(shù)據(jù)分析》 121 分類數(shù)據(jù)

2019-10-31 09:27:55

python 數(shù)據(jù)分析基礎(chǔ) day12－python調(diào)用mysql

python 數(shù)據(jù)分析基礎(chǔ) day12－python調(diào)用mysql

2019-10-23 13:34:58

python數(shù)據(jù)分析的類庫

Python之所以這么流行，這么好用，就是因?yàn)?b class="flag-6" style="color: red">Python提供了大量的第三方的庫，開箱即用，非常方便，而且還免費(fèi)哦，學(xué)Python的同學(xué)里估計(jì)有30%以上是為了做數(shù)據(jù)分析師或者數(shù)據(jù)挖掘，所以數(shù)據(jù)

2018-05-10 15:18:11

python在日常工作中到底有了哪些應(yīng)用

python在硬件中的應(yīng)用，但是講的非常泛泛。今天我就以我的實(shí)際經(jīng)驗(yàn)來講一下python在我的日常工作中到底有了哪些應(yīng)用，我到底是怎么做的。最后還會(huì)簡(jiǎn)單講一下作為一個(gè)硬件工程師要怎么去學(xué)python。這里借用一下...

2021-07-15 06:32:33

python的數(shù)據(jù)類型有哪些？

python的數(shù)據(jù)類型有哪些？Python定義函數(shù)一般格式是什么？

2021-12-27 06:26:40

做儀表的，用qt怎么做的？

做儀表的，用qt怎么做的？問：不知道做儀表的，用qt怎么做的？目前用是的EK140P全功能板，我用此工具編譯

2018-12-21 10:22:52

怎么做CANopen開發(fā)

怎么做CANopen開發(fā)

2016-09-20 16:01:05

怎么做圖像識(shí)別？

怎么做圖像識(shí)別

2015-07-22 23:23:16

怎么做才能確保來自FPGA的信號(hào)在clk和數(shù)據(jù)之間具有正確的時(shí)序相位關(guān)系

嗨，我需要通過FPGA內(nèi)部的源同步信號(hào)，我該怎么做才能確保來自FPGA的信號(hào)在clk和數(shù)據(jù)之間具有正確的時(shí)序相位關(guān)系。與輸入的相同。我可以復(fù)制兩個(gè)輸出。請(qǐng)指教。

2020-05-22 14:19:26

怎么做智能小車

怎么做智能小車？那位大神有資料？發(fā)點(diǎn)我學(xué)習(xí)下{:4:}

2014-03-21 22:14:49

CRC-8，verilog怎么做除法運(yùn)算

請(qǐng)問由八位的輸入數(shù)據(jù)，怎么得到CRC編碼后的16位數(shù)據(jù)啊？verilog里面怎么做除法運(yùn)算？

2014-10-25 20:05:44

GAGE數(shù)據(jù)采集卡LabVIEW實(shí)時(shí)采集顯示，處理數(shù)據(jù)，該怎么做？

中需要用LabVIEW實(shí)時(shí)采集顯示，處理數(shù)據(jù)，該怎么做？希望有用過這個(gè)數(shù)據(jù)采集卡的朋友給一些指導(dǎo)，也希望有朋友能提供一些這個(gè)數(shù)據(jù)采集卡的中文資料，在此感謝大家了

2015-05-18 20:48:27

Hadoop計(jì)數(shù)器的作用和數(shù)據(jù)清洗

Hadoop計(jì)數(shù)器的應(yīng)用以及數(shù)據(jù)清洗

2019-11-04 09:19:29

IGBT驅(qū)動(dòng)電路電源怎么做？

小白請(qǐng)問下圖中的+15V和 -8V的電源是怎么做的。為什么我看他們做的是單一電源供電

2016-04-18 20:27:20

LabVIEW的數(shù)據(jù)采集系統(tǒng)交互式界面怎么做？

LabVIEW的數(shù)據(jù)采集系統(tǒng)交互式界面怎么做，比如在前面板點(diǎn)擊“采集數(shù)據(jù)”就開始運(yùn)行數(shù)據(jù)采集模塊，點(diǎn)擊“實(shí)時(shí)顯示”就可以看到采集到的數(shù)據(jù)波形圖，點(diǎn)擊“信號(hào)分析”就會(huì)看到相應(yīng)的頻譜和相關(guān)性分析的圖像等。這個(gè)總界面怎么做啊，求高手指點(diǎn)！

2015-04-20 11:29:53

PCBA的清洗工藝介紹

　　1、全自動(dòng)化的在線式清洗機(jī)　　一種全自動(dòng)化的在線式清洗機(jī)，該清洗機(jī)針對(duì)SMT/THT的PCBA焊接后表面殘留的松香助焊劑、水溶性助焊劑、免清洗性助焊劑/焊膏等有機(jī)、無機(jī)污染物進(jìn)行徹底有效的清洗

2021-02-05 15:27:50

PCBA設(shè)計(jì)缺陷對(duì)清洗的影響

`請(qǐng)問PCBA設(shè)計(jì)缺陷對(duì)清洗的影響有哪些？`

2020-01-17 16:53:08

RFID數(shù)據(jù)清洗仿真實(shí)驗(yàn)

最近在看RFID數(shù)據(jù)清洗相關(guān)知識(shí)，關(guān)于仿真實(shí)在無從下手，有么有大神，指導(dǎo)指導(dǎo)俺

2013-07-26 18:07:34

VeriLog 開平方怎么做？

VeriLog 開平方怎么做？

2014-10-11 14:09:23

allgro 16.3怎么做PCB的開槽

allgro 16.3怎么做PCB的開槽請(qǐng)教大家，allgro 16.3怎么做pcb的開槽?就是需要把一小塊PCB的區(qū)域?qū)?yīng)的整個(gè)疊層全部被挖空，做出一個(gè)開槽。怎么操作才能實(shí)現(xiàn)呢？謝謝！

2014-10-20 17:16:52

ch579使用phy開啟rx的時(shí)候，接收多個(gè)設(shè)備的數(shù)據(jù)要怎么做？

ch579使用phy開啟rx的時(shí)候，接收多個(gè)設(shè)備的數(shù)據(jù)要怎么做？急！！！

2022-08-22 07:51:37

labview 的清零功能怎么做？

labview做串口通訊，經(jīng)常遇到有些AD模塊，其值并不在零點(diǎn)，這個(gè)清零的功能怎么做呢？

2019-04-17 10:26:42

labview怎么做視覺

點(diǎn)擊學(xué)習(xí)>>《龍哥手把手教你學(xué)LabVIEW視覺設(shè)計(jì)》視頻教程我是剛開始學(xué)習(xí)labview，想問下用labview做視覺系統(tǒng)怎么做，我要學(xué)些什么？

2017-09-30 22:07:31

labview串口接收的數(shù)據(jù)乘以一個(gè)矩陣怎么做？

從串口接收的數(shù)據(jù)，如圖，想把數(shù)值乘以一個(gè)6×6的矩陣，再以相同格式顯示出來，怎么做呢？真心求解，謝謝

2016-09-12 15:29:28

labview串口采集程序，在接收時(shí)想發(fā)送數(shù)據(jù)怎么做？

labview串口采集程序，在接收時(shí)想發(fā)送數(shù)據(jù)怎么做？在最中間的循環(huán)里是數(shù)據(jù)采集，我如果想在接收的時(shí)候發(fā)送數(shù)據(jù)進(jìn)行更改下位機(jī)配置，這個(gè)怎么寫程序？我采集波形，希望這段代碼效率高一些，就是發(fā)送的時(shí)候執(zhí)行一次，之后接收的時(shí)候就不執(zhí)行檢測(cè)我琢磨了半天沒想明白，大哥們幫個(gè)忙。

2020-08-26 21:56:45

labview函數(shù)發(fā)生器怎么做？

函數(shù)發(fā)生器怎么做？急求！！！！！！！！！！！

2012-05-15 19:43:05

labview存儲(chǔ)數(shù)據(jù)時(shí)，具體需要存儲(chǔ)幾列不確定，怎么做呀？怎么把未存的那列直接不顯示

labview存儲(chǔ)數(shù)據(jù)時(shí)，具體需要存儲(chǔ)幾列不確定，怎么做呀？怎么把未存的那列直接不顯示

2016-07-23 11:41:44

labview重命名怎么做？

大文件復(fù)制刪除不好做，調(diào)用DOS命令怎么做

2021-03-11 09:44:41

pcb3d封裝怎么做

pcb3d封裝怎么做

2013-08-07 15:06:20

stm8s103怎么做串口轉(zhuǎn)USB鍵盤？

stm8s103怎么做串口轉(zhuǎn)USB鍵盤，不要求速度，數(shù)據(jù)傳輸量很低，串口數(shù)據(jù)發(fā)送給stm8s103然后再用模擬usb接入電腦，串口輸出什么數(shù)據(jù)電腦就等于鍵盤輸入什么數(shù)據(jù)，波特率固定

2023-11-06 07:37:55

【agps】如果單片機(jī)要通過運(yùn)營商的gprs下載星歷數(shù)據(jù)，那要怎么做=

如果單片機(jī)要通過運(yùn)營商的gprs下載星歷數(shù)據(jù)，那要怎么做怎么下==

2016-01-26 21:34:31

今年電賽控制怎么做？

控制怎么做啊？飛機(jī)啊腫么辦

2013-08-28 16:34:31

使用函數(shù)計(jì)算對(duì)表格存儲(chǔ)中數(shù)據(jù)做簡(jiǎn)單清洗

在函數(shù)計(jì)算中對(duì)新增的數(shù)據(jù)做簡(jiǎn)單的清洗、轉(zhuǎn)換、聚合計(jì)算等操作，并將清洗之后的數(shù)據(jù)寫回到表格存儲(chǔ)的結(jié)果表中，并對(duì)原始明細(xì)數(shù)據(jù)及結(jié)果數(shù)據(jù)提供實(shí)時(shí)訪問。下面，我們使用函數(shù)計(jì)算對(duì)表格存儲(chǔ)中的數(shù)據(jù)做簡(jiǎn)單的清洗，并

2018-05-16 23:03:29

單片機(jī)下載口怎么做

單片機(jī)下載口怎么做（求原理圖及說明）

2012-03-23 10:47:48

基于Python的數(shù)據(jù)分析

《利用Python進(jìn)行數(shù)據(jù)分析》 113日期范圍、頻率和移位

2020-05-01 11:24:11

如何完成機(jī)器學(xué)習(xí)的項(xiàng)目流程和數(shù)據(jù)清洗

機(jī)器學(xué)習(xí)：完整機(jī)器學(xué)習(xí)項(xiàng)目流程，數(shù)據(jù)清洗

2020-04-26 09:31:46

對(duì)于任意一組沒有規(guī)律的數(shù)據(jù)，想要截取一定幅值之上的點(diǎn)數(shù)該怎么做？

`對(duì)于任意一組沒有規(guī)律的數(shù)據(jù)，想要截取一定幅值之上的點(diǎn)數(shù)該怎么做`

2018-03-18 10:40:12

將EXCEL導(dǎo)入后，表格能改動(dòng)怎么做？

各位高手，請(qǐng)教一下，我將EXCEL表格導(dǎo)入到LABVIEW后，還希望能改動(dòng)導(dǎo)入后表格內(nèi)的數(shù)據(jù)，該怎么做？請(qǐng)高手指點(diǎn)，謝謝！

2014-01-15 10:21:22

屏幕選擇怎么做？

我想做一個(gè)在顯示屏上輸入，然后對(duì)應(yīng)的燈就會(huì)發(fā)亮功能的東西該怎么做？燈管有五十個(gè)！應(yīng)該怎么做？求各路大神指點(diǎn)

2012-10-21 16:21:27

怎么有效學(xué)習(xí)Python數(shù)據(jù)分析？

Python在人工智能、機(jī)器學(xué)習(xí)領(lǐng)域受到火熱追捧，很大程度上在于它擁有非常龐大的第三方庫，以及強(qiáng)大的通用編程性能。因此，快速掌握Python進(jìn)行數(shù)據(jù)分析，就是學(xué)習(xí)Python各種第三方庫、工具包

2018-06-28 15:18:14

想入門STM32，怎么做呀

想入門STM32，怎么做啊，還有，想先畫個(gè)STM的PCB，應(yīng)該看什么樣的原理圖啊？求大神指路

2015-08-10 15:23:35

想用labview做三維動(dòng)畫仿真加速度傳感器數(shù)據(jù)該怎么做？求...

想用labview做三維動(dòng)畫仿真加速度傳感器數(shù)據(jù)該怎么做？求大神指教{:4:}

2013-07-07 11:31:50

我想做一個(gè)這樣的曲線波形圖怎么做

我想做一個(gè)這樣的曲線波形圖怎么做要實(shí)時(shí)顯示數(shù)據(jù)用的我現(xiàn)在只能做成這樣的0點(diǎn)的x y和刻度都在下邊我想都做到中間去應(yīng)該怎么做求高人指點(diǎn)

2017-09-09 19:37:23

數(shù)組轉(zhuǎn)為數(shù)值怎么做

剛愛LABVIEW學(xué)習(xí)遇到問題。一個(gè)32位數(shù)值，我想把變成二進(jìn)制數(shù)是不是用布爾數(shù)組做就可以了。然后我想把前8位取出來，轉(zhuǎn)為數(shù)值要怎么做，求高手幫忙，謝謝。

2012-10-19 12:28:17

文本形式的表格數(shù)據(jù)清洗

對(duì)一組文本形式的表格數(shù)據(jù)清洗：分離每行第一列元素的漢字與數(shù)字將文本轉(zhuǎn)為表格

2019-04-28 16:44:56

新手求幫助，這個(gè)封裝怎么做

` 本帖最后由苦逼中的苦逼于 2013-8-26 17:32 編輯這個(gè)封裝怎么做。。`

2013-08-26 17:32:35

無線遙控。產(chǎn)生正磁場(chǎng)和負(fù)磁場(chǎng)的小機(jī)器怎么做

無線遙控。產(chǎn)生正磁場(chǎng)和負(fù)磁場(chǎng)的小機(jī)器怎么做我想請(qǐng)教大師，無線遙控。產(chǎn)生正磁場(chǎng)和負(fù)磁場(chǎng)的小機(jī)器怎么做越小越好，長距離遙控，

2010-12-23 04:13:26

明天labviEW考試求大神教下這幾個(gè)怎么做

明天labviEW考試求大神教下這幾個(gè)怎么做生成一個(gè)excel隨機(jī)二維數(shù)組讀取excel中的數(shù)據(jù)，并將它記錄為二進(jìn)制文件。讀取二進(jìn)制數(shù)據(jù)，并將它記錄為文本文件。讀取excel中的數(shù)據(jù)，并生成波形圖

2012-12-25 17:03:22

淺析Python數(shù)據(jù)結(jié)構(gòu)與算法

Python數(shù)據(jù)結(jié)構(gòu)是由哪些部分組成的？

2021-10-20 06:43:46

測(cè)距的程序怎么做呀

測(cè)距的程序怎么做呀

2012-05-24 22:53:29

用labview做暫停和繼續(xù)怎么做，求程序

用labview做暫停和繼續(xù)怎么做，求程序

2012-09-03 14:37:57

用labview顯示數(shù)據(jù)，想隔幾個(gè)點(diǎn)顯示一次，怎么做

請(qǐng)問一下，用labview接收數(shù)據(jù)并顯示，由于接受的數(shù)據(jù)頻率很快，這樣如果每個(gè)數(shù)據(jù)都顯示的話，前面板數(shù)字框變化太快，看不清。所以想隔幾個(gè)點(diǎn)顯示一次，中間的某些點(diǎn)不顯示出來，這樣前面板變化就能看清。這該怎么做呢?

2014-10-27 17:11:26

石化的儀表特殊的產(chǎn)品怎么做的？

石化的儀表特殊的產(chǎn)品怎么做的？

2015-05-21 11:30:58

請(qǐng)教各位，這樣要求的怎么做？

本帖最后由 gk320830 于 2015-3-4 10:59 編輯請(qǐng)教各位，這樣要求的怎么做：微處理芯片1.5G以上，需移植android系統(tǒng)（android4.0以上系統(tǒng)安卓系統(tǒng)，也可用

2015-01-20 20:02:06

請(qǐng)教大家一個(gè)問題 labview軟件能在labview的顯示界面里實(shí)時(shí)顯示接收的數(shù)據(jù)嗎怎么做呢

請(qǐng)教大家一個(gè)問題 labview軟件能在labview的顯示界面里實(shí)時(shí)顯示接收的數(shù)據(jù)嗎 怎么做呢希望能詳細(xì)點(diǎn)

2016-05-03 13:54:10

請(qǐng)問怎么做啊

請(qǐng)問怎么做啊請(qǐng)問怎么做啊請(qǐng)問怎么做啊請(qǐng)問怎么做啊請(qǐng)問怎么做啊

2014-03-19 21:28:07

請(qǐng)問怎么做斷點(diǎn)調(diào)試？

sqlite的源碼還是太多了，怎么做斷點(diǎn)調(diào)試？我想看看他的SELECT一張表是怎么實(shí)現(xiàn)的，還有哪個(gè)page跟B tree在代碼里到底是怎么用的？

2020-05-27 10:52:04

請(qǐng)問STM32擴(kuò)展USART怎么做

STM32擴(kuò)展USART怎么做

2019-01-07 08:42:22

請(qǐng)問在使用AD7768的時(shí)候，怎么做CRC檢驗(yàn)？

大家好，在使用AD7768的時(shí)候，怎么做CRC檢驗(yàn)？我按照手冊(cè)上來做的時(shí)候，等不到ADC輸出的檢驗(yàn)值。但我按照官網(wǎng)上的AD7779 CRC CALCULATOR 卻能等到相應(yīng)的值。我就是按照這個(gè)方式來做的：循環(huán)冗余校驗(yàn)確保正確的數(shù)據(jù)通信 | 亞德諾半導(dǎo)體。待會(huì)兒可以上傳代碼。謝謝！

2018-08-01 08:37:32

請(qǐng)問激光編碼方案怎么做

哪位做過激光編碼方案，怎么做

2019-04-22 06:35:48

請(qǐng)問點(diǎn)陣*的封裝怎么做**？

請(qǐng)教點(diǎn)陣***的封裝怎么做呢

2018-07-19 04:49:19

請(qǐng)問用TLC2543芯片和單片機(jī)做一個(gè)模擬數(shù)據(jù)采集器怎么做？

請(qǐng)問用TLC2543芯片和單片機(jī)做一個(gè)模擬數(shù)據(jù)采集器怎么做？有人能幫忙做一個(gè)嗎謝謝了

2014-11-25 21:59:01

請(qǐng)問語音識(shí)別怎么做

語音識(shí)別怎么做

2018-08-20 08:00:01

請(qǐng)問這個(gè)是怎么做的？

[最近在看用labview做iphone界面，看到拖拽屏幕的那部分，有個(gè)界面是這樣的，好像是用選項(xiàng)卡做的，但具體不太清楚，請(qǐng)各位大俠們看看，指點(diǎn)一下，具體是怎么做的。attachimg]30079[/attachimg]

2011-07-25 11:38:32

誰知道***怎么做SMT程序

誰知道***怎么做SMT程序

2011-02-27 17:30:23

這個(gè)控件怎么做，叫啥名

看到別人做的項(xiàng)目里有這個(gè)，截了個(gè)圖，各位大神有沒有知道怎么做的

2020-03-13 18:33:55

這個(gè)背景是怎么做的呢

`這個(gè)背景是怎么做的呢？就那個(gè) 工業(yè)流程圖是有圖形庫還是？？？`

2013-09-08 09:33:28

這種數(shù)據(jù)采集面板怎么做啊

大俠們，有人會(huì)做這個(gè)嗎，這種面板怎么做啊{:4:}

2014-02-15 17:09:37

逆變電源怎么做啊？

逆變電源怎么做啊？資料找得不完整，急求

2015-07-30 18:46:31

通過VISA怎么做兼容

想問下，一臺(tái)設(shè)備有串口、網(wǎng)口，我們通過VISA做兼容，直接調(diào)用，大致怎么做啊，求指教一下

2019-07-22 08:13:03

面陣CCD的數(shù)據(jù)采集應(yīng)該怎么做？

目前想做到的是CCD實(shí)時(shí)采集樣品的熱輻射，不太懂數(shù)據(jù)采集卡的原理。CCD是128*128的，采集到的數(shù)據(jù)是怎么樣的？如果放到labview用矩陣顯示，是一個(gè)128*128的不斷變化的數(shù)字矩陣？系統(tǒng)應(yīng)該怎么連線？小白不是很懂這個(gè)應(yīng)該怎么做？求大神給點(diǎn)思路。

2017-01-09 14:51:13

飛機(jī)儀表面板的仿真怎么做

飛機(jī)儀表面板的仿真怎么做啊，一點(diǎn)頭緒都沒有，謝謝大家....

2014-03-11 21:17:57

Pandas數(shù)據(jù)清洗(1)#Python

數(shù)據(jù)函數(shù)代碼python

未來加油dz發(fā)布于 2023-08-23 18:50:05

Pandas數(shù)據(jù)清洗(2)#Python

數(shù)據(jù)函數(shù)代碼python

未來加油dz發(fā)布于 2023-08-23 18:51:00

Pandas數(shù)據(jù)清洗(3)#Python

數(shù)據(jù)函數(shù)代碼python

未來加油dz發(fā)布于 2023-08-23 18:52:09

python串口接收數(shù)據(jù)

本文主要介紹了python串口接收數(shù)據(jù)。其中涉及了Python使用線程來接收串口數(shù)據(jù)，以及python3 Serial 串口助手的接收讀取數(shù)據(jù)。詳細(xì)了介紹了串口接收數(shù)據(jù)的程序開發(fā)過程。

2018-01-15 09:52:42

45222

有什么方法去清洗基于粒子濾波的RFID數(shù)據(jù)

為確定RFID數(shù)據(jù)流的清洗效果，我們定義：準(zhǔn)確率 ACC=清洗后結(jié)果和真實(shí)值相等的數(shù)據(jù)/N個(gè)測(cè)試數(shù)據(jù)。

2019-12-09 14:38:40

603

從Excel到Python數(shù)據(jù)分析進(jìn)階指南資源下載

中pandas庫用于數(shù)據(jù)處理，我們從1787頁的pandas官網(wǎng)文檔中總結(jié)出最常用的36個(gè)函數(shù)，通過這些函數(shù)介紹如何通過Python完成數(shù)據(jù)生成和導(dǎo)入、數(shù)據(jù)清洗、預(yù)處理，以及最常見的數(shù)據(jù)分類，數(shù)據(jù)篩選，分類匯總，透視等最常見的操作。6異步社區(qū)會(huì)員 lizhimiao（18926120246）專享尊重

2021-04-06 09:44:59

數(shù)據(jù)清洗的步驟是什么

數(shù)據(jù)清洗是指重復(fù)。多余的數(shù)據(jù)篩選和清除，完整地補(bǔ)充丟失的數(shù)據(jù)，糾正或刪除錯(cuò)誤的數(shù)據(jù)，最后整理成我們可以進(jìn)一步處理和使用的數(shù)據(jù)。

2021-10-18 17:05:26

17886

python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) Python是一個(gè)非常流行的編程語言，被廣泛用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域。在本篇文章中，我們將探討Python在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的應(yīng)用，并介紹一些Python中常

2023-08-17 16:29:38

818

python數(shù)據(jù)挖掘案例

python數(shù)據(jù)挖掘案例 Python數(shù)據(jù)挖掘在各個(gè)領(lǐng)域中應(yīng)用非常廣泛。它可以幫助我們從大量的數(shù)據(jù)中挖掘出有價(jià)值的信息，從而為決策和優(yōu)化提供依據(jù)。本文將介紹一些Python數(shù)據(jù)挖掘的案例，以展示

2023-08-17 16:29:45

710

python有什么用如何用python創(chuàng)建數(shù)據(jù)庫

python有什么用如何用python創(chuàng)建數(shù)據(jù)庫 Python是一種高級(jí)編程語言，可以用于開發(fā)各種類型的應(yīng)用程序和工具。它的廣泛應(yīng)用使它在編程領(lǐng)域中極為受歡迎。Python被用于數(shù)據(jù)分析、web

2023-08-28 16:41:28

702

python讀取數(shù)據(jù)庫數(shù)據(jù) python查詢數(shù)據(jù)庫 python數(shù)據(jù)庫連接

python讀取數(shù)據(jù)庫數(shù)據(jù) python查詢數(shù)據(jù)庫 python數(shù)據(jù)庫連接 Python是一門高級(jí)編程語言，廣泛應(yīng)用于各種領(lǐng)域。其中，Python在數(shù)據(jù)庫處理方面有著廣泛的應(yīng)用，可以輕松地連接各種數(shù)據(jù)

2023-08-28 17:09:18

1104

已全部加載完成

搜索歷史

python怎么做數(shù)據(jù)清洗？

評(píng)論