跳到主要內容 跳至補充內容

設定實驗

實驗設定包括選取目標以及模型用來預測目標的特徵。您也可以設定選用設定的數量。

為了在目標選項中支援您,會分析歷史資料集,並在資料集中的每欄顯示摘要統計資料。數個自動前置處理步驟會套用至資料集,以確認僅納入合適的資料。如需更多關於資料前置處理的詳細資訊,請參閱 自動資料準備和轉換

執行第 1 版後,如有需要,您可以建立新的實驗版本,進一步精簡模型訓練。如需詳細資訊,請參閱精簡模型

要求和權限

若要進一步瞭解使用 ML 實驗的使用者要求,請參閱 使用實驗

檢視

預設檢視是結構描述檢視,其中資料集的每欄透過結構描述中的一列呈現,含有資訊和統計資料。若要取得每欄的更多資訊和樣本資料,您也可以使用資料檢視。按一下 欄資料檢視 以在檢視之間變更。

顯示在結構描述檢視中的資料集預覽

AutoML 結構描述檢視。

顯示在資料檢視中的資料集預覽

AutoML 資料檢視。

按一下 設定窗格 以開啟或關閉實驗設定側窗格。您可在此找到關於實驗的資訊和目前設定。

側窗格顯示目前版本的實驗設定

AutoML 實驗設定側窗格。

選取目標

目標欄包含您希望機器學習模型預測的值。在您開始首次訓練之前,可以變更目標欄。之後就會鎖定編輯。

  • 將游標暫留在欄上方,並按一下顯示的 目標 圖示。

    目標欄現在透過 目標 指示,並自動選取其他可用欄作為特徵。

選取目標

具有目標符號的資料集欄。

選取目標後,您可以開始執行第一個實驗版本。在 訓練實驗 中閱讀更多。您目前可以進行其他設定 (如下所述) 或在檢閱訓練結果之後調整設定。

關於如何解譯和處理資料的說明會在您導覽實驗訓練時顯示。如需詳細資訊,請參閱 在訓練資料中找到的一般深入資訊

決定建立的模型類型

您選取作為目標的欄決定實驗建立的模型類型。這反過來會參與決定哪些演算法用來訓練模型。可能無法選取資料集中的特定欄作為實驗目標,或者可能已套用特定處理。

模型類型為:

  • 二元分類模型

  • 多類別分類模型

  • 迴歸模型

下表概述決定所用模型類型的目標中因素

決定模型類型的目標欄特性
模型類型 欄中的相異值數量 需要特徵類型 其他資訊
二元分類 2 任何 -
多類別分類 3-10 任何 有超過 10 個相異非數字分類的欄不可選為目標。
迴歸 超過 10 數字 -

選取特徵欄

透過目標設定,您可以從其他可用欄中選擇要在模型訓練中納入哪些欄。排除您不想歸屬到模型的任何特徵。請注意,欄將會留在資料集中,但訓練演算法不會使用。

實驗設定窗格頂端,您可以看見資料集中的儲存格數量。若數量超過資料集限制,您可以排除特徵以低於限制。

您可以透過各種方式選取特徵欄:

  • 為您不想納入的特徵手動清除核取方塊。

  • 按一下排除所有特徵,然後僅選取您要納入的項目。

  • 進行搜尋並在篩選的搜尋結果中排除或納入所有特徵。

  • 執行第一個實驗版本之後,您可以定義要納入的最佳特徵數量

實驗設定中的特徵區段

AutoML 實驗設定側窗格中的特徵區段。

選取特徵時,會向這些特徵自動指派特徵類型。可能的特徵類型包括:

  • 類別

  • 數字

  • 日期

  • 自由文字

會根據特徵欄中包含的資料指派特徵類型。若特徵滿足特定條件,可能會暫存,以成為自動設計特徵的基礎。如有需要,您可以變更特徵是否用於自動特徵設計。如需關於自動特徵設計的完整詳細資訊,請參閱 自動特徵設計

可能無法選取資料集中的特定欄作為實驗特徵,或者可能已套用特定處理。關於如何解譯和處理資料的說明會在您導覽實驗訓練時顯示。如需詳細資訊,請參閱 在訓練資料中找到的一般深入資訊

選取演算法

依照預設,會納入所有可用的演算法,您可以排除您不想使用的任何演算法。通常,您會在看見第一批訓練結果後這麼做,作為模型精簡的一部分。在 精簡模型 中閱讀更多。

實驗設定中的演算法區段

AutoML 實驗設定側窗格中的演算法區段。

變更特徵類型

載入資料集後,會根據資料類型和其他特性將欄視為類別、數字、日期或自由文字。在某些情況下,您可能會想要變更此設定。

例如,若星期幾以數字 1-7 代表,則每個數字代表一個類別值。依照預設,這會被視為連續排名數值,因此您會需要手動變更設定,才能視為類別。您也能夠將類別特徵類型轉換為數字特徵類型。

若將欄識別為包含日期和時間資訊,這會作為新產生之自動設計特徵的基礎來使用。若發生此情況,會將原始欄 (父特徵) 視為具有日期特徵類型。您可以將父特徵從日期特徵類型變更為類別特徵類型。 不過,若您這麼做,您就無法再於實驗訓練中使用其自動設計的特徵。

  1. 特徵類型欄,按一下

  2. 在清單中選取值。

您可以在資料處理之下的實驗設定窗格查看特徵類型已變更的所有欄。

變更資料集

您可以在執行第一個實驗版本之前,以及在執行任何版本之後,變更訓練資料集。

若您在執行第一個版本之前變更資料集,將會失去變更資料集之前進行的任何設定。

  1. 訓練資料之下的實驗設定窗格,按一下變更資料集

  2. 選取新的資料集。

如需更多關於在模型精簡期間 (在執行實驗版本之後) 變更和重新整理資料集的資訊,請參閱 變更和重新整理資料集

設定超參數最佳化

您可以使用超參數最佳化來最佳化模型。請注意,這是進階選項,可能會大幅增加訓練時間。如需詳細資訊,請參閱超參數最佳化

實驗設定中的模型最佳化區段

AutoML 實驗設定側窗格中的模型最佳化區段。
  1. 實驗設定窗格,展開模型最佳化區段。

  2. 選取超參數最佳化核取方塊。

  3. 也可以選擇為最佳化設定時間限制。預設時間限制為一小時。

在訓練資料中找到的一般深入資訊

根據資料集的品質,實驗設定中對於資料特定部分的使用方式可能有所限制。結構描述檢視中的深入資訊欄在識別資料欄位特徵以及機器學習演算法將會如何處理時很實用。

下表顯示可能顯示在結構描述中的可能深入資訊:

結構描述檢視中的資料集深入資訊
深入資訊意義對設定的影響
常數欄對所有列有相同的值。欄無法作為目標或包含的特徵使用。
One-hot encoded特徵類型是類別,且欄的唯一值少於 14 個。對設定沒有影響。
影響已編碼特徵類型是類別,且欄有 14 個或更多唯一值。對設定沒有影響。
高基數欄有太多唯一值,若作為特徵使用,可能會對模型效能造成負面影響。欄無法作為目標使用。這將會自動排除作為特徵,但如有需要,仍然可以納入。
疏鬆資料欄有太多 Null 值。欄無法作為目標或包含的特徵使用。
缺乏代表的分類欄有少於 10 列的分類。欄無法作為目標使用,但可以作為特徵納入。
<number of> 個自動設計的特徵該欄是父特徵,可用來產生自動設計的特徵。若此父特徵解譯為日期特徵,這會從設定中自動移除。建議您改用自動設計且可從中產生的日期特徵。可以覆寫此設定並納入特徵,而非自動設計的特徵。
自動設計的特徵該欄是自動設計的特徵,可以或已經從父日期特徵產生。這不會顯示在原始資料集中。您可以在實驗訓練期間移除其中一個或多個自動設計的特徵。若您將父特徵的特徵類型切換為類別,則會移除所有自動設計的特徵。
無法作為日期來處理欄可能包括日期和時間資訊,但無法用來建立自動設計的日期特徵。會從設定中捨棄該特徵。若先前已從此父特徵產生自動設計的特徵,則會從末來的實驗版本中移除。您仍然可以在實驗中使用該特徵,但您必須將其特徵類型切換為類別。
可能的自由文字該欄可能無法作為自由文字特徵使用。會向該欄指派自由文字特徵類型。您必須執行實驗版本,以確認是否可以將特徵作為自由文字來處理。
自由文字已確認該欄包含自由文字。可以作為自由文字來處理。不需要對特徵進行其他設定。
無法作為自由文字來處理進一步分析時,該欄無法作為自由文字來處理。您需要在下一個實驗版本從設定取消選取特徵。若特徵沒有高基數,您可以將特徵類型變更為類別。

瞭解更多資訊

此頁面是否對您有幫助?

若您發現此頁面或其內容有任何問題——錯字、遺漏步驟或技術錯誤——請告知我們可以如何改善!