Datasets



  • 趨勢科技垃圾郵件資料


    資料集描述

    • 趨勢科技垃圾郵件資料

     

    資料量

    • 20萬筆, 解壓縮後近1.5GB

     

    格式

    • EML, 可保留原始信件特徵, 方便以python的email套件抽取各個欄位

     

    主要欄位說明

    1. from address : 發信者
    2. subject : 郵件主題
    3. Date : 郵件日期
    4. Body : 郵件內容

     

    Zip文件密码:

    • TBrain


  • 趨勢科技惡意程式資料集


    資料集描述

    • 趨勢科技惡意程式資料

     

    資料量

    • 1萬8千筆

     

    主要欄位說明

    1. PE Header資訊 (info: JSON格式)
    2. Section Table (section: JSON格式)
    3. Import Table (import: TSV格式)

     

    Zip文件密码:

    • TBrain


  • 趨勢科技智能家庭網路入侵防禦系統事件記錄


    資料集描述

    • 趨勢科技智能家庭網路入侵防禦系統事件記錄資料

     

    應用說明

    • 針對事件日誌記錄,發掘網路攻擊的模式或是異常行為偵測: 例1: 某台IPCam被大量猜測密碼(Brute Force Login),隨後並進行一連串的各式的網路攻擊手法,表示這台IPCam有可能被嘗試login,甚至已經登入成功,並從遠端被執行任意指令. 相反的,如果是這台IPCam去猜別人密碼攻擊別人的主機或設備,為什麼會這樣?這中間的過程是否能透過研究和Machine Learning來發掘. 例2: 某台NAS,每天都在作BitCoin mining (比特幣爬礦),除了這台NAS有可能已經變成bot之外,也許還可以從這台NAS曾經觸發過的所有事件,來推斷他是怎麼被入侵的. 例3: 最近熱門的Mirai和BrickerBot, 主要模式都是利用設備的預設密碼來遠端登入,然後遠端安裝Agent,接著再讓設備等待指令進行網路攻擊,這一連串的事件,能否利用Machine Learning,來提早發現,哪個環節已經異常,可以提早預防.

     

    資料量

    • 100萬筆

     

    主要欄位說明

    1. device_dev_name: 觸發事件 Device 名稱
    2. device_family_name: 觸發事件 Device 分類名稱
    3. device_hashed_mac: 觸發事件 Device 的 MAC (HASH過的)
    4. device_os_name: 觸發事件 Device 的作業系統
    5. device_type_name: 觸發事件 Device 的 Type
    6. device_vendor_name: 觸發事件 Device 的 廠商名稱
    7. event_protocol_id: PROTOCOL number (1:ICMP, 6:TCP, 17:UDP,...)
    8. event_flow_outbound_or_inbound : 觸發事件時封包的傳送方向,是Outbound 或是 (這是判斷被攻擊或是攻擊別人的重要依據)
    9. event_role_device_or_router: 觸發事件的內部 Device本身,是Device或是Router
    10. event_role_server_or_client: 觸發事件的內部 Device本身,是Server或是Client
    11. event_rule_category: Event rule的類別
    12. event_rule_id: Event rule的id
    13. event_rule_name: Event rule的名稱
    14. event_rule_reference: Event rule的參考資訊
    15. event_rule_severity: Event嚴重等級 (1~5)
    16. event_self_ipv4: 觸發Event的Device的IP (多半是Private IP, 若是Public IP,則已作過混淆處理,請勿以此IP作任何關聯,以免發生誤會)
    17. event_time: 事件發生的時間
    18. router_ip: Router IP (Obfuscated,已作過混淆處理,僅供識別相同來源的router,請勿以此IP作任何關聯,以免發生誤會)


  • 趨勢科技機器學習小挑戰


    挑戰一:匿名資料的機器學習挑戰

    資料集

    • PBP-pycon.zip: PBP-train.csv, PBP-test.csv

     

    資料說明

    • 匿名化資料。請預測第一個欄位。

     

     

    挑戰二:非監督式惡意程式分類

    資料集

    • TrendMicro-malware-dataset-pycon.zip

     

    資料說明

    • 每一個目錄包括了一個惡意程式的資訊。檔案info是個JSON格式檔案,記錄了PE檔案資訊。檔案import記錄了PE的import table資訊。檔案sections記錄了PE的section資訊。

     

     

    挑戰三:信件是誰寫的?

    資料集

    • TrendMicro-BEC-dataset-pycon.zip: train.csv, test_nolabel.csv

     

    資料說明

    • 訓練資料集中共有三個欄位,分別為index, content 與 uid。uid代表不同寄件者。content則是信件的內容主體,內容為純文字。

Loading . . .