データ加工〈R5-入学〉
授業コード
(科目ナンバリング
コード)
551219-01
(15313)
授業科目名 データ加工〈R5-入学〉担当者 張 磊
開講期間 春学期 単位数 2 学年 2
区分
アクティブラーニング PBL(課題解決型 学習)
実務経験 該当なし
備考
【授業目的】

 この授業では、Pythonの基礎を理解している学生向けに、データサイエンスにおける重要なスキルの一つであるデータ加工を講義します。
 Pythonの強力なライブラリ「Pandas」を使いこなすことに焦点を当て、実際のデータセットを使った実践的な演習を通して、生のデータを分析可能な形式に変換する方法を学びます。
 また、データ加工に役立つ他のライブラリやツールの紹介も行い、データサイエンスの次のステップへの道を開きます。

【授業内容】
第 1 回 実施日 
事前学習
Pandasというライブラリーについてインターネットで調べてみる。
30分
授業内容
・Pandasライブラリの紹介とインストール
・データフレームの作成と基本的な操作(選択、インデックス操作、列の追加と削除)
・CSVファイルの読み込みと書き出し
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 2 回 実施日 
事前学習
データの探索と統計的分析について調べる。
60分
授業内容
・データの要約統計(平均、中央値、標準偏差など)
・データのグルーピングと集約操作
・基本的なデータの可視化(棒グラフ、ヒストグラム)
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 3 回 実施日 
事前学習
データのクリーニングと前処理について調べる。
60分
授業内容
・欠損値の処理(削除、補完)
・文字列データの操作(分割、結合、変換)
・データ型の変更(数値、カテゴリ)
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 4 回 実施日 
事前学習
Pandasによるデータ操作について調べる。
60分
授業内容
・条件に基づくデータ操作
・データフレームのソートとランキング
・ユニークな値と値のカウント
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 5 回 実施日 
事前学習
データの結合と統合について調べる。
60分
授業内容
・異なるデータソースからのデータの結合
・マージ(内部結合、外部結合)
・連結と結合の違い
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 6 回 実施日 
事前学習
時系列データの操作について調べる。
60分
授業内容
・日付と時刻のデータ型
・時系列データの読み込みと操作
・時系列データのリサンプリング
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 7 回 実施日 
事前学習
データの可視化について調べる。
60分
授業内容
・Matplotlibとの統合
・複数のグラフの作成
・データの可視化のためのヒントとテクニック
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 8 回 実施日 
事前学習
Pandasのほかの高度な機能について調べる。
60分
授業内容
・マルチインデックスと階層的インデックス
・ピボットテーブルの作成
・データの正規化と標準化
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 9 回 実施日 
事前学習
データの変換と特徴エンジニアリングについて調べる。
60分
授業内容
・データの変換(ロギング、スケーリング)
・カテゴリカルデータのエンコーディング
・特徴量の選択と生成
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 10 回 実施日 
事前学習
外部データソースとの連携について調べる。
60分
授業内容
・Webからのデータの取得
・APIを通じたデータの取得
・データベースからのデータの読み込み
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 11 回 実施日 
事前学習
ケーススタディ - 実データセットの分析について調べる。
60分
授業内容
・実際のデータセットを用いた分析の実施
事後学習
・本日の授業内容を複数する。
60分
参考文献
 
第 12 回 実施日 
事前学習
ケーススタディ - 実データセットの分析を行ってみる。
120分
授業内容
・データの問題点の特定と解決
・データストーリーテリングの基本
事後学習
・本日の授業内容を複数する。
120分
参考文献
 
第 13 回 実施日 
事前学習
プロジェクト作業準備。
120分
授業内容
・自選のデータセットを用いた分析プロジェクトの計画
・データの収集、加工、分析の実施
事後学習
・本日の授業内容を複数する。
120分
参考文献
 
第 14 回 実施日 
事前学習
プロジェクト作業の準備。
120分
授業内容
・分析結果の報告とプレゼンテーションの準備
事後学習
・本日の授業内容を複数する。
120分
参考文献
 
第 15 回 実施日 
事前学習
プロジェクト発表の準備。
120分
授業内容
・プロジェクトの発表
・プロジェクトの評価とフィードバック
・データ加工と分析の今後の応用についての議論
事後学習
・この授業を顧みる。
60分
参考文献
 
【到達目標】

この授業の到達目標は:
・Pandasの基本操作(データの読み込み、操作、加工)を理解し、適用する。
・実際のデータセットを使って、データ加工のプロセスを経験する。
・データの探索、クリーニング、変換の技術を習得する。
・データ分析における他の重要なライブラリ(NumPy, Matplotlibなど)との連携方法を学ぶ。
・実践的なプロジェクトを通じて、習得したスキルを統合し、実世界の問題解決に応用する。

【ディプロマ・ポリシー】

【関連するディプロマポリシー】
(R5-)
関連するディプロマ・ポリシー=DP2:他者の異なる意見や他から得た情報を客観的に判断して自らの考えを論理的に整理し、他者が理解できるように文章や発話によって表現することができる。

【授業形態】

・講義形式。
・毎回授業の課題は、MANABAによって評価・コメントをフィードバックする。
・新型コロナウイルス感染症拡大防止対策のため、オンライン授業になることがある。

【教科書】

Pandasライブラリ活用入門[第2版]

【注文書籍】
書名Pandasライブラリ活用入門[第2版]著者名Daniel Y. Chen出版社インプレス価格4180ISBN978-4295017691備考 
【参考書】

【成績評価の方法】

提出物(レポートなど)40%、筆記試験60%

【成績評価の基準】

到達目標の内容をほぼ完全に理解し、説明できる。……90~100点
到達目標の内容を十分に理解し、説明できる。……80~89点
到達目標の内容の基幹部分を理解し、説明できる。……70~79点
到達目標の内容の最低限の部分を理解し、説明できる。……60~69点
到達目標に及ばない。……0~59点

【受講学生への要望】

【履修注意】

本授業の履修によって情報ゼミに行きたい場合、有利に働く場合はある。