idk

2025-04-10 00:03:30 -07:00
parent 81ec68b3cc
commit 03ae352949
12 changed files with 150373 additions and 0 deletions
--- a/data_cleaning_script.py
+++ b/data_cleaning_script.py
@@ -0,0 +1,540 @@
+import pandas as pd
+import numpy as np
+from pathlib import Path
+import logging
+
+# Configure logging
+logging.basicConfig(level=logging.INFO, 
+                   format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
+logger = logging.getLogger("cci_data_prep")
+
+def clean_and_prepare_cci_data(input_path, output_path=None):
+    """
+    Clean and prepare the CCI data for analysis, fixing specific issues identified.
+    
+    Parameters:
+        input_path (str): Path to the original CCI data file
+        output_path (str, optional): Path to save the cleaned data
+        
+    Returns:
+        pd.DataFrame: The cleaned and prepared data
+    """
+    logger.info(f"Loading data from {input_path}")
+    
+    # Try different encodings if needed
+    try:
+        df = pd.read_csv(input_path)
+    except UnicodeDecodeError:
+        logger.info("Trying different encoding (latin-1)")
+        df = pd.read_csv(input_path, encoding='latin-1')
+    
+    logger.info(f"Successfully loaded {len(df)} rows with {len(df.columns)} columns")
+    
+    # 1. Fix column names - standardize to lowercase with underscores
+    df.columns = [col.strip().lower().replace(' ', '_') for col in df.columns]
+    
+    # 2. Identify and mark EV vouchers/rebates
+    logger.info("Identifying EV vouchers and rebates")
+    
+    # Check if required columns exist
+    required_cols = ['agency_name', 'program_name']
+    if not all(col in df.columns for col in required_cols):
+        missing = [col for col in required_cols if col not in df.columns]
+        logger.error(f"Missing required columns: {missing}")
+        return df
+    
+    # Identify CARB's Low Carbon Transportation projects
+    carb_mask = df['agency_name'].str.contains('Air Resources Board', case=False, na=False)
+    lct_mask = df['program_name'].str.contains('Low Carbon Transportation', case=False, na=False)
+    
+    # Create CARB indicator
+    df['is_carb'] = carb_mask
+    
+    # 3. Mark EV projects using multiple methods
+    # Start with subprogram if available
+    ev_mask = pd.Series(False, index=df.index)
+    
+    if 'sub_program_name' in df.columns:
+        ev_indicators = ['Clean Cars 4 All', 'CVRP', 'Clean Vehicle', 'EV', 'Electric Vehicle', 
+                         'Hybrid', 'Rebate', 'Voucher', 'ZEV', 'Zero Emission']
+        
+        ev_subprogram_mask = df['sub_program_name'].str.contains('|'.join(ev_indicators), 
+                                                             case=False, na=False)
+        ev_mask = ev_mask | (carb_mask & lct_mask & ev_subprogram_mask)
+    
+    # Check project count column
+    if 'number_of_rebates_issued' in df.columns:
+        rebate_mask = df['number_of_rebates_issued'] > 0
+        ev_mask = ev_mask | (carb_mask & rebate_mask)
+    
+    # Check for small funding amounts typical of vouchers
+    funding_col = None
+    for col in df.columns:
+        if 'total_program' in col.lower() and 'funding' in col.lower():
+            funding_col = col
+            break
+    
+    if funding_col:
+        # Identify potential vouchers by small funding amount (for individual vouchers)
+        small_funding_mask = (df[funding_col] > 0) & (df[funding_col] < 10000) & carb_mask & lct_mask
+        ev_mask = ev_mask | small_funding_mask
+    
+    # Mark EV vouchers
+    df['is_ev_voucher'] = ev_mask
+    
+    count_ev = ev_mask.sum()
+    logger.info(f"Identified {count_ev} EV vouchers/rebates")
+    
+    # 4. Create funding year if needed
+    if 'funding_year' not in df.columns and 'fiscal_year_funding_project' in df.columns:
+        # Extract year from fiscal year format (e.g., "2019-20" -> 2019)
+        try:
+            df['funding_year'] = df['fiscal_year_funding_project'].str.extract(r'(\d{4})').astype('Int64')
+            logger.info("Created funding_year column from fiscal year data")
+        except Exception as e:
+            logger.error(f"Error creating funding_year: {e}")
+    
+    # 5. Calculate GHG efficiency
+    if funding_col:
+        ghg_col = None
+        for col in df.columns:
+            if 'total_project' in col.lower() and 'ghg' in col.lower():
+                ghg_col = col
+                break
+        
+        if ghg_col:
+            df['ghg_efficiency'] = np.where(
+                df[ghg_col] > 0,
+                df[funding_col] / df[ghg_col],
+                np.nan
+            )
+            logger.info("Calculated GHG efficiency ($ per ton CO2e)")
+    
+    # 6. Calculate DAC benefit percentage
+    dac_funding_col = None
+    for col in df.columns:
+        if 'funding_benefiting' in col.lower() and 'disadvantaged' in col.lower():
+            dac_funding_col = col
+            break
+    
+    if dac_funding_col and funding_col:
+        df['dac_benefit_percentage'] = np.where(
+            df[funding_col] > 0,
+            100 * df[dac_funding_col] / df[funding_col],
+            0
+        )
+        logger.info("Calculated DAC benefit percentage")
+    
+    # 7. Identify multi-agency programs
+    logger.info("Identifying multi-agency programs")
+    program_agencies = df.groupby('program_name')['agency_name'].nunique()
+    df['num_agencies_in_program'] = df['program_name'].map(program_agencies)
+    df['is_multi_agency'] = df['num_agencies_in_program'] > 1
+    
+    multi_agency_count = (df['is_multi_agency'] == True).sum()
+    logger.info(f"Found {multi_agency_count} projects in multi-agency programs")
+    
+    # 8. Identify regional scope
+    if 'county' in df.columns:
+        logger.info("Determining regional scope of projects")
+        program_counties = df.groupby('program_name')['county'].nunique()
+        df['num_counties'] = df['program_name'].map(program_counties)
+        
+        # Define region categories
+        df['regional_scope'] = pd.cut(
+            df['num_counties'],
+            bins=[0, 1, 3, 10, np.inf],
+            labels=['Single County', 'Limited Regional', 'Regional', 'Multi-Regional']
+        )
+    
+    # 9. Assign California region based on county
+    if 'county' in df.columns:
+        logger.info("Assigning California regions")
+        
+        # Define California regions
+        ca_regions = {
+            'Bay Area': ['Alameda', 'Contra Costa', 'Marin', 'Napa', 'San Francisco', 'San Mateo', 'Santa Clara', 'Solano', 'Sonoma'],
+            'Sacramento Region': ['El Dorado', 'Placer', 'Sacramento', 'Sutter', 'Yolo', 'Yuba'],
+            'San Joaquin Valley': ['Fresno', 'Kern', 'Kings', 'Madera', 'Merced', 'San Joaquin', 'Stanislaus', 'Tulare'],
+            'Southern California': ['Imperial', 'Los Angeles', 'Orange', 'Riverside', 'San Bernardino', 'San Diego', 'Ventura'],
+            'Central Coast': ['Monterey', 'San Benito', 'San Luis Obispo', 'Santa Barbara', 'Santa Cruz'],
+            'Northern California': ['Butte', 'Colusa', 'Del Norte', 'Glenn', 'Humboldt', 'Lake', 'Lassen', 'Mendocino', 'Modoc', 'Nevada', 'Plumas', 'Shasta', 'Sierra', 'Siskiyou', 'Tehama', 'Trinity'],
+            'Sierra Nevada': ['Alpine', 'Amador', 'Calaveras', 'Inyo', 'Mariposa', 'Mono', 'Tuolumne']
+        }
+        
+        # Create mapping dictionary
+        county_to_region = {}
+        for region, counties in ca_regions.items():
+            for county in counties:
+                county_to_region[county] = region
+        
+        # Apply mapping
+        df['ca_region'] = df['county'].map(county_to_region)
+        
+        # For projects with multiple counties, determine if they are multi-region
+        multi_county_programs = program_counties[program_counties > 1].index
+        
+        # For multi-county programs, check if they span multiple regions
+        for program in multi_county_programs:
+            program_df = df[df['program_name'] == program]
+            unique_regions = program_df['ca_region'].nunique()
+            
+            if unique_regions > 1:
+                df.loc[df['program_name'] == program, 'ca_region'] = 'Multi-Region'
+    
+    # 10. Create temporal period indicator (pre/post 2020)
+    if 'funding_year' in df.columns:
+        logger.info("Creating temporal period indicator (pre/post 2020)")
+        df['period'] = df['funding_year'].apply(lambda x: 'Post-2020' if x >= 2020 else 'Pre-2020')
+    
+    # 11. Handle outliers in GHG efficiency and DAC benefit
+    if 'ghg_efficiency' in df.columns:
+        # Cap extreme values at 95th percentile
+        upper_limit = df['ghg_efficiency'].quantile(0.95)
+        df['ghg_efficiency_capped'] = df['ghg_efficiency'].clip(upper=upper_limit)
+        
+        # Log transform for analysis
+        df['ghg_efficiency_log'] = np.log1p(df['ghg_efficiency_capped'])
+        
+        logger.info(f"Handled outliers in GHG efficiency (capped at ${upper_limit:.2f} per ton)")
+    
+    if 'dac_benefit_percentage' in df.columns:
+        # Handle values > 100%
+        df['dac_benefit_percentage'] = df['dac_benefit_percentage'].clip(upper=100)
+        logger.info("Capped DAC benefit percentage at 100%")
+    
+    # Save cleaned data if output path provided
+    if output_path:
+        output_file = Path(output_path)
+        logger.info(f"Saving cleaned data to {output_file}")
+        df.to_csv(output_file, index=False)
+    
+    return df
+
+def json_serializable(obj):
+    """Convert NumPy types to Python standard types for JSON serialization."""
+    if isinstance(obj, (np.integer, np.int64)):
+        return int(obj)
+    elif isinstance(obj, (np.floating, np.float64)):
+        return float(obj)
+    elif isinstance(obj, (np.ndarray,)):
+        return obj.tolist()
+    else:
+        return obj
+
+def generate_data_summary(df, output_path=None):
+    """
+    Generate a summary of the cleaned CCI data.
+    
+    Parameters:
+        df (pd.DataFrame): The cleaned CCI data
+        output_path (str, optional): Path to save the summary
+    
+    Returns:
+        dict: Summary statistics
+    """
+    summary = {}
+    
+    # 1. Basic dataset stats
+    summary['total_projects'] = len(df)
+    summary['total_agencies'] = df['agency_name'].nunique()
+    summary['total_programs'] = df['program_name'].nunique()
+    
+    if 'sub_program_name' in df.columns:
+        summary['total_subprograms'] = df['sub_program_name'].nunique()
+    
+    # 2. CARB vs Non-CARB breakdown
+    if 'is_carb' in df.columns:
+        carb_df = df[df['is_carb']]
+        non_carb_df = df[~df['is_carb']]
+        
+        summary['carb_projects'] = len(carb_df)
+        summary['non_carb_projects'] = len(non_carb_df)
+        summary['carb_percentage'] = len(carb_df) / len(df) * 100
+    
+    # 3. EV vouchers breakdown
+    if 'is_ev_voucher' in df.columns:
+        ev_df = df[df['is_ev_voucher']]
+        
+        summary['ev_vouchers'] = len(ev_df)
+        summary['ev_percentage'] = len(ev_df) / len(df) * 100
+        
+        if 'is_carb' in df.columns:
+            summary['ev_percentage_of_carb'] = len(ev_df) / len(carb_df) * 100 if len(carb_df) > 0 else 0
+    
+    # 4. Funding statistics
+    funding_col = None
+    for col in df.columns:
+        if 'total_program' in col.lower() and 'funding' in col.lower():
+            funding_col = col
+            break
+    
+    if funding_col:
+        summary['total_funding'] = df[funding_col].sum()
+        summary['avg_funding_per_project'] = df[funding_col].mean()
+        
+        if 'is_carb' in df.columns:
+            summary['carb_funding'] = carb_df[funding_col].sum()
+            summary['non_carb_funding'] = non_carb_df[funding_col].sum()
+            summary['carb_funding_percentage'] = carb_df[funding_col].sum() / df[funding_col].sum() * 100
+            
+            summary['avg_carb_funding'] = carb_df[funding_col].mean()
+            summary['avg_non_carb_funding'] = non_carb_df[funding_col].mean()
+        
+        if 'is_ev_voucher' in df.columns:
+            summary['ev_funding'] = ev_df[funding_col].sum()
+            summary['ev_funding_percentage'] = ev_df[funding_col].sum() / df[funding_col].sum() * 100
+            summary['avg_ev_funding'] = ev_df[funding_col].mean()
+    
+    # 5. GHG reduction statistics
+    ghg_col = None
+    for col in df.columns:
+        if 'total_project' in col.lower() and 'ghg' in col.lower():
+            ghg_col = col
+            break
+    
+    if ghg_col:
+        summary['total_ghg_reduction'] = df[ghg_col].sum()
+        summary['avg_ghg_reduction_per_project'] = df[ghg_col].mean()
+        
+        if 'is_carb' in df.columns:
+            summary['carb_ghg_reduction'] = carb_df[ghg_col].sum()
+            summary['non_carb_ghg_reduction'] = non_carb_df[ghg_col].sum()
+            summary['carb_ghg_percentage'] = carb_df[ghg_col].sum() / df[ghg_col].sum() * 100
+        
+        if 'is_ev_voucher' in df.columns:
+            summary['ev_ghg_reduction'] = ev_df[ghg_col].sum()
+            summary['ev_ghg_percentage'] = ev_df[ghg_col].sum() / df[ghg_col].sum() * 100
+    
+    # 6. Efficiency statistics
+    if 'ghg_efficiency' in df.columns:
+        # Use median for efficiency due to skewness
+        valid_efficiency = df[df['ghg_efficiency'].notna() & (df['ghg_efficiency'] > 0)]
+        
+        if len(valid_efficiency) > 0:
+            summary['median_ghg_efficiency'] = valid_efficiency['ghg_efficiency'].median()
+            
+            if 'is_carb' in df.columns:
+                valid_carb = carb_df[carb_df['ghg_efficiency'].notna() & (carb_df['ghg_efficiency'] > 0)]
+                valid_non_carb = non_carb_df[non_carb_df['ghg_efficiency'].notna() & (non_carb_df['ghg_efficiency'] > 0)]
+                
+                if len(valid_carb) > 0:
+                    summary['median_carb_efficiency'] = valid_carb['ghg_efficiency'].median()
+                
+                if len(valid_non_carb) > 0:
+                    summary['median_non_carb_efficiency'] = valid_non_carb['ghg_efficiency'].median()
+            
+            if 'is_ev_voucher' in df.columns:
+                valid_ev = ev_df[ev_df['ghg_efficiency'].notna() & (ev_df['ghg_efficiency'] > 0)]
+                
+                if len(valid_ev) > 0:
+                    summary['median_ev_efficiency'] = valid_ev['ghg_efficiency'].median()
+    
+    # 7. DAC benefit statistics
+    if 'dac_benefit_percentage' in df.columns:
+        summary['avg_dac_benefit'] = df['dac_benefit_percentage'].mean()
+        
+        if 'is_carb' in df.columns:
+            summary['avg_carb_dac_benefit'] = carb_df['dac_benefit_percentage'].mean()
+            summary['avg_non_carb_dac_benefit'] = non_carb_df['dac_benefit_percentage'].mean()
+        
+        if 'is_ev_voucher' in df.columns:
+            summary['avg_ev_dac_benefit'] = ev_df['dac_benefit_percentage'].mean()
+    
+    # 8. Multi-agency statistics
+    if 'is_multi_agency' in df.columns:
+        multi_df = df[df['is_multi_agency']]
+        single_df = df[~df['is_multi_agency']]
+        
+        summary['multi_agency_projects'] = len(multi_df)
+        summary['multi_agency_percentage'] = len(multi_df) / len(df) * 100
+        
+        if 'num_agencies_in_program' in df.columns:
+            summary['avg_agencies_per_program'] = df['num_agencies_in_program'].mean()
+        
+        if 'ghg_efficiency' in df.columns:
+            valid_multi = multi_df[multi_df['ghg_efficiency'].notna() & (multi_df['ghg_efficiency'] > 0)]
+            valid_single = single_df[single_df['ghg_efficiency'].notna() & (single_df['ghg_efficiency'] > 0)]
+            
+            if len(valid_multi) > 0:
+                summary['median_multi_agency_efficiency'] = valid_multi['ghg_efficiency'].median()
+            
+            if len(valid_single) > 0:
+                summary['median_single_agency_efficiency'] = valid_single['ghg_efficiency'].median()
+        
+        if 'dac_benefit_percentage' in df.columns:
+            summary['avg_multi_agency_dac_benefit'] = multi_df['dac_benefit_percentage'].mean()
+            summary['avg_single_agency_dac_benefit'] = single_df['dac_benefit_percentage'].mean()
+    
+    # 9. Temporal statistics
+    if 'period' in df.columns:
+        pre_df = df[df['period'] == 'Pre-2020']
+        post_df = df[df['period'] == 'Post-2020']
+        
+        summary['pre_2020_projects'] = len(pre_df)
+        summary['post_2020_projects'] = len(post_df)
+        
+        if 'num_agencies_in_program' in df.columns:
+            summary['pre_2020_avg_agencies'] = pre_df['num_agencies_in_program'].mean()
+            summary['post_2020_avg_agencies'] = post_df['num_agencies_in_program'].mean()
+            summary['agency_change_percentage'] = ((post_df['num_agencies_in_program'].mean() - 
+                                                  pre_df['num_agencies_in_program'].mean()) / 
+                                                 pre_df['num_agencies_in_program'].mean() * 100) if pre_df['num_agencies_in_program'].mean() > 0 else 0
+        
+        if funding_col:
+            summary['pre_2020_avg_funding'] = pre_df[funding_col].mean()
+            summary['post_2020_avg_funding'] = post_df[funding_col].mean()
+            summary['funding_change_percentage'] = ((post_df[funding_col].mean() - 
+                                                   pre_df[funding_col].mean()) / 
+                                                  pre_df[funding_col].mean() * 100) if pre_df[funding_col].mean() > 0 else 0
+        
+        if 'dac_benefit_percentage' in df.columns:
+            summary['pre_2020_avg_dac_benefit'] = pre_df['dac_benefit_percentage'].mean()
+            summary['post_2020_avg_dac_benefit'] = post_df['dac_benefit_percentage'].mean()
+            summary['dac_change_percentage'] = ((post_df['dac_benefit_percentage'].mean() - 
+                                               pre_df['dac_benefit_percentage'].mean()) / 
+                                              pre_df['dac_benefit_percentage'].mean() * 100) if pre_df['dac_benefit_percentage'].mean() > 0 else 0
+    
+    # 10. Regional statistics
+    if 'ca_region' in df.columns:
+        region_counts = df['ca_region'].value_counts()
+        region_percentages = df['ca_region'].value_counts(normalize=True) * 100
+        
+        summary['region_counts'] = region_counts.to_dict()
+        summary['region_percentages'] = region_percentages.to_dict()
+        
+        # Get efficiency and DAC benefit by region
+        if 'ghg_efficiency' in df.columns:
+            region_efficiency = df.groupby('ca_region')['ghg_efficiency'].median()
+            summary['region_efficiency'] = region_efficiency.to_dict()
+        
+        if 'dac_benefit_percentage' in df.columns:
+            region_dac = df.groupby('ca_region')['dac_benefit_percentage'].mean()
+            summary['region_dac_benefit'] = region_dac.to_dict()
+    
+    # Save summary if output path provided
+    if output_path:
+        import json
+        
+        output_file = Path(output_path)
+        output_file.parent.mkdir(parents=True, exist_ok=True)
+        
+        with open(output_file, 'w') as f:
+            json.dump(summary, f, indent=2, default=json_serializable)
+        
+        logger.info(f"Saved data summary to {output_file}")
+        
+        # Also create a readable text version
+        text_file = output_file.with_suffix('.txt')
+        
+        with open(text_file, 'w') as f:
+            f.write("CALIFORNIA CLIMATE INVESTMENTS (CCI) DATA SUMMARY\n")
+            f.write("================================================\n\n")
+            
+            f.write("DATASET OVERVIEW\n")
+            f.write(f"Total Projects: {summary['total_projects']:,}\n")
+            f.write(f"Total Agencies: {summary['total_agencies']}\n")
+            f.write(f"Total Programs: {summary['total_programs']}\n")
+            if 'total_subprograms' in summary:
+                f.write(f"Total Subprograms: {summary['total_subprograms']}\n")
+            
+            f.write("\nCARB VS NON-CARB BREAKDOWN\n")
+            if 'carb_projects' in summary:
+                f.write(f"CARB Projects: {summary['carb_projects']:,} ({summary['carb_percentage']:.1f}%)\n")
+                f.write(f"Non-CARB Projects: {summary['non_carb_projects']:,} ({100-summary['carb_percentage']:.1f}%)\n")
+                
+                if 'carb_funding' in summary:
+                    f.write(f"CARB Funding: ${summary['carb_funding']:,.2f} ({summary['carb_funding_percentage']:.1f}%)\n")
+                    f.write(f"Non-CARB Funding: ${summary['non_carb_funding']:,.2f} ({100-summary['carb_funding_percentage']:.1f}%)\n")
+                    f.write(f"Average CARB Project: ${summary['avg_carb_funding']:,.2f}\n")
+                    f.write(f"Average Non-CARB Project: ${summary['avg_non_carb_funding']:,.2f}\n")
+                
+                if 'carb_ghg_reduction' in summary:
+                    f.write(f"CARB GHG Reductions: {summary['carb_ghg_reduction']:,.2f} tons ({summary['carb_ghg_percentage']:.1f}%)\n")
+                    f.write(f"Non-CARB GHG Reductions: {summary['non_carb_ghg_reduction']:,.2f} tons ({100-summary['carb_ghg_percentage']:.1f}%)\n")
+                
+                if 'median_carb_efficiency' in summary and 'median_non_carb_efficiency' in summary:
+                    f.write(f"CARB Efficiency: ${summary['median_carb_efficiency']:,.2f} per ton CO2e\n")
+                    f.write(f"Non-CARB Efficiency: ${summary['median_non_carb_efficiency']:,.2f} per ton CO2e\n")
+            
+            f.write("\nEV VOUCHERS BREAKDOWN\n")
+            if 'ev_vouchers' in summary:
+                f.write(f"EV Vouchers: {summary['ev_vouchers']:,} ({summary['ev_percentage']:.1f}% of total)\n")
+                if 'ev_percentage_of_carb' in summary:
+                    f.write(f"Percentage of CARB Projects: {summary['ev_percentage_of_carb']:.1f}%\n")
+                
+                if 'ev_funding' in summary:
+                    f.write(f"EV Funding: ${summary['ev_funding']:,.2f} ({summary['ev_funding_percentage']:.1f}% of total)\n")
+                    f.write(f"Average Voucher Amount: ${summary['avg_ev_funding']:,.2f}\n")
+                
+                if 'ev_ghg_reduction' in summary:
+                    f.write(f"EV GHG Reductions: {summary['ev_ghg_reduction']:,.2f} tons ({summary['ev_ghg_percentage']:.1f}% of total)\n")
+                
+                if 'median_ev_efficiency' in summary:
+                    f.write(f"EV Efficiency: ${summary['median_ev_efficiency']:,.2f} per ton CO2e\n")
+            
+            f.write("\nMULTI-AGENCY COLLABORATION\n")
+            if 'multi_agency_projects' in summary:
+                f.write(f"Multi-Agency Projects: {summary['multi_agency_projects']:,} ({summary['multi_agency_percentage']:.1f}%)\n")
+                
+                if 'avg_agencies_per_program' in summary:
+                    f.write(f"Average Agencies per Program: {summary['avg_agencies_per_program']:.2f}\n")
+                
+                if 'median_multi_agency_efficiency' in summary and 'median_single_agency_efficiency' in summary:
+                    f.write(f"Multi-Agency Efficiency: ${summary['median_multi_agency_efficiency']:,.2f} per ton CO2e\n")
+                    f.write(f"Single-Agency Efficiency: ${summary['median_single_agency_efficiency']:,.2f} per ton CO2e\n")
+                
+                if 'avg_multi_agency_dac_benefit' in summary and 'avg_single_agency_dac_benefit' in summary:
+                    f.write(f"Multi-Agency DAC Benefit: {summary['avg_multi_agency_dac_benefit']:.2f}%\n")
+                    f.write(f"Single-Agency DAC Benefit: {summary['avg_single_agency_dac_benefit']:.2f}%\n")
+            
+            f.write("\nTEMPORAL TRENDS (PRE/POST 2020)\n")
+            if 'pre_2020_projects' in summary and 'post_2020_projects' in summary:
+                f.write(f"Pre-2020 Projects: {summary['pre_2020_projects']:,}\n")
+                f.write(f"Post-2020 Projects: {summary['post_2020_projects']:,}\n")
+                
+                if 'agency_change_percentage' in summary:
+                    f.write(f"Change in Average Agencies: {summary['agency_change_percentage']:+.1f}%\n")
+                
+                if 'funding_change_percentage' in summary:
+                    f.write(f"Change in Average Funding: {summary['funding_change_percentage']:+.1f}%\n")
+                
+                if 'dac_change_percentage' in summary:
+                    f.write(f"Change in DAC Benefit: {summary['dac_change_percentage']:+.1f}%\n")
+            
+            f.write("\nREGIONAL ANALYSIS\n")
+            if 'region_counts' in summary:
+                for region, count in sorted(summary['region_counts'].items(), key=lambda x: x[1], reverse=True):
+                    f.write(f"{region}: {count:,} projects ({summary['region_percentages'][region]:.1f}%)\n")
+                
+                f.write("\nEfficiency by Region ($ per ton CO2e):\n")
+                if 'region_efficiency' in summary:
+                    for region, efficiency in sorted(summary['region_efficiency'].items(), key=lambda x: x[1]):
+                        f.write(f"{region}: ${efficiency:,.2f}\n")
+                
+                f.write("\nDAC Benefit by Region:\n")
+                if 'region_dac_benefit' in summary:
+                    for region, dac in sorted(summary['region_dac_benefit'].items(), key=lambda x: x[1], reverse=True):
+                        f.write(f"{region}: {dac:.2f}%\n")
+        
+        logger.info(f"Saved readable summary to {text_file}")
+    
+    return summary
+
+
+if __name__ == "__main__":
+    import argparse
+    
+    parser = argparse.ArgumentParser(description='Clean and prepare CCI data for analysis')
+    parser.add_argument('--input_path', type=str, required=True, help='Path to the input CCI data file')
+    parser.add_argument('--output_path', type=str, help='Path to save the cleaned data')
+    parser.add_argument('--summary_path', type=str, help='Path to save the data summary')
+    
+    args = parser.parse_args()
+    
+    # Clean and prepare the data
+    cleaned_df = clean_and_prepare_cci_data(args.input_path, args.output_path)
+    
+    # Generate summary
+    if args.summary_path:
+        generate_data_summary(cleaned_df, args.summary_path)