idk

2025-04-10 00:03:30 -07:00
parent 81ec68b3cc
commit 03ae352949
12 changed files with 150373 additions and 0 deletions
--- a/pycache/cci_analyzer.cpython-313.pyc
+++ b/pycache/cci_analyzer.cpython-313.pyc
--- a/pycache/cci_collaboration_analysis.cpython-313.pyc
+++ b/pycache/cci_collaboration_analysis.cpython-313.pyc
--- a/pycache/data_cleaning_script.cpython-313.pyc
+++ b/pycache/data_cleaning_script.cpython-313.pyc
--- a/cci_collaboration_analysis.py
+++ b/cci_collaboration_analysis.py
@@ -0,0 +1,94 @@
 """
 Cleaned version of the CCICollaborationAnalyzer script.
 This script is structured and corrected for proper exception handling and visualization generation.
 """
 import numpy as np
 import pandas as pd
 import matplotlib.pyplot as plt
 import seaborn as sns
 import logging
 import warnings
 from pathlib import Path
 from sklearn.preprocessing import StandardScaler
 from scipy import stats
 from cci_analyzer import CCIDataAnalyzer
 # Configure logging
 logging.basicConfig(level=logging.INFO,
                    format="%(asctime)s - %(name)s - %(levelname)s - %(message)s")
 logger = logging.getLogger("cci_collaboration_analysis")
 # Suppress pandas warnings
 warnings.filterwarnings("ignore")
 class CCICollaborationAnalyzer:
    def __init__(self, data_path, output_path="./output/collaboration"):
        self.data_path = Path(data_path)
        self.output_path = Path(output_path)
        self.output_path.mkdir(parents=True, exist_ok=True)
        self.base_analyzer = CCIDataAnalyzer(data_path, output_path=str(self.output_path))
        if not self.base_analyzer.load_data():
            logger.error("Failed to load data through base analyzer")
            return
        self.data = self.base_analyzer.data
        self.collaboration_metrics = {}
        self.temporal_analysis = {}
        self.regional_analysis = {}
        self.ev_vouchers_analysis = {}
        self._separate_ev_vouchers()
    def _separate_ev_vouchers(self):
        if 'cci_projects' not in self.data:
            logger.error("No project data available to separate EV vouchers")
            return
        df = self.data['cci_projects']
        try:
            ev_mask = ((df['agency_name'].str.contains('Air Resources Board', case=False, na=False)) &
                       (df['program_name'].str.contains('Low Carbon Transportation', case=False, na=False)) &
                       (df['sub_program_name'].str.contains('Clean Cars 4 All|CVRP|Financing Assistance',
                                                            case=False, na=False)))
            self.data['ev_vouchers'] = df[ev_mask].copy()
            self.data['non_ev_projects'] = df[~ev_mask].copy()
            logger.info(f"Separated {len(self.data['ev_vouchers'])} EV vouchers from {len(self.data['non_ev_projects'])} other projects")
        except Exception as e:
            logger.error(f"Error separating EV vouchers: {e}")
    def _generate_visualizations(self):
        """Generate visualizations of key findings."""
        logger.info("Generating visualizations")
        try:
            self._plot_collaboration_impact()
            self._plot_temporal_trends()
            self._plot_regional_analysis()
            self._plot_ev_vouchers_analysis()
            self._plot_efficiency_equity_tradeoff()
            logger.info(f"All visualizations completed and saved to {self.output_path}")
        except Exception as e:
            logger.error(f"Error generating visualizations: {e}")
    # Define stubs for the required plotting methods
    def _plot_collaboration_impact(self):
        logger.info("Plotting collaboration impact...")
        # Implementation goes here
    def _plot_temporal_trends(self):
        logger.info("Plotting temporal trends...")
        # Implementation goes here
    def _plot_regional_analysis(self):
        logger.info("Plotting regional analysis...")
        # Implementation goes here
    def _plot_ev_vouchers_analysis(self):
        logger.info("Plotting EV vouchers analysis...")
        # Implementation goes here
    def _plot_efficiency_equity_tradeoff(self):
        logger.info("Plotting efficiency-equity tradeoff...")
        # Implementation goes here
--- a/collaboration_detection_script.py
+++ b/collaboration_detection_script.py
@@ -0,0 +1,125 @@
 import pandas as pd
 import numpy as np
 from pathlib import Path
 import logging
 # Configure logging
 logging.basicConfig(level=logging.INFO, 
                   format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger("collaboration_detection")
 def investigate_collaboration(input_path, output_path=None):
    """
    Investigate potential collaboration patterns in the CCI data
    that might not be captured by the current approach.
    Parameters:
        input_path (str): Path to the CCI data CSV file
        output_path (str, optional): Path to save findings
    """
    logger.info(f"Loading data from {input_path}")
    # Load the data
    df = pd.read_csv(input_path, low_memory=False)
    logger.info(f"Successfully loaded {len(df)} rows with {len(df.columns)} columns")
    # 1. Look at unique agency_name values
    agencies = df['agency_name'].unique()
    logger.info(f"Found {len(agencies)} unique agencies")
    logger.info("Agencies: " + ", ".join(sorted(agencies)[:10]) + "..." if len(agencies) > 10 else ", ".join(sorted(agencies)))
    # 2. Look at how agency_name is associated with program_name
    program_agency_counts = df.groupby('program_name')['agency_name'].nunique()
    # Look for programs with multiple agencies
    multi_agency_programs = program_agency_counts[program_agency_counts > 1]
    logger.info(f"Found {len(multi_agency_programs)} programs with multiple agencies")
    if len(multi_agency_programs) > 0:
        logger.info("Multi-agency programs:")
        for program, count in multi_agency_programs.items():
            agencies = df[df['program_name'] == program]['agency_name'].unique()
            logger.info(f"  {program}: {count} agencies ({', '.join(agencies)})")
    # 3. Look for other potential indicators of collaboration
    # Check if there are other columns that might indicate collaboration
    potential_collab_indicators = [
        'agency_name', 'program_name', 'sub_program_name', 
        # Add other potential columns here
    ]
    # Look for terms that might indicate collaboration
    collab_terms = ['collab', 'partner', 'joint', 'multi', 'together', 'coop']
    # Search for collaboration terms across relevant columns
    for col in potential_collab_indicators:
        if col in df.columns and df[col].dtype == 'object':
            # Search for collaboration terms in the column
            matches = []
            for term in collab_terms:
                term_matches = df[df[col].str.contains(term, case=False, na=False)]
                if len(term_matches) > 0:
                    matches.append((term, len(term_matches)))
            if matches:
                logger.info(f"Found potential collaboration indicators in column '{col}':")
                for term, count in matches:
                    logger.info(f"  Term '{term}': {count} matches")
    # 4. Look for potential co-funding patterns
    # Sometimes collaboration is indicated by multiple funding sources
    funding_cols = [col for col in df.columns if 'funding' in col.lower()]
    logger.info(f"Found {len(funding_cols)} funding-related columns: {', '.join(funding_cols)}")
    # 5. Generate a set of recommendations for identifying collaboration
    recommendations = [
        "1. Consider using a different approach to identify multi-agency programs:",
        "   - Look at sub_program_name for indicators of collaboration",
        "   - Check if there are text fields with partnership information",
        "   - Consider if programs can have multiple sub-agencies that aren't captured in agency_name",
        "2. Explore if collaboration occurs at higher levels (program level) rather than project level",
        "3. Check if some agencies have been merged or renamed in the data",
        "4. For temporal analysis, check if collaboration patterns changed over time",
        "5. Consider if collaboration is defined by regions/jurisdictions rather than state agencies"
    ]
    if output_path:
        with open(output_path, 'w') as f:
            f.write("CALIFORNIA CLIMATE INVESTMENTS (CCI) COLLABORATION DETECTION ANALYSIS\n")
            f.write("==================================================================\n\n")
            f.write("AGENCY ANALYSIS\n")
            f.write(f"Found {len(agencies)} unique agencies\n")
            f.write("Agencies: " + ", ".join(sorted(agencies)[:20]) + "...\n\n" if len(agencies) > 20 else ", ".join(sorted(agencies)) + "\n\n")
            f.write("MULTI-AGENCY PROGRAM ANALYSIS\n")
            f.write(f"Found {len(multi_agency_programs)} programs with multiple agencies\n\n")
            if len(multi_agency_programs) > 0:
                f.write("Multi-agency programs:\n")
                for program, count in multi_agency_programs.items():
                    agencies = df[df['program_name'] == program]['agency_name'].unique()
                    f.write(f"  {program}: {count} agencies ({', '.join(agencies)})\n")
            else:
                f.write("No multi-agency programs found using current detection method\n")
            f.write("\nRECOMMENDATIONS\n")
            for rec in recommendations:
                f.write(f"{rec}\n")
        logger.info(f"Saved collaboration detection analysis to {output_path}")
    # Return the number of multi-agency programs
    return len(multi_agency_programs)
 if __name__ == "__main__":
    import argparse
    parser = argparse.ArgumentParser(description='Investigate collaboration patterns in CCI data')
    parser.add_argument('--input_path', type=str, required=True, help='Path to the CCI data CSV file')
    parser.add_argument('--output_path', type=str, help='Path to save findings')
    args = parser.parse_args()
    investigate_collaboration(args.input_path, args.output_path)
--- a/data_cleaning_script.py
+++ b/data_cleaning_script.py
@@ -0,0 +1,540 @@
 import pandas as pd
 import numpy as np
 from pathlib import Path
 import logging
 # Configure logging
 logging.basicConfig(level=logging.INFO, 
                   format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger("cci_data_prep")
 def clean_and_prepare_cci_data(input_path, output_path=None):
    """
    Clean and prepare the CCI data for analysis, fixing specific issues identified.
    Parameters:
        input_path (str): Path to the original CCI data file
        output_path (str, optional): Path to save the cleaned data
    Returns:
        pd.DataFrame: The cleaned and prepared data
    """
    logger.info(f"Loading data from {input_path}")
    # Try different encodings if needed
    try:
        df = pd.read_csv(input_path)
    except UnicodeDecodeError:
        logger.info("Trying different encoding (latin-1)")
        df = pd.read_csv(input_path, encoding='latin-1')
    logger.info(f"Successfully loaded {len(df)} rows with {len(df.columns)} columns")
    # 1. Fix column names - standardize to lowercase with underscores
    df.columns = [col.strip().lower().replace(' ', '_') for col in df.columns]
    # 2. Identify and mark EV vouchers/rebates
    logger.info("Identifying EV vouchers and rebates")
    # Check if required columns exist
    required_cols = ['agency_name', 'program_name']
    if not all(col in df.columns for col in required_cols):
        missing = [col for col in required_cols if col not in df.columns]
        logger.error(f"Missing required columns: {missing}")
        return df
    # Identify CARB's Low Carbon Transportation projects
    carb_mask = df['agency_name'].str.contains('Air Resources Board', case=False, na=False)
    lct_mask = df['program_name'].str.contains('Low Carbon Transportation', case=False, na=False)
    # Create CARB indicator
    df['is_carb'] = carb_mask
    # 3. Mark EV projects using multiple methods
    # Start with subprogram if available
    ev_mask = pd.Series(False, index=df.index)
    if 'sub_program_name' in df.columns:
        ev_indicators = ['Clean Cars 4 All', 'CVRP', 'Clean Vehicle', 'EV', 'Electric Vehicle', 
                         'Hybrid', 'Rebate', 'Voucher', 'ZEV', 'Zero Emission']
        ev_subprogram_mask = df['sub_program_name'].str.contains('|'.join(ev_indicators), 
                                                             case=False, na=False)
        ev_mask = ev_mask | (carb_mask & lct_mask & ev_subprogram_mask)
    # Check project count column
    if 'number_of_rebates_issued' in df.columns:
        rebate_mask = df['number_of_rebates_issued'] > 0
        ev_mask = ev_mask | (carb_mask & rebate_mask)
    # Check for small funding amounts typical of vouchers
    funding_col = None
    for col in df.columns:
        if 'total_program' in col.lower() and 'funding' in col.lower():
            funding_col = col
            break
    if funding_col:
        # Identify potential vouchers by small funding amount (for individual vouchers)
        small_funding_mask = (df[funding_col] > 0) & (df[funding_col] < 10000) & carb_mask & lct_mask
        ev_mask = ev_mask | small_funding_mask
    # Mark EV vouchers
    df['is_ev_voucher'] = ev_mask
    count_ev = ev_mask.sum()
    logger.info(f"Identified {count_ev} EV vouchers/rebates")
    # 4. Create funding year if needed
    if 'funding_year' not in df.columns and 'fiscal_year_funding_project' in df.columns:
        # Extract year from fiscal year format (e.g., "2019-20" -> 2019)
        try:
            df['funding_year'] = df['fiscal_year_funding_project'].str.extract(r'(\d{4})').astype('Int64')
            logger.info("Created funding_year column from fiscal year data")
        except Exception as e:
            logger.error(f"Error creating funding_year: {e}")
    # 5. Calculate GHG efficiency
    if funding_col:
        ghg_col = None
        for col in df.columns:
            if 'total_project' in col.lower() and 'ghg' in col.lower():
                ghg_col = col
                break
        if ghg_col:
            df['ghg_efficiency'] = np.where(
                df[ghg_col] > 0,
                df[funding_col] / df[ghg_col],
                np.nan
            )
            logger.info("Calculated GHG efficiency ($ per ton CO2e)")
    # 6. Calculate DAC benefit percentage
    dac_funding_col = None
    for col in df.columns:
        if 'funding_benefiting' in col.lower() and 'disadvantaged' in col.lower():
            dac_funding_col = col
            break
    if dac_funding_col and funding_col:
        df['dac_benefit_percentage'] = np.where(
            df[funding_col] > 0,
            100 * df[dac_funding_col] / df[funding_col],
            0
        )
        logger.info("Calculated DAC benefit percentage")
    # 7. Identify multi-agency programs
    logger.info("Identifying multi-agency programs")
    program_agencies = df.groupby('program_name')['agency_name'].nunique()
    df['num_agencies_in_program'] = df['program_name'].map(program_agencies)
    df['is_multi_agency'] = df['num_agencies_in_program'] > 1
    multi_agency_count = (df['is_multi_agency'] == True).sum()
    logger.info(f"Found {multi_agency_count} projects in multi-agency programs")
    # 8. Identify regional scope
    if 'county' in df.columns:
        logger.info("Determining regional scope of projects")
        program_counties = df.groupby('program_name')['county'].nunique()
        df['num_counties'] = df['program_name'].map(program_counties)
        # Define region categories
        df['regional_scope'] = pd.cut(
            df['num_counties'],
            bins=[0, 1, 3, 10, np.inf],
            labels=['Single County', 'Limited Regional', 'Regional', 'Multi-Regional']
        )
    # 9. Assign California region based on county
    if 'county' in df.columns:
        logger.info("Assigning California regions")
        # Define California regions
        ca_regions = {
            'Bay Area': ['Alameda', 'Contra Costa', 'Marin', 'Napa', 'San Francisco', 'San Mateo', 'Santa Clara', 'Solano', 'Sonoma'],
            'Sacramento Region': ['El Dorado', 'Placer', 'Sacramento', 'Sutter', 'Yolo', 'Yuba'],
            'San Joaquin Valley': ['Fresno', 'Kern', 'Kings', 'Madera', 'Merced', 'San Joaquin', 'Stanislaus', 'Tulare'],
            'Southern California': ['Imperial', 'Los Angeles', 'Orange', 'Riverside', 'San Bernardino', 'San Diego', 'Ventura'],
            'Central Coast': ['Monterey', 'San Benito', 'San Luis Obispo', 'Santa Barbara', 'Santa Cruz'],
            'Northern California': ['Butte', 'Colusa', 'Del Norte', 'Glenn', 'Humboldt', 'Lake', 'Lassen', 'Mendocino', 'Modoc', 'Nevada', 'Plumas', 'Shasta', 'Sierra', 'Siskiyou', 'Tehama', 'Trinity'],
            'Sierra Nevada': ['Alpine', 'Amador', 'Calaveras', 'Inyo', 'Mariposa', 'Mono', 'Tuolumne']
        }
        # Create mapping dictionary
        county_to_region = {}
        for region, counties in ca_regions.items():
            for county in counties:
                county_to_region[county] = region
        # Apply mapping
        df['ca_region'] = df['county'].map(county_to_region)
        # For projects with multiple counties, determine if they are multi-region
        multi_county_programs = program_counties[program_counties > 1].index
        # For multi-county programs, check if they span multiple regions
        for program in multi_county_programs:
            program_df = df[df['program_name'] == program]
            unique_regions = program_df['ca_region'].nunique()
            if unique_regions > 1:
                df.loc[df['program_name'] == program, 'ca_region'] = 'Multi-Region'
    # 10. Create temporal period indicator (pre/post 2020)
    if 'funding_year' in df.columns:
        logger.info("Creating temporal period indicator (pre/post 2020)")
        df['period'] = df['funding_year'].apply(lambda x: 'Post-2020' if x >= 2020 else 'Pre-2020')
    # 11. Handle outliers in GHG efficiency and DAC benefit
    if 'ghg_efficiency' in df.columns:
        # Cap extreme values at 95th percentile
        upper_limit = df['ghg_efficiency'].quantile(0.95)
        df['ghg_efficiency_capped'] = df['ghg_efficiency'].clip(upper=upper_limit)
        # Log transform for analysis
        df['ghg_efficiency_log'] = np.log1p(df['ghg_efficiency_capped'])
        logger.info(f"Handled outliers in GHG efficiency (capped at ${upper_limit:.2f} per ton)")
    if 'dac_benefit_percentage' in df.columns:
        # Handle values > 100%
        df['dac_benefit_percentage'] = df['dac_benefit_percentage'].clip(upper=100)
        logger.info("Capped DAC benefit percentage at 100%")
    # Save cleaned data if output path provided
    if output_path:
        output_file = Path(output_path)
        logger.info(f"Saving cleaned data to {output_file}")
        df.to_csv(output_file, index=False)
    return df
 def json_serializable(obj):
    """Convert NumPy types to Python standard types for JSON serialization."""
    if isinstance(obj, (np.integer, np.int64)):
        return int(obj)
    elif isinstance(obj, (np.floating, np.float64)):
        return float(obj)
    elif isinstance(obj, (np.ndarray,)):
        return obj.tolist()
    else:
        return obj
 def generate_data_summary(df, output_path=None):
    """
    Generate a summary of the cleaned CCI data.
    Parameters:
        df (pd.DataFrame): The cleaned CCI data
        output_path (str, optional): Path to save the summary
    Returns:
        dict: Summary statistics
    """
    summary = {}
    # 1. Basic dataset stats
    summary['total_projects'] = len(df)
    summary['total_agencies'] = df['agency_name'].nunique()
    summary['total_programs'] = df['program_name'].nunique()
    if 'sub_program_name' in df.columns:
        summary['total_subprograms'] = df['sub_program_name'].nunique()
    # 2. CARB vs Non-CARB breakdown
    if 'is_carb' in df.columns:
        carb_df = df[df['is_carb']]
        non_carb_df = df[~df['is_carb']]
        summary['carb_projects'] = len(carb_df)
        summary['non_carb_projects'] = len(non_carb_df)
        summary['carb_percentage'] = len(carb_df) / len(df) * 100
    # 3. EV vouchers breakdown
    if 'is_ev_voucher' in df.columns:
        ev_df = df[df['is_ev_voucher']]
        summary['ev_vouchers'] = len(ev_df)
        summary['ev_percentage'] = len(ev_df) / len(df) * 100
        if 'is_carb' in df.columns:
            summary['ev_percentage_of_carb'] = len(ev_df) / len(carb_df) * 100 if len(carb_df) > 0 else 0
    # 4. Funding statistics
    funding_col = None
    for col in df.columns:
        if 'total_program' in col.lower() and 'funding' in col.lower():
            funding_col = col
            break
    if funding_col:
        summary['total_funding'] = df[funding_col].sum()
        summary['avg_funding_per_project'] = df[funding_col].mean()
        if 'is_carb' in df.columns:
            summary['carb_funding'] = carb_df[funding_col].sum()
            summary['non_carb_funding'] = non_carb_df[funding_col].sum()
            summary['carb_funding_percentage'] = carb_df[funding_col].sum() / df[funding_col].sum() * 100
            summary['avg_carb_funding'] = carb_df[funding_col].mean()
            summary['avg_non_carb_funding'] = non_carb_df[funding_col].mean()
        if 'is_ev_voucher' in df.columns:
            summary['ev_funding'] = ev_df[funding_col].sum()
            summary['ev_funding_percentage'] = ev_df[funding_col].sum() / df[funding_col].sum() * 100
            summary['avg_ev_funding'] = ev_df[funding_col].mean()
    # 5. GHG reduction statistics
    ghg_col = None
    for col in df.columns:
        if 'total_project' in col.lower() and 'ghg' in col.lower():
            ghg_col = col
            break
    if ghg_col:
        summary['total_ghg_reduction'] = df[ghg_col].sum()
        summary['avg_ghg_reduction_per_project'] = df[ghg_col].mean()
        if 'is_carb' in df.columns:
            summary['carb_ghg_reduction'] = carb_df[ghg_col].sum()
            summary['non_carb_ghg_reduction'] = non_carb_df[ghg_col].sum()
            summary['carb_ghg_percentage'] = carb_df[ghg_col].sum() / df[ghg_col].sum() * 100
        if 'is_ev_voucher' in df.columns:
            summary['ev_ghg_reduction'] = ev_df[ghg_col].sum()
            summary['ev_ghg_percentage'] = ev_df[ghg_col].sum() / df[ghg_col].sum() * 100
    # 6. Efficiency statistics
    if 'ghg_efficiency' in df.columns:
        # Use median for efficiency due to skewness
        valid_efficiency = df[df['ghg_efficiency'].notna() & (df['ghg_efficiency'] > 0)]
        if len(valid_efficiency) > 0:
            summary['median_ghg_efficiency'] = valid_efficiency['ghg_efficiency'].median()
            if 'is_carb' in df.columns:
                valid_carb = carb_df[carb_df['ghg_efficiency'].notna() & (carb_df['ghg_efficiency'] > 0)]
                valid_non_carb = non_carb_df[non_carb_df['ghg_efficiency'].notna() & (non_carb_df['ghg_efficiency'] > 0)]
                if len(valid_carb) > 0:
                    summary['median_carb_efficiency'] = valid_carb['ghg_efficiency'].median()
                if len(valid_non_carb) > 0:
                    summary['median_non_carb_efficiency'] = valid_non_carb['ghg_efficiency'].median()
            if 'is_ev_voucher' in df.columns:
                valid_ev = ev_df[ev_df['ghg_efficiency'].notna() & (ev_df['ghg_efficiency'] > 0)]
                if len(valid_ev) > 0:
                    summary['median_ev_efficiency'] = valid_ev['ghg_efficiency'].median()
    # 7. DAC benefit statistics
    if 'dac_benefit_percentage' in df.columns:
        summary['avg_dac_benefit'] = df['dac_benefit_percentage'].mean()
        if 'is_carb' in df.columns:
            summary['avg_carb_dac_benefit'] = carb_df['dac_benefit_percentage'].mean()
            summary['avg_non_carb_dac_benefit'] = non_carb_df['dac_benefit_percentage'].mean()
        if 'is_ev_voucher' in df.columns:
            summary['avg_ev_dac_benefit'] = ev_df['dac_benefit_percentage'].mean()
    # 8. Multi-agency statistics
    if 'is_multi_agency' in df.columns:
        multi_df = df[df['is_multi_agency']]
        single_df = df[~df['is_multi_agency']]
        summary['multi_agency_projects'] = len(multi_df)
        summary['multi_agency_percentage'] = len(multi_df) / len(df) * 100
        if 'num_agencies_in_program' in df.columns:
            summary['avg_agencies_per_program'] = df['num_agencies_in_program'].mean()
        if 'ghg_efficiency' in df.columns:
            valid_multi = multi_df[multi_df['ghg_efficiency'].notna() & (multi_df['ghg_efficiency'] > 0)]
            valid_single = single_df[single_df['ghg_efficiency'].notna() & (single_df['ghg_efficiency'] > 0)]
            if len(valid_multi) > 0:
                summary['median_multi_agency_efficiency'] = valid_multi['ghg_efficiency'].median()
            if len(valid_single) > 0:
                summary['median_single_agency_efficiency'] = valid_single['ghg_efficiency'].median()
        if 'dac_benefit_percentage' in df.columns:
            summary['avg_multi_agency_dac_benefit'] = multi_df['dac_benefit_percentage'].mean()
            summary['avg_single_agency_dac_benefit'] = single_df['dac_benefit_percentage'].mean()
    # 9. Temporal statistics
    if 'period' in df.columns:
        pre_df = df[df['period'] == 'Pre-2020']
        post_df = df[df['period'] == 'Post-2020']
        summary['pre_2020_projects'] = len(pre_df)
        summary['post_2020_projects'] = len(post_df)
        if 'num_agencies_in_program' in df.columns:
            summary['pre_2020_avg_agencies'] = pre_df['num_agencies_in_program'].mean()
            summary['post_2020_avg_agencies'] = post_df['num_agencies_in_program'].mean()
            summary['agency_change_percentage'] = ((post_df['num_agencies_in_program'].mean() - 
                                                  pre_df['num_agencies_in_program'].mean()) / 
                                                 pre_df['num_agencies_in_program'].mean() * 100) if pre_df['num_agencies_in_program'].mean() > 0 else 0
        if funding_col:
            summary['pre_2020_avg_funding'] = pre_df[funding_col].mean()
            summary['post_2020_avg_funding'] = post_df[funding_col].mean()
            summary['funding_change_percentage'] = ((post_df[funding_col].mean() - 
                                                   pre_df[funding_col].mean()) / 
                                                  pre_df[funding_col].mean() * 100) if pre_df[funding_col].mean() > 0 else 0
        if 'dac_benefit_percentage' in df.columns:
            summary['pre_2020_avg_dac_benefit'] = pre_df['dac_benefit_percentage'].mean()
            summary['post_2020_avg_dac_benefit'] = post_df['dac_benefit_percentage'].mean()
            summary['dac_change_percentage'] = ((post_df['dac_benefit_percentage'].mean() - 
                                               pre_df['dac_benefit_percentage'].mean()) / 
                                              pre_df['dac_benefit_percentage'].mean() * 100) if pre_df['dac_benefit_percentage'].mean() > 0 else 0
    # 10. Regional statistics
    if 'ca_region' in df.columns:
        region_counts = df['ca_region'].value_counts()
        region_percentages = df['ca_region'].value_counts(normalize=True) * 100
        summary['region_counts'] = region_counts.to_dict()
        summary['region_percentages'] = region_percentages.to_dict()
        # Get efficiency and DAC benefit by region
        if 'ghg_efficiency' in df.columns:
            region_efficiency = df.groupby('ca_region')['ghg_efficiency'].median()
            summary['region_efficiency'] = region_efficiency.to_dict()
        if 'dac_benefit_percentage' in df.columns:
            region_dac = df.groupby('ca_region')['dac_benefit_percentage'].mean()
            summary['region_dac_benefit'] = region_dac.to_dict()
    # Save summary if output path provided
    if output_path:
        import json
        output_file = Path(output_path)
        output_file.parent.mkdir(parents=True, exist_ok=True)
        with open(output_file, 'w') as f:
            json.dump(summary, f, indent=2, default=json_serializable)
        logger.info(f"Saved data summary to {output_file}")
        # Also create a readable text version
        text_file = output_file.with_suffix('.txt')
        with open(text_file, 'w') as f:
            f.write("CALIFORNIA CLIMATE INVESTMENTS (CCI) DATA SUMMARY\n")
            f.write("================================================\n\n")
            f.write("DATASET OVERVIEW\n")
            f.write(f"Total Projects: {summary['total_projects']:,}\n")
            f.write(f"Total Agencies: {summary['total_agencies']}\n")
            f.write(f"Total Programs: {summary['total_programs']}\n")
            if 'total_subprograms' in summary:
                f.write(f"Total Subprograms: {summary['total_subprograms']}\n")
            f.write("\nCARB VS NON-CARB BREAKDOWN\n")
            if 'carb_projects' in summary:
                f.write(f"CARB Projects: {summary['carb_projects']:,} ({summary['carb_percentage']:.1f}%)\n")
                f.write(f"Non-CARB Projects: {summary['non_carb_projects']:,} ({100-summary['carb_percentage']:.1f}%)\n")
                if 'carb_funding' in summary:
                    f.write(f"CARB Funding: ${summary['carb_funding']:,.2f} ({summary['carb_funding_percentage']:.1f}%)\n")
                    f.write(f"Non-CARB Funding: ${summary['non_carb_funding']:,.2f} ({100-summary['carb_funding_percentage']:.1f}%)\n")
                    f.write(f"Average CARB Project: ${summary['avg_carb_funding']:,.2f}\n")
                    f.write(f"Average Non-CARB Project: ${summary['avg_non_carb_funding']:,.2f}\n")
                if 'carb_ghg_reduction' in summary:
                    f.write(f"CARB GHG Reductions: {summary['carb_ghg_reduction']:,.2f} tons ({summary['carb_ghg_percentage']:.1f}%)\n")
                    f.write(f"Non-CARB GHG Reductions: {summary['non_carb_ghg_reduction']:,.2f} tons ({100-summary['carb_ghg_percentage']:.1f}%)\n")
                if 'median_carb_efficiency' in summary and 'median_non_carb_efficiency' in summary:
                    f.write(f"CARB Efficiency: ${summary['median_carb_efficiency']:,.2f} per ton CO2e\n")
                    f.write(f"Non-CARB Efficiency: ${summary['median_non_carb_efficiency']:,.2f} per ton CO2e\n")
            f.write("\nEV VOUCHERS BREAKDOWN\n")
            if 'ev_vouchers' in summary:
                f.write(f"EV Vouchers: {summary['ev_vouchers']:,} ({summary['ev_percentage']:.1f}% of total)\n")
                if 'ev_percentage_of_carb' in summary:
                    f.write(f"Percentage of CARB Projects: {summary['ev_percentage_of_carb']:.1f}%\n")
                if 'ev_funding' in summary:
                    f.write(f"EV Funding: ${summary['ev_funding']:,.2f} ({summary['ev_funding_percentage']:.1f}% of total)\n")
                    f.write(f"Average Voucher Amount: ${summary['avg_ev_funding']:,.2f}\n")
                if 'ev_ghg_reduction' in summary:
                    f.write(f"EV GHG Reductions: {summary['ev_ghg_reduction']:,.2f} tons ({summary['ev_ghg_percentage']:.1f}% of total)\n")
                if 'median_ev_efficiency' in summary:
                    f.write(f"EV Efficiency: ${summary['median_ev_efficiency']:,.2f} per ton CO2e\n")
            f.write("\nMULTI-AGENCY COLLABORATION\n")
            if 'multi_agency_projects' in summary:
                f.write(f"Multi-Agency Projects: {summary['multi_agency_projects']:,} ({summary['multi_agency_percentage']:.1f}%)\n")
                if 'avg_agencies_per_program' in summary:
                    f.write(f"Average Agencies per Program: {summary['avg_agencies_per_program']:.2f}\n")
                if 'median_multi_agency_efficiency' in summary and 'median_single_agency_efficiency' in summary:
                    f.write(f"Multi-Agency Efficiency: ${summary['median_multi_agency_efficiency']:,.2f} per ton CO2e\n")
                    f.write(f"Single-Agency Efficiency: ${summary['median_single_agency_efficiency']:,.2f} per ton CO2e\n")
                if 'avg_multi_agency_dac_benefit' in summary and 'avg_single_agency_dac_benefit' in summary:
                    f.write(f"Multi-Agency DAC Benefit: {summary['avg_multi_agency_dac_benefit']:.2f}%\n")
                    f.write(f"Single-Agency DAC Benefit: {summary['avg_single_agency_dac_benefit']:.2f}%\n")
            f.write("\nTEMPORAL TRENDS (PRE/POST 2020)\n")
            if 'pre_2020_projects' in summary and 'post_2020_projects' in summary:
                f.write(f"Pre-2020 Projects: {summary['pre_2020_projects']:,}\n")
                f.write(f"Post-2020 Projects: {summary['post_2020_projects']:,}\n")
                if 'agency_change_percentage' in summary:
                    f.write(f"Change in Average Agencies: {summary['agency_change_percentage']:+.1f}%\n")
                if 'funding_change_percentage' in summary:
                    f.write(f"Change in Average Funding: {summary['funding_change_percentage']:+.1f}%\n")
                if 'dac_change_percentage' in summary:
                    f.write(f"Change in DAC Benefit: {summary['dac_change_percentage']:+.1f}%\n")
            f.write("\nREGIONAL ANALYSIS\n")
            if 'region_counts' in summary:
                for region, count in sorted(summary['region_counts'].items(), key=lambda x: x[1], reverse=True):
                    f.write(f"{region}: {count:,} projects ({summary['region_percentages'][region]:.1f}%)\n")
                f.write("\nEfficiency by Region ($ per ton CO2e):\n")
                if 'region_efficiency' in summary:
                    for region, efficiency in sorted(summary['region_efficiency'].items(), key=lambda x: x[1]):
                        f.write(f"{region}: ${efficiency:,.2f}\n")
                f.write("\nDAC Benefit by Region:\n")
                if 'region_dac_benefit' in summary:
                    for region, dac in sorted(summary['region_dac_benefit'].items(), key=lambda x: x[1], reverse=True):
                        f.write(f"{region}: {dac:.2f}%\n")
        logger.info(f"Saved readable summary to {text_file}")
    return summary
 if __name__ == "__main__":
    import argparse
    parser = argparse.ArgumentParser(description='Clean and prepare CCI data for analysis')
    parser.add_argument('--input_path', type=str, required=True, help='Path to the input CCI data file')
    parser.add_argument('--output_path', type=str, help='Path to save the cleaned data')
    parser.add_argument('--summary_path', type=str, help='Path to save the data summary')
    args = parser.parse_args()
    # Clean and prepare the data
    cleaned_df = clean_and_prepare_cci_data(args.input_path, args.output_path)
    # Generate summary
    if args.summary_path:
        generate_data_summary(cleaned_df, args.summary_path)
--- a/output/cleaned_cci_data.csv
+++ b/output/cleaned_cci_data.csv
--- a/output/data_summary.json
+++ b/output/data_summary.json
@@ -0,0 +1,70 @@
 {
  "total_projects": 146305,
  "total_agencies": 21,
  "total_programs": 39,
  "total_subprograms": 76,
  "carb_projects": 125581,
  "non_carb_projects": 20724,
  "carb_percentage": 85.83507057175079,
  "ev_vouchers": 109270,
  "ev_percentage": 74.68644270530741,
  "ev_percentage_of_carb": 87.01157022160996,
  "total_funding": 11588544819,
  "avg_funding_per_project": 79208.12562113394,
  "carb_funding": 3372893006,
  "non_carb_funding": 8215651813,
  "carb_funding_percentage": 29.10540588728598,
  "avg_carb_funding": 26858.30663874312,
  "avg_non_carb_funding": 396431.76090523065,
  "ev_funding": 1714222371,
  "ev_funding_percentage": 14.792386773095501,
  "avg_ev_funding": 15687.950681797383,
  "total_ghg_reduction": 112749573,
  "avg_ghg_reduction_per_project": 770.6474351525922,
  "carb_ghg_reduction": 5011819,
  "non_carb_ghg_reduction": 107737754,
  "carb_ghg_percentage": 4.44508911798717,
  "ev_ghg_reduction": 4193168,
  "ev_ghg_percentage": 3.71901009327991,
  "median_ghg_efficiency": 312.5,
  "median_carb_efficiency": 312.5,
  "median_non_carb_efficiency": 197.3,
  "median_ev_efficiency": 312.5,
  "avg_dac_benefit": 1.29624968537629,
  "avg_carb_dac_benefit": 1.3918376975701816,
  "avg_non_carb_dac_benefit": 0.9900241837968561,
  "avg_ev_dac_benefit": 1.39305362075886,
  "multi_agency_projects": 0,
  "multi_agency_percentage": 0.0,
  "avg_agencies_per_program": 1.0,
  "median_single_agency_efficiency": 312.5,
  "avg_multi_agency_dac_benefit": NaN,
  "avg_single_agency_dac_benefit": 1.29624968537629,
  "pre_2020_projects": 144185,
  "post_2020_projects": 2120,
  "pre_2020_avg_agencies": 1.0,
  "post_2020_avg_agencies": 1.0,
  "agency_change_percentage": 0.0,
  "pre_2020_avg_funding": 71885.7690813885,
  "post_2020_avg_funding": 577214.7188679245,
  "funding_change_percentage": 702.9610397774371,
  "pre_2020_avg_dac_benefit": 1.2963895281933258,
  "post_2020_avg_dac_benefit": 0.0,
  "dac_change_percentage": -100.0,
  "region_counts": {
    "Multi-Region": 146221,
    "Bay Area": 84
  },
  "region_percentages": {
    "Multi-Region": 99.94258569426883,
    "Bay Area": 0.05741430573117801
  },
  "region_efficiency": {
    "Bay Area": NaN,
    "Multi-Region": 312.5
  },
  "region_dac_benefit": {
    "Bay Area": NaN,
    "Multi-Region": 1.29624968537629
  }
 }
--- a/output/data_summary.txt
+++ b/output/data_summary.txt
@@ -0,0 +1,53 @@
 CALIFORNIA CLIMATE INVESTMENTS (CCI) DATA SUMMARY
 ================================================
 DATASET OVERVIEW
 Total Projects: 146,305
 Total Agencies: 21
 Total Programs: 39
 Total Subprograms: 76
 CARB VS NON-CARB BREAKDOWN
 CARB Projects: 125,581 (85.8%)
 Non-CARB Projects: 20,724 (14.2%)
 CARB Funding: $3,372,893,006.00 (29.1%)
 Non-CARB Funding: $8,215,651,813.00 (70.9%)
 Average CARB Project: $26,858.31
 Average Non-CARB Project: $396,431.76
 CARB GHG Reductions: 5,011,819.00 tons (4.4%)
 Non-CARB GHG Reductions: 107,737,754.00 tons (95.6%)
 CARB Efficiency: $312.50 per ton CO2e
 Non-CARB Efficiency: $197.30 per ton CO2e
 EV VOUCHERS BREAKDOWN
 EV Vouchers: 109,270 (74.7% of total)
 Percentage of CARB Projects: 87.0%
 EV Funding: $1,714,222,371.00 (14.8% of total)
 Average Voucher Amount: $15,687.95
 EV GHG Reductions: 4,193,168.00 tons (3.7% of total)
 EV Efficiency: $312.50 per ton CO2e
 MULTI-AGENCY COLLABORATION
 Multi-Agency Projects: 0 (0.0%)
 Average Agencies per Program: 1.00
 Multi-Agency DAC Benefit: nan%
 Single-Agency DAC Benefit: 1.30%
 TEMPORAL TRENDS (PRE/POST 2020)
 Pre-2020 Projects: 144,185
 Post-2020 Projects: 2,120
 Change in Average Agencies: +0.0%
 Change in Average Funding: +703.0%
 Change in DAC Benefit: -100.0%
 REGIONAL ANALYSIS
 Multi-Region: 146,221 projects (99.9%)
 Bay Area: 84 projects (0.1%)
 Efficiency by Region ($ per ton CO2e):
 Bay Area: $nan
 Multi-Region: $312.50
 DAC Benefit by Region:
 Bay Area: nan%
 Multi-Region: 1.30%
--- a/regional_analysis_script.py
+++ b/regional_analysis_script.py
@@ -0,0 +1,262 @@
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import seaborn as sns
 from pathlib import Path
 import logging
 # Configure logging
 logging.basicConfig(level=logging.INFO, 
                   format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger("regional_analysis")
 def analyze_regional_distribution(input_path, output_path=None):
    """
    Analyze the regional distribution of CCI projects and its
    relationship to GHG efficiency and DAC benefits.
    Parameters:
        input_path (str): Path to the cleaned CCI data CSV file
        output_path (str, optional): Path to save findings and visualizations
    """
    logger.info(f"Loading data from {input_path}")
    # Load the data
    df = pd.read_csv(input_path, low_memory=False)
    logger.info(f"Successfully loaded {len(df)} rows with {len(df.columns)} columns")
    # Check if we have the regional data
    if 'ca_region' not in df.columns:
        logger.error("Regional data not found in the dataset")
        return
    # Define output directory if provided
    output_dir = None
    if output_path:
        output_dir = Path(output_path)
        output_dir.mkdir(parents=True, exist_ok=True)
    # 1. Basic regional distribution analysis
    region_counts = df['ca_region'].value_counts()
    region_percent = df['ca_region'].value_counts(normalize=True) * 100
    logger.info("Regional distribution of CCI projects:")
    for region, count in region_counts.items():
        logger.info(f"  {region}: {count} projects ({region_percent[region]:.1f}%)")
    # Visualize regional distribution
    plt.figure(figsize=(10, 6))
    region_counts.plot(kind='bar')
    plt.title('Number of CCI Projects by Region')
    plt.xlabel('Region')
    plt.ylabel('Number of Projects')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    if output_dir:
        plt.savefig(output_dir / "regional_distribution.png", dpi=300)
    plt.close()
    # 2. EV vouchers vs non-EV projects by region
    if 'is_ev_voucher' in df.columns:
        ev_by_region = df[df['is_ev_voucher']]['ca_region'].value_counts()
        nonev_by_region = df[~df['is_ev_voucher']]['ca_region'].value_counts()
        # Calculate percentages
        ev_percent = 100 * ev_by_region / ev_by_region.sum()
        nonev_percent = 100 * nonev_by_region / nonev_by_region.sum()
        # Combine for comparison
        comparison_df = pd.DataFrame({
            'EV Vouchers': ev_percent,
            'Non-EV Projects': nonev_percent
        })
        # Fill missing values with 0
        comparison_df = comparison_df.fillna(0)
        # Visualize comparison
        plt.figure(figsize=(12, 6))
        comparison_df.plot(kind='bar')
        plt.title('Regional Distribution: EV Vouchers vs. Non-EV Projects')
        plt.xlabel('Region')
        plt.ylabel('Percentage of Projects')
        plt.xticks(rotation=45, ha='right')
        plt.legend(title='Project Type')
        plt.tight_layout()
        if output_dir:
            plt.savefig(output_dir / "regional_ev_comparison.png", dpi=300)
        plt.close()
    # 3. GHG efficiency by region
    if 'ghg_efficiency' in df.columns:
        # Filter to valid efficiency values and non-extreme outliers
        valid_data = df[(df['ghg_efficiency'].notna()) & 
                      (df['ghg_efficiency'] > 0) & 
                      (df['ghg_efficiency'] < df['ghg_efficiency'].quantile(0.95))]
        # Calculate median efficiency by region
        efficiency_by_region = valid_data.groupby('ca_region')['ghg_efficiency'].median().sort_values()
        logger.info("GHG efficiency by region ($ per ton CO2e, median):")
        for region, efficiency in efficiency_by_region.items():
            logger.info(f"  {region}: ${efficiency:.2f}")
        # Visualize efficiency by region
        plt.figure(figsize=(10, 6))
        efficiency_by_region.plot(kind='barh')
        plt.title('GHG Efficiency by Region (lower is better)')
        plt.xlabel('GHG Efficiency ($ per ton CO2e)')
        plt.ylabel('Region')
        plt.grid(axis='x', alpha=0.3)
        plt.tight_layout()
        if output_dir:
            plt.savefig(output_dir / "regional_efficiency.png", dpi=300)
        plt.close()
    # 4. DAC benefit by region
    if 'dac_benefit_percentage' in df.columns:
        # Calculate mean DAC benefit by region
        dac_by_region = df.groupby('ca_region')['dac_benefit_percentage'].mean().sort_values(ascending=False)
        logger.info("DAC benefit percentage by region:")
        for region, dac in dac_by_region.items():
            logger.info(f"  {region}: {dac:.2f}%")
        # Visualize DAC benefit by region
        plt.figure(figsize=(10, 6))
        dac_by_region.plot(kind='barh')
        plt.title('DAC Benefit Percentage by Region')
        plt.xlabel('DAC Benefit Percentage')
        plt.ylabel('Region')
        plt.grid(axis='x', alpha=0.3)
        plt.tight_layout()
        if output_dir:
            plt.savefig(output_dir / "regional_dac_benefit.png", dpi=300)
        plt.close()
    # 5. Efficiency vs Equity by Region
    if 'ghg_efficiency' in df.columns and 'dac_benefit_percentage' in df.columns:
        # Filter to valid data
        valid_data = df[(df['ghg_efficiency'].notna()) & 
                      (df['dac_benefit_percentage'].notna()) &
                      (df['ghg_efficiency'] > 0) & 
                      (df['ghg_efficiency'] < df['ghg_efficiency'].quantile(0.95))]
        # Calculate regional metrics
        region_metrics = valid_data.groupby('ca_region').agg({
            'ghg_efficiency': 'median',
            'dac_benefit_percentage': 'mean',
            'ca_region': 'count'
        }).rename(columns={'ca_region': 'project_count'})
        # Create scatter plot
        plt.figure(figsize=(10, 8))
        scatter = plt.scatter(
            region_metrics['ghg_efficiency'],
            region_metrics['dac_benefit_percentage'],
            s=region_metrics['project_count'] / 10,  # Size based on project count
            alpha=0.7
        )
        # Add region labels
        for region in region_metrics.index:
            plt.annotate(
                region,
                (region_metrics.loc[region, 'ghg_efficiency'], 
                 region_metrics.loc[region, 'dac_benefit_percentage']),
                textcoords="offset points",
                xytext=(5, 5),
                ha='left'
            )
        # Add quadrant lines
        median_efficiency = region_metrics['ghg_efficiency'].median()
        median_dac = region_metrics['dac_benefit_percentage'].median()
        plt.axvline(x=median_efficiency, color='gray', linestyle='--', alpha=0.5)
        plt.axhline(y=median_dac, color='gray', linestyle='--', alpha=0.5)
        # Add quadrant labels
        plt.text(0.98, 0.98, 'High Cost,\nHigh Equity', transform=plt.gca().transAxes, 
               ha='right', va='top', bbox=dict(facecolor='white', alpha=0.7))
        plt.text(0.02, 0.98, 'Low Cost,\nHigh Equity', transform=plt.gca().transAxes, 
               ha='left', va='top', bbox=dict(facecolor='white', alpha=0.7))
        plt.text(0.98, 0.02, 'High Cost,\nLow Equity', transform=plt.gca().transAxes, 
               ha='right', va='bottom', bbox=dict(facecolor='white', alpha=0.7))
        plt.text(0.02, 0.02, 'Low Cost,\nLow Equity', transform=plt.gca().transAxes, 
               ha='left', va='bottom', bbox=dict(facecolor='white', alpha=0.7))
        plt.xlabel('GHG Efficiency ($ per ton CO2e)')
        plt.ylabel('DAC Benefit Percentage')
        plt.title('Efficiency vs. Equity by Region')
        plt.grid(True, linestyle='--', alpha=0.7)
        if output_dir:
            plt.savefig(output_dir / "regional_efficiency_equity.png", dpi=300)
        plt.close()
    # 6. Generate a summary text file
    if output_dir:
        with open(output_dir / "regional_analysis_summary.txt", 'w') as f:
            f.write("CALIFORNIA CLIMATE INVESTMENTS (CCI) REGIONAL ANALYSIS\n")
            f.write("===================================================\n\n")
            f.write("REGIONAL DISTRIBUTION\n")
            for region, count in region_counts.items():
                f.write(f"{region}: {count} projects ({region_percent[region]:.1f}%)\n")
            if 'ghg_efficiency' in df.columns:
                f.write("\nGHG EFFICIENCY BY REGION ($ PER TON CO2E, MEDIAN)\n")
                for region, efficiency in efficiency_by_region.items():
                    f.write(f"{region}: ${efficiency:.2f}\n")
            if 'dac_benefit_percentage' in df.columns:
                f.write("\nDAC BENEFIT PERCENTAGE BY REGION\n")
                for region, dac in dac_by_region.items():
                    f.write(f"{region}: {dac:.2f}%\n")
            f.write("\nKEY FINDINGS\n")
            # Add key findings based on the analysis
            if 'ghg_efficiency' in df.columns and 'dac_benefit_percentage' in df.columns:
                # Identify top performing regions
                best_efficiency_region = efficiency_by_region.index[0]
                best_dac_region = dac_by_region.index[0]
                f.write(f"1. {best_efficiency_region} achieves the best GHG efficiency (${efficiency_by_region[best_efficiency_region]:.2f} per ton).\n")
                f.write(f"2. {best_dac_region} achieves the highest DAC benefit ({dac_by_region[best_dac_region]:.2f}%).\n")
                # Identify balanced regions (good in both dimensions)
                low_cost_high_equity = region_metrics[(region_metrics['ghg_efficiency'] < median_efficiency) & 
                                                   (region_metrics['dac_benefit_percentage'] > median_dac)]
                if len(low_cost_high_equity) > 0:
                    top_balanced = low_cost_high_equity.index[0]
                    f.write(f"3. {top_balanced} achieves the best balance between efficiency and equity.\n")
                # Check for regional disparities
                max_efficiency_diff = efficiency_by_region.max() / efficiency_by_region.min() if efficiency_by_region.min() > 0 else 0
                max_dac_diff = dac_by_region.max() - dac_by_region.min()
                f.write(f"4. Regional disparities: {max_efficiency_diff:.1f}x variation in efficiency, {max_dac_diff:.1f} percentage point variation in DAC benefits.\n")
        logger.info(f"Saved regional analysis summary to {output_dir / 'regional_analysis_summary.txt'}")
    logger.info("Regional analysis completed")
 if __name__ == "__main__":
    import argparse
    parser = argparse.ArgumentParser(description='Analyze regional distribution of CCI projects')
    parser.add_argument('--input_path', type=str, required=True, help='Path to the cleaned CCI data CSV file')
    parser.add_argument('--output_path', type=str, help='Path to save findings and visualizations')
    args = parser.parse_args()
    analyze_regional_distribution(args.input_path, args.output_path)
--- a/research_analysis_script.py
+++ b/research_analysis_script.py
--- a/run_cci_analysis.py
+++ b/run_cci_analysis.py
@@ -0,0 +1,122 @@
 #!/usr/bin/env python3
 """
 California Climate Investments (CCI) Collaboration Analysis Workflow
 This script runs the complete workflow for analyzing collaboration patterns
 in California's Climate Investments program and their impact on greenhouse
 gas reduction efficiency and equity outcomes.
 Usage:
    python run_cci_analysis.py --data_path data/cci_programs_data_reduced.csv --output_dir output
 """
 import os
 import argparse
 import logging
 from pathlib import Path
 # Configure logging
 logging.basicConfig(level=logging.INFO, 
                   format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger("cci_workflow")
 def main():
    """Run the complete CCI collaboration analysis workflow."""
    parser = argparse.ArgumentParser(description='Run CCI Collaboration Analysis Workflow')
    parser.add_argument('--data_path', type=str, required=True, help='Path to the raw CCI data CSV file')
    parser.add_argument('--output_dir', type=str, default='./output', help='Directory to save all outputs')
    parser.add_argument('--skip_cleaning', action='store_true', help='Skip the data cleaning step')
    parser.add_argument('--skip_analysis', action='store_true', help='Skip the detailed analysis step')
    parser.add_argument('--skip_research', action='store_true', help='Skip the research questions analysis')
    args = parser.parse_args()
    # Create output directory
    output_dir = Path(args.output_dir)
    output_dir.mkdir(parents=True, exist_ok=True)
    # File paths
    raw_data_path = args.data_path
    cleaned_data_path = output_dir / "cleaned_cci_data.csv"
    data_summary_path = output_dir / "data_summary.json"
    # Create subdirectories for different analysis outputs
    cleaned_output_dir = output_dir / "cleaned"
    analysis_output_dir = output_dir / "analysis"
    research_output_dir = output_dir / "research"
    for directory in [cleaned_output_dir, analysis_output_dir, research_output_dir]:
        directory.mkdir(parents=True, exist_ok=True)
    # Step 1: Clean and prepare the data
    if not args.skip_cleaning:
        logger.info("Step 1: Cleaning and preparing the CCI data")
        try:
            from data_cleaning_script import clean_and_prepare_cci_data, generate_data_summary
            # Clean and prepare the data
            cleaned_df = clean_and_prepare_cci_data(raw_data_path, cleaned_data_path)
            # Generate data summary
            generate_data_summary(cleaned_df, data_summary_path)
            logger.info(f"Data cleaning complete. Cleaned data saved to {cleaned_data_path}")
            logger.info(f"Data summary saved to {data_summary_path}")
        except Exception as e:
            logger.error(f"Error in data cleaning step: {e}")
            return
    else:
        logger.info("Skipping data cleaning step")
        # Check if cleaned data exists
        if not cleaned_data_path.exists():
            logger.error(f"Cleaned data file {cleaned_data_path} not found. Cannot proceed without data.")
            return
    # Step 2: Run the detailed collaboration analysis
    if not args.skip_analysis:
        logger.info("Step 2: Running detailed collaboration analysis")
        try:
            from cci_collaboration_analysis import CCICollaborationAnalyzer
            # Initialize the analyzer
            analyzer = CCICollaborationAnalyzer(cleaned_data_path, str(analysis_output_dir))
            # Run full analysis
            analyzer.run_full_analysis()
            logger.info(f"Detailed analysis complete. Results saved to {analysis_output_dir}")
        except Exception as e:
            logger.error(f"Error in detailed analysis step: {e}")
            logger.error("Continuing to research analysis with available data...")
    else:
        logger.info("Skipping detailed analysis step")
    # Step 3: Analyze specific research questions
    if not args.skip_research:
        logger.info("Step 3: Analyzing research questions")
        try:
            from research_analysis_script import analyze_research_questions
            # Run research analysis
            findings = analyze_research_questions(cleaned_data_path, str(research_output_dir))
            if findings:
                logger.info(f"Research analysis complete. Results saved to {research_output_dir}")
            else:
                logger.error("Research analysis failed to complete successfully")
        except Exception as e:
            logger.error(f"Error in research analysis step: {e}")
    else:
        logger.info("Skipping research analysis step")
    logger.info("CCI Collaboration Analysis Workflow complete!")
 if __name__ == "__main__":
    main()