Spaces:

bigcomputer
/

arena-annotation-progress

Running

App Files Files Community

Terry Zhuo commited on 4 days ago

Commit

881554c

1 Parent(s): 7168226

update

Browse files

Files changed (1) hide show

azure_count_ip_data.py +140 -24

azure_count_ip_data.py CHANGED Viewed

@@ -262,27 +262,77 @@ def get_first_user_prompt(content: str) -> Optional[str]:
             first_message = messages[0]
             if isinstance(first_message, list) and len(first_message) > 1:
                 # Format: ["<|im_start|>user", "hello"]
-                return first_message[1]
         # Format 2: state.messages array with {"role": "user", "content": "hello"} format
         if messages and len(messages) > 0:
             first_message = messages[0]
             if isinstance(first_message, dict) and 'content' in first_message:
-                return first_message.get('content')
         # Format 3: Direct messages array in the root
         messages = first_line_data.get('messages', [])
         if messages and len(messages) > 0:
             first_message = messages[0]
             if isinstance(first_message, list) and len(first_message) > 1:
-                return first_message[1]
             elif isinstance(first_message, dict) and 'content' in first_message:
-                return first_message.get('content')
         # Format 4: Look for a specific user role key
         for key in ['user', 'human', 'Human']:
             if key in first_line_data:
-                return first_line_data[key]
         log.warning(f"Could not extract first user prompt from content: {content[:200]}...")
         return None
@@ -318,25 +368,33 @@ def get_unique_prompts_per_annotator(reader: 'RemoteLogReader', start_date_str:
                 # Process each conversation
                 for conv_id, messages in battle_anony_logs.items():
                     if messages:
-                        # Convert messages to file content format
-                        content = '\n'.join(json.dumps(msg) for msg in messages)
-                        # First check if the conversation passes the vote conditions
-                        ip, username, vote_conditions_met = get_file_data(content)
-                        # Only proceed if vote conditions are met
-                        if vote_conditions_met:
-                            # Get annotator name from either IP or username
-                            annotator_name = get_annotator_name(ip, username)
-                            if annotator_name:
-                                # Extract first user prompt
-                                first_prompt = get_first_user_prompt(content)
-                                if first_prompt:
-                                    # Strip whitespace and check if it's not in the example prompts list
-                                    cleaned_prompt = first_prompt.strip()
-                                    if cleaned_prompt and cleaned_prompt not in EXAMPLE_PROMPTS:
-                                        # Add to set of unique prompts for this annotator
-                                        annotator_prompts[annotator_name].add(cleaned_prompt.lower())
             except Exception as e:
                 log.error(f"Error processing logs for date {date_str}: {e}")
@@ -510,6 +568,57 @@ def export_unique_prompts_to_csv(reader: 'RemoteLogReader', output_file: str, st
     print(f"Exported {len(rows)} unique prompts to {output_file}")
 def main():
     # Initialize RemoteLogReader
     reader = RemoteLogReader()
@@ -520,8 +629,15 @@ def main():
     parser.add_argument('--download', action='store_true', help='Enable file download')
     parser.add_argument('--export-prompts', action='store_true', help='Export unique prompts to CSV')
     parser.add_argument('--output-file', default='unique_prompts.csv', help='Output file for unique prompts (default: unique_prompts.csv)')
     args = parser.parse_args()
     # Download files if enabled
     if args.download:
         print("\nDownloading files and organizing by annotator name...")

             first_message = messages[0]
             if isinstance(first_message, list) and len(first_message) > 1:
                 # Format: ["<|im_start|>user", "hello"]
+                message_content = first_message[1]
+                # Ensure message_content is a string
+                if isinstance(message_content, str):
+                    return message_content
+                elif isinstance(message_content, list):
+                    # If it's a list, try to join it or get the first element
+                    if message_content and all(isinstance(item, str) for item in message_content):
+                        return ' '.join(message_content)
+                    elif message_content and isinstance(message_content[0], str):
+                        return message_content[0]
+                return str(message_content) if message_content else None
         # Format 2: state.messages array with {"role": "user", "content": "hello"} format
         if messages and len(messages) > 0:
             first_message = messages[0]
             if isinstance(first_message, dict) and 'content' in first_message:
+                message_content = first_message.get('content')
+                # Ensure message_content is a string
+                if isinstance(message_content, str):
+                    return message_content
+                elif isinstance(message_content, list):
+                    # If it's a list, try to join it or get the first element
+                    if message_content and all(isinstance(item, str) for item in message_content):
+                        return ' '.join(message_content)
+                    elif message_content and isinstance(message_content[0], str):
+                        return message_content[0]
+                return str(message_content) if message_content else None
         # Format 3: Direct messages array in the root
         messages = first_line_data.get('messages', [])
         if messages and len(messages) > 0:
             first_message = messages[0]
             if isinstance(first_message, list) and len(first_message) > 1:
+                message_content = first_message[1]
+                # Ensure message_content is a string
+                if isinstance(message_content, str):
+                    return message_content
+                elif isinstance(message_content, list):
+                    # If it's a list, try to join it or get the first element
+                    if message_content and all(isinstance(item, str) for item in message_content):
+                        return ' '.join(message_content)
+                    elif message_content and isinstance(message_content[0], str):
+                        return message_content[0]
+                return str(message_content) if message_content else None
             elif isinstance(first_message, dict) and 'content' in first_message:
+                message_content = first_message.get('content')
+                # Ensure message_content is a string
+                if isinstance(message_content, str):
+                    return message_content
+                elif isinstance(message_content, list):
+                    # If it's a list, try to join it or get the first element
+                    if message_content and all(isinstance(item, str) for item in message_content):
+                        return ' '.join(message_content)
+                    elif message_content and isinstance(message_content[0], str):
+                        return message_content[0]
+                return str(message_content) if message_content else None
         # Format 4: Look for a specific user role key
         for key in ['user', 'human', 'Human']:
             if key in first_line_data:
+                message_content = first_line_data[key]
+                # Ensure message_content is a string
+                if isinstance(message_content, str):
+                    return message_content
+                elif isinstance(message_content, list):
+                    # If it's a list, try to join it or get the first element
+                    if message_content and all(isinstance(item, str) for item in message_content):
+                        return ' '.join(message_content)
+                    elif message_content and isinstance(message_content[0], str):
+                        return message_content[0]
+                return str(message_content) if message_content else None
         log.warning(f"Could not extract first user prompt from content: {content[:200]}...")
         return None
                 # Process each conversation
                 for conv_id, messages in battle_anony_logs.items():
                     if messages:
+                        try:
+                            # Convert messages to file content format
+                            content = '\n'.join(json.dumps(msg) for msg in messages)
+                            # First check if the conversation passes the vote conditions
+                            ip, username, vote_conditions_met = get_file_data(content)
+                            # Only proceed if vote conditions are met
+                            if vote_conditions_met:
+                                # Get annotator name from either IP or username
+                                annotator_name = get_annotator_name(ip, username)
+                                if annotator_name:
+                                    # Extract first user prompt
+                                    try:
+                                        first_prompt = get_first_user_prompt(content)
+                                        if first_prompt:
+                                            # Strip whitespace and check if it's not in the example prompts list
+                                            cleaned_prompt = first_prompt.strip()
+                                            if cleaned_prompt and cleaned_prompt not in EXAMPLE_PROMPTS:
+                                                # Add to set of unique prompts for this annotator
+                                                annotator_prompts[annotator_name].add(cleaned_prompt.lower())
+                                        else:
+                                            log.warning(f"Could not extract first user prompt for conversation {conv_id}")
+                                    except Exception as e:
+                                        log.error(f"Error processing first prompt for conversation {conv_id}: {e}")
+                        except Exception as e:
+                            log.error(f"Error processing conversation {conv_id}: {e}")
             except Exception as e:
                 log.error(f"Error processing logs for date {date_str}: {e}")
     print(f"Exported {len(rows)} unique prompts to {output_file}")
+def debug_problematic_conversations(reader: 'RemoteLogReader', date_str: str) -> None:
+    """Debug function to identify problematic conversations for a specific date
+    Args:
+        reader: RemoteLogReader instance
+        date_str: The date in YYYY_MM_DD format
+    """
+    try:
+        # Get conversation logs for battle_anony mode
+        conv_logs = reader.get_conv_logs(date_str)
+        battle_anony_logs = conv_logs.get('battle_anony', {})
+        print(f"Found {len(battle_anony_logs)} conversations for date {date_str}")
+        # Process each conversation
+        for conv_id, messages in battle_anony_logs.items():
+            if not messages:
+                continue
+            try:
+                # Convert messages to file content format
+                content = '\n'.join(json.dumps(msg) for msg in messages)
+                # Check if the conversation passes the vote conditions
+                ip, username, vote_conditions_met = get_file_data(content)
+                if vote_conditions_met:
+                    # Get annotator name from either IP or username
+                    annotator_name = get_annotator_name(ip, username)
+                    if annotator_name:
+                        # Try to extract first user prompt
+                        try:
+                            first_prompt = get_first_user_prompt(content)
+                            if first_prompt:
+                                print(f"Conversation {conv_id} - Annotator: {annotator_name} - First prompt: {first_prompt[:50]}...")
+                            else:
+                                print(f"WARNING: Could not extract first user prompt for conversation {conv_id} - Annotator: {annotator_name}")
+                                # Print the first line of the content for debugging
+                                first_line = content.split('\n')[0]
+                                print(f"First line: {first_line[:200]}...")
+                        except Exception as e:
+                            print(f"ERROR: Error processing first prompt for conversation {conv_id}: {e}")
+                            # Print the first line of the content for debugging
+                            first_line = content.split('\n')[0]
+                            print(f"First line: {first_line[:200]}...")
+            except Exception as e:
+                print(f"ERROR: Error processing conversation {conv_id}: {e}")
+    except Exception as e:
+        print(f"ERROR: Error processing logs for date {date_str}: {e}")
 def main():
     # Initialize RemoteLogReader
     reader = RemoteLogReader()
     parser.add_argument('--download', action='store_true', help='Enable file download')
     parser.add_argument('--export-prompts', action='store_true', help='Export unique prompts to CSV')
     parser.add_argument('--output-file', default='unique_prompts.csv', help='Output file for unique prompts (default: unique_prompts.csv)')
+    parser.add_argument('--debug-date', help='Debug problematic conversations for a specific date (format: YYYY_MM_DD)')
     args = parser.parse_args()
+    # Debug problematic conversations if date is provided
+    if args.debug_date:
+        print(f"\nDebugging problematic conversations for date {args.debug_date}...")
+        debug_problematic_conversations(reader, args.debug_date)
+        return
     # Download files if enabled
     if args.download:
         print("\nDownloading files and organizing by annotator name...")