Spaces:

Qwen
/

Qwen2.5-Turbo-1M-Demo

Running

App Files Files Community

feihu.hf commited on Nov 18

Commit

602373e

•

1 Parent(s): 7f72bb4

update file types

Browse files

Files changed (3) hide show

app.py +1 -1
patching.py +32 -3
web_ui.py +2 -1

app.py CHANGED Viewed

@@ -71,7 +71,7 @@ def app_gui():
                         'max_retries': 10,
                     }},
                     name='Qwen-Turbo-1M',
-                    description='Qwen-Turbo natively supports input length of up to 1M tokens. You can upload documents for Q&A, supporting file types: PDF/Word/PPT/TXT/HTML.',
                     rag_cfg={'max_ref_token': 1000000, 'rag_searchers': ['no_search']},
                 )
     chatbot_config = {

                         'max_retries': 10,
                     }},
                     name='Qwen-Turbo-1M',
+                    description='Qwen-Turbo natively supports input length of up to 1M tokens. You can upload documents for Q&A (eg., pdf/docx/pptx/txt/html).',
                     rag_cfg={'max_ref_token': 1000000, 'rag_searchers': ['no_search']},
                 )
     chatbot_config = {

patching.py CHANGED Viewed

@@ -68,6 +68,35 @@ def memory_run(self, messages: List[Message], lang: str = 'en', **kwargs) -> Ite
 Memory._run = memory_run
 def SimpleDocParser_call(self, params: Union[str, dict], **kwargs) -> Union[str, list]:
     params = self._verify_json_format_args(params)
@@ -88,7 +117,7 @@ def SimpleDocParser_call(self, params: Union[str, dict], **kwargs) -> Union[str,
         time1 = time.time()
         f_type = get_file_type(path)
-        if f_type in PARSER_SUPPORTED_FILE_TYPES:
             if path.startswith('https://') or path.startswith('http://') or re.match(
                     r'^[A-Za-z]:\\', path) or re.match(r'^[A-Za-z]:/', path):
                 path = path
@@ -108,7 +137,7 @@ def SimpleDocParser_call(self, params: Union[str, dict], **kwargs) -> Union[str,
             parsed_file = parse_word(path, self.extract_image)
         elif f_type == 'pptx':
             parsed_file = parse_ppt(path, self.extract_image)
-        elif f_type == 'txt':
             parsed_file = parse_txt(path)
         elif f_type == 'html':
             parsed_file = parse_html_bs(path, self.extract_image)
@@ -120,7 +149,7 @@ def SimpleDocParser_call(self, params: Union[str, dict], **kwargs) -> Union[str,
             parsed_file = parse_excel(path, self.extract_image)
         else:
             raise ValueError(
-                f'Failed: The current parser does not support this file type! Supported types: {"/".join(PARSER_SUPPORTED_FILE_TYPES)}'
             )
         for page in parsed_file:
             for para in page['content']:

 Memory._run = memory_run
+common_programming_language_extensions = [
+    "py",  # Python
+    "java",  # Java
+    "cpp",  # C++
+    "c",  # C
+    "h",  # C/C++ 头文件
+    "cs",  # C#
+    "js",  # JavaScript
+    "ts",  # TypeScript
+    "rb",  # Ruby
+    "php",  # PHP
+    "swift",  # Swift
+    "go",  # Go
+    "rs",  # Rust
+    "kt",  # Kotlin
+    "scala",  # Scala
+    "m",  # Objective-C
+    "css",  # CSS
+    "sql",  # SQL
+    "sh",  # Shell
+    "pl",  # Perl
+    "r",  # R
+    "jl",  # Julia
+    "dart",  # Dart
+    "json",  # JSON
+    "xml",  # XML
+    "yml",  # YAML
+    "toml",  # TOML
+]
 def SimpleDocParser_call(self, params: Union[str, dict], **kwargs) -> Union[str, list]:
     params = self._verify_json_format_args(params)
         time1 = time.time()
         f_type = get_file_type(path)
+        if f_type in PARSER_SUPPORTED_FILE_TYPES + common_programming_language_extensions:
             if path.startswith('https://') or path.startswith('http://') or re.match(
                     r'^[A-Za-z]:\\', path) or re.match(r'^[A-Za-z]:/', path):
                 path = path
             parsed_file = parse_word(path, self.extract_image)
         elif f_type == 'pptx':
             parsed_file = parse_ppt(path, self.extract_image)
+        elif f_type == 'txt' or f_type in common_programming_language_extensions:
             parsed_file = parse_txt(path)
         elif f_type == 'html':
             parsed_file = parse_html_bs(path, self.extract_image)
             parsed_file = parse_excel(path, self.extract_image)
         else:
             raise ValueError(
+                f'Failed: The current parser does not support this file type! Supported types: {"/".join(PARSER_SUPPORTED_FILE_TYPES + common_programming_language_extensions)}'
             )
         for page in parsed_file:
             for para in page['content']:

web_ui.py CHANGED Viewed

@@ -10,6 +10,7 @@ from qwen_agent.gui.utils import convert_fncall_to_text, convert_history_to_chat
 from qwen_agent.llm.schema import CONTENT, FILE, IMAGE, NAME, ROLE, USER, Message
 from qwen_agent.log import logger
 from qwen_agent.utils.utils import print_traceback
 class WebUI:
     """A Common chatbot application for agent."""
@@ -129,7 +130,7 @@ class WebUI:
                                               'display': True
                                           }])
-                    input = mgr.MultimodalInput(placeholder=self.input_placeholder, upload_button_props=dict(file_types=[".pdf", ".doc", ".docx", ".ppt", ".pptx", ".txt", ".html"]))
                 with gr.Column(scale=1):
                     if len(self.agent_list) > 1:

 from qwen_agent.llm.schema import CONTENT, FILE, IMAGE, NAME, ROLE, USER, Message
 from qwen_agent.log import logger
 from qwen_agent.utils.utils import print_traceback
+from patching import common_programming_language_extensions
 class WebUI:
     """A Common chatbot application for agent."""
                                               'display': True
                                           }])
+                    input = mgr.MultimodalInput(placeholder=self.input_placeholder, upload_button_props=dict(file_types=[".pdf", ".docx", ".pptx", ".txt", ".html", ".csv", ".tsv", ".xlsx", ".xls"] + ["." + file_type for file_type in common_programming_language_extensions]))
                 with gr.Column(scale=1):
                     if len(self.agent_list) > 1: